Binary Variable
- 베르누이 분포 $\text{Bern}(x \vert \mu) = \mu^x(1-\mu)^{1-x}$
- $\mathbb E[x] = \mu$
$\text{var}[x] = \mu(1-\mu)$ - 가능도에 log likelihood 를 취하면 binary cross-entropy 가 된다
- 따라서 BCE 를 사용해서 모델을 학습시키면, likelihood 를 베르누이 분포로 둔 뒤 MLE 를 시행하는 것으로 해석할 수 있다
- 이것 - cross-entropy 를 베르누이나 softmax 분포의 negative log-likelihood 로 보는 것 - 을 부적절한 해석으로 보기도 하는데, 정확히는, negative log-likelihood 를 포함하는 그 어떤 loss도 다음과 같이 해석될 수 있다 - empirical distribution defined by training dataset 과 probability distribution by model 사이의 cross-entropy.
$\rightarrow$ 모든 negative log-likelihood loss 는 cross-entropy 이다?
예를 들어, MSE loss 는 empirical distribution 과 gaussian 사이의 cross-entropy 이다.- 원문: Many authors use the term “cross-entropy” toidentify specifically the negative log-likelihood of a Bernoulli or softmax distribution,but that is a misnomer. Any loss consisting of a negative log-likelihood is a cross-entropy between the empirical distribution defined by the training set and theprobability distribution defined by model. For example, mean squared error is thecross-entropy between the empirical distribution and a Gaussian model. - deep learning book p.130
- 이것 - cross-entropy 를 베르누이나 softmax 분포의 negative log-likelihood 로 보는 것 - 을 부적절한 해석으로 보기도 하는데, 정확히는, negative log-likelihood 를 포함하는 그 어떤 loss도 다음과 같이 해석될 수 있다 - empirical distribution defined by training dataset 과 probability distribution by model 사이의 cross-entropy.
$\rightarrow$ 모든 negative log-likelihood loss 는 cross-entropy 이다?
- 실제 분포 p와 예측 분포 q의 cross-entropy 는 $\text{KL}(p\vert\vert q) - H[p]$ 로도 볼 수 있고, 따라서 분포에 대한 가정 없이- 두 분포 사이의 불확실성의 차이를 줄여나가는 것으로 해석할 수도 있다
- 이 해석은 보다 general 한 해석이며 당연히 BCE 에서만 해당하는 이야기는 아니다
- 따라서 BCE 를 사용해서 모델을 학습시키면, likelihood 를 베르누이 분포로 둔 뒤 MLE 를 시행하는 것으로 해석할 수 있다
- ML estimator 는 다음과 같다. $\mu_{ML} = \frac{1}{N} \sum_{n=1}^Nx_n$
- 베르누이 분포에서 $\mu$ 는 성공할 확률과 같다. 우리가 동전을 던지는데, 10번 던져서 6번 성공하면, 성공할 확률을 0.6 으로 대충 생각할 수 있다.
- 이런 사고의 흐름은, 내가 동전을 던져서 나오는 결과(사건, random variable $x$) 의 확률분포를 베르누이 분포로 모델링한 뒤 파라미터 $\mu$ 를 MLE 로 구한 것과 같다 - $x\in \{0, 1\}$
- 베르누이 분포에서 $\mu$ 는 성공할 확률과 같다. 우리가 동전을 던지는데, 10번 던져서 6번 성공하면, 성공할 확률을 0.6 으로 대충 생각할 수 있다.
- 베르누이 분포는 $x=0$ 일 때 $1-\mu$, $x=1$ 일 때 $\mu$ 에 이고 그 사이는 완만한 곡선으로 이어져 있다.
- $\mathbb E[x] = \mu$
- 이항 분포 $\text{Bin}(m \vert N, \mu) = {n\choose m}\mu^m(1-\mu)^{N-m}$
- 고등학교 때 많이 봐서 익숙하다
- $\mathbb E[m] = N\mu$, $\text{var} = N\mu(1-\mu)$ 이다.
- 정규분포 근사 공식이 아직도 기억에 남는다.. $\text{B}(n, p) \approx \mathcal N(Np, Np(1-p))$
- 베타 분포
- 이항 분포의 결레 분포이다 - likelihood 로 이항 분포를 쓸 때, prior 로 베타 분포를 posterior 또한 베타 분포가 되고 계산이 쉬워진다.
- $E[\mu]=\frac{a}{a+b}$, $\text{var}[\mu] = \frac{ab}{(a+b)^2(a+b+1)}$
- 이항 분포 식과 아주 유사하다
- 감마 함수는 실수의 팩토리얼을 만들기 위해 오일러가 만든 함수이고, $\Gamma(x) = (x-1)!$ 을 만족하는 식이다
- 감마를 팩토리얼이라고 생각하면 아주 유사해진다
- $a, b$ 와 $\mu$ 사이에 어떤 연관이 있는 것인지, 이항 분포와 형태가 같을 뿐 어떤 연관은 따로 없는 것인가? 단지 형태를 맞췄을 뿐일까?
- 이항분포는 $N$ 번 던져서 몇 번 성공할까에 대한 분포였다면, 베타분포는 $a+b$ 번 던져서 몇 번 성공할까에 대한 분포 같다. 그리고 후자의 분포는 곧 전자에서 $\mu$ 의 분포가 된다.
- 어떤 관계가 있는 거지?
first draft: 2023.03.24 20:04