Entropy, Cross-Entropy, KL Divergence

정보량

정보이론에서는 자주 일어나지 않는 사건의 정보량은 자주 발생하는 사건보다 정보량이 많다고 간주함

정보량을 확률에 대한 함수 (0~1) 로 정의한다면

사건A이 일어날 확률 P(A)로 사건 A의 정보량 h(A)을 정의하면

h(A):=−logP(A)

Example

이산확률변수(discrete random variable)의 평균 정보량, 불확실성 정도를 나타냄

이산확률변수 X의 평균 정보량 H[X]는

$H[X]= ∑p_i log p_i, i=1 ~to~ N$

Example

두 확률분포의 다른 정도를 측정. Relative entropy 라고도 하며 정식 명칭은 Kullback–Leibler divergence이다.

$K L ( p | q ) := − ∑ p_ i log q_ i − ( − ∑ p_ i log p_ i )=− ∑ p_ i log ( q_ i p _i )$

주어진 확률변수 X 에 대해서 확률분포 p 를 찾는 문제에서 확률분포 p 의 정확한 형태를 모르기 때문에 p 를 예측한 근사 분포 q 를 생각할 것이다.

정확한 확률분포를 얻기 위해 q 의 parameter들을 update하면서 q 를 p 에 근사할 것이다

즉. 두 분포의 차이를 측정하는 KL(p|q)가 최소가 되는 q를 찾는 문제가 됨

KL(p|q) 의 두 번째항 ($−∑p_i log p_i$) 는 근사분포 q에 무관한 항이므로

KL Divergence를 최소화 하는 것은 결국 첫 번째 항 cross-entropy를 최소화하는 q를 찾아야 한다.

$K L ( p | q ) := − ∑ p_ i log q_ i$

여기서 p =( p i ) 는 실제 확률분포를 의미하고 q=( q i ) 는 p 를 근사한 분포다.

Last updated 2 years ago

Was this helpful?