Entropy, Cross-Entropy, KL Divergence
Last updated
Last updated
์ ๋ณด์ด๋ก ์์๋ ์์ฃผ ์ผ์ด๋์ง ์๋ ์ฌ๊ฑด์ ์ ๋ณด๋์ ์์ฃผ ๋ฐ์ํ๋ ์ฌ๊ฑด๋ณด๋ค ์ ๋ณด๋์ด ๋ง๋ค๊ณ ๊ฐ์ฃผํจ
์ ๋ณด๋์ ํ๋ฅ ์ ๋ํ ํจ์ (0~1) ๋ก ์ ์ํ๋ค๋ฉด
์ฌ๊ฑดA์ด ์ผ์ด๋ ํ๋ฅ P(A)๋ก ์ฌ๊ฑด A์ ์ ๋ณด๋ h(A)์ ์ ์ํ๋ฉด
h(A):=โlogP(A)
Example
P(A)=0.99 --> ์ ๋ณด๋์ h(A)=โlogP(A)=โlog0.99=0.01
P(B)=0.01 --> ์ ๋ณด๋์ h(B)=โlogP(B)=โlog0.01= 4.61
์ด์ฐํ๋ฅ ๋ณ์(discrete random variable)์ ํ๊ท ์ ๋ณด๋, ๋ถํ์ค์ฑ ์ ๋๋ฅผ ๋ํ๋
์ด์ฐํ๋ฅ ๋ณ์ X์ ํ๊ท ์ ๋ณด๋ H[X]๋
Example
P(X=0)=0.5, P(X=1)=0.5 H[X]=โ(0.5log0.5+0.5log0.5)=0.69 (<-- max. entropty)
P(X=0)=0.8, P(X=1)=0.2, H[X]=โ(0.8log0.8+0.2log0.2)=0.50
P(X=0)=1, P(X=1)=0, H[X]=โ(1log1+0log0)=0.
๋ ํ๋ฅ ๋ถํฌ์ ๋ค๋ฅธ ์ ๋๋ฅผ ์ธก์ . Relative entropy ๋ผ๊ณ ๋ ํ๋ฉฐ ์ ์ ๋ช ์นญ์ KullbackโLeibler divergence์ด๋ค.
์ฃผ์ด์ง ํ๋ฅ ๋ณ์ X ์ ๋ํด์ ํ๋ฅ ๋ถํฌ p ๋ฅผ ์ฐพ๋ ๋ฌธ์ ์์ ํ๋ฅ ๋ถํฌ p ์ ์ ํํ ํํ๋ฅผ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ p ๋ฅผ ์์ธกํ ๊ทผ์ฌ ๋ถํฌ q ๋ฅผ ์๊ฐํ ๊ฒ์ด๋ค.
์ ํํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ป๊ธฐ ์ํด q ์ parameter๋ค์ updateํ๋ฉด์ q ๋ฅผ p ์ ๊ทผ์ฌํ ๊ฒ์ด๋ค
์ฆ. ๋ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ KL(p|q)๊ฐ ์ต์๊ฐ ๋๋ q๋ฅผ ์ฐพ๋ ๋ฌธ์ ๊ฐ ๋จ
KL(p|q) ์ ๋ ๋ฒ์งธํญ ($โโp_i log p_i$) ๋ ๊ทผ์ฌ๋ถํฌ q์ ๋ฌด๊ดํ ํญ์ด๋ฏ๋ก
KL Divergence๋ฅผ ์ต์ํ ํ๋ ๊ฒ์ ๊ฒฐ๊ตญ ์ฒซ ๋ฒ์งธ ํญ cross-entropy๋ฅผ ์ต์ํํ๋ q๋ฅผ ์ฐพ์์ผ ํ๋ค.
์ฌ๊ธฐ์ p =( p i ) ๋ ์ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ์๋ฏธํ๊ณ q=( q i ) ๋ p ๋ฅผ ๊ทผ์ฌํ ๋ถํฌ๋ค.