본문 바로가기
AI/Basics

Mutual Information

by Ladun 2023. 7. 24.

Introduction


Mutual Information은 하나의 확률변수다른 하나의 확률 변수에 대해 제공하는 정보의 양을 의미합니다. 다른 말로 하면 다른 확률변수를 통해 하나의 확률변수가 얻게되는 정보량을 의미합니다.

Mutual Information


Mutual Information I(X;Y)I(X;Y)라고 정의할 때, 식은 다음과 같습니다.

I(X;Y)DKL(p(x,y)p(x)p(y))=yxp(x,y)logp(x,y)p(x)p(y)=x,yp(x,y)logp(x,y)xp(x)logp(x)yp(y)logp(y)=H(X,Y)+H(X)+H(Y)=H(X)H(XY)=H(Y)H(YX)=I(Y;X)\begin{aligned} I(X;Y) &\triangleq D_{KL}(p(x,y)||p(x)p(y)) = \sum_{y}\sum_{x}p(x,y)\log\cfrac{p(x,y)}{p(x)p(y)}\\ &=\sum_{x,y}p(x,y)\log p(x,y) - \sum_{x}p(x)\log p(x) - \sum_{y}p(y)\log p(y)\\ &=-H(X,Y) + H(X) + H(Y)\\ &=H(X) - H(X|Y)\\ &= H(Y) - H(Y|X) = I(Y;X) \end{aligned}
  • H(X)=p(x)logp(x)H(X) = -\sum p(x)\log p(x)로 엔트로피를 의미하는 수식입니다.
  • H(X,Y)+H(X)+H(Y)=H(X)H(XY)-H(X,Y) + H(X) + H(Y) = H(X) - H(X|Y)가 되는 이유
    H(X)H(X,Y)=xp(x)logp(x)+x,yp(x,y)logp(x,y)=x,yp(x,y)logp(x)+x,yp(x,y)logp(x,y)=x,yp(x)logp(x,y)p(x)=x,yp(x)logp(yx)=H[YX]\begin{aligned} H(X) - H(X,Y) &= -\sum_xp(x)\log p(x) + \sum_{x,y}p(x,y) \log p(x,y)\\ &= -\sum_{x,y}p(x,y)\log p(x) + \sum_{x,y}p(x,y) \log p(x,y)\\ &= \sum_{x,y}p(x) \log\cfrac{p(x,y)}{p(x)} \\ &= \sum_{x,y}p(x) \log p(y|x) = -H[Y|X] \end{aligned}

위에서 풀어서 쓴 수식을 보면 Mutual Information에 대해서 설명해주고 있습니다.

먼저, H(X)H(X)는 X라는 확률변수에 대한 엔트로피를 의미하고, H(XY)H(X|Y)는 Y가 주어졌을 때의 엔트로피를 의미합니다.

수식을 보면 새로운 Y라는 정보가 주어졌을 때, 기존 X에 대해서만 알고있는 정보가 아닌 Y라는 정보를 통해서 얻어진 새로운 정보에 대한 엔트로피의 차이라고 볼 수 있습니다.

  • 예를 들어서, 어떤 사람이 병원에 왔을 때, 이 사람이 코로나인지 아닌지를 단순히 기침, 열로만 판단하고 있었는데, PCR검사라는 새로운 정보를 통해서 코로나 여부를 검사하였을 때 엔트로피의 차이를 계산한 것이라고 보면 될 거 같습니다.

그렇다면 엔트로피의 차이가 의미하는 것이 무엇일까요?

  • 먼저 특정 확률변수에 대해서 엔트로피가 높다는 것은 해당 확률변수에서 사건들이 일어날 확률이 균등하다고 보면 됩니다. Uniform distribution같은 경우를 보면 될 거 같습니다.
  • 반대로 엔트로피가 낮다는 것은 특정 사건에 대해서만 확률이 높은 상황. 즉, 확률분포가 치우져진 모양이라고 보면 될 거 같습니다.

즉, 엔트로피의 차이가 크다는 것은 기존에는 사건들이 균등하게 일어나는 상황에서 추가적인 정보를 얻으므로써 특정 사건에 대한 확률이 올라갔다고 볼 수 있습니다.

Mutual Information은 이와 같이 우리가 새로 얻은 정보가 우리가 원하는 사건에 대해서 얼마나 영향을 미치는 지를 보는 지표라고 볼 수 있습니다.

Reference



Uploaded by N2T

'AI > Basics' 카테고리의 다른 글

Maximum Entropy Principle  (0) 2023.07.28
MLE, MAP  (0) 2023.07.28
Manifold  (0) 2023.07.28
Probability vs Likelihood  (0) 2023.07.24