Introduction
이번 글에서 RL이나 다양한 분야에서 자주 보이는 Maximum Entropy Principle이라는 것에 대해서 정리해볼 것입니다.
Entropy를 최대화함으로써 이득이 되는 것이 무엇인지를 알아보겠습니다.
다양한 분야에서 사용되는 용어이지만, 이번글에서는 확률분포에 맞추어서 글을 작성하겠습니다.
What is “Maximum Entropy Principle”
Maximum Entropy Principle이란 확률 분포에 대해 부족하거나 불완전한 정보를 가지고 있는 경우, 가장 적절한 예측은 Entropy를 최대화하는 것을 의미합니다.
여기서 말하는 Entropy란 Information Theory에서 말하는 Shannon Entropy를 말합니다. 이는 어떤 분포에 대한 불확실성을 수치화하 것입니다.
즉, 우리가 어떤 확률 분포에 대한 정보가 부족하거나 불완전 혹은 제한된 조건을 가지고 있을 때, 해당 분포가 Unifrom distribution에 가까운 형태를 가질 수 있도록 하게 만드는 것입니다.
확률분포가 가질 수 있는 모든 경우에 대해서 동일한 확률을 가지게 함으로써 중립적이며 확정적이지 않는 분포를 가지게 하는 것입니다.
이는 확률 분포에 대해서 오컴의 면도날의 적용이라고 볼 수 있습니다. 가정을 최소화함으로써 가장 간단한 가설을 선호하는 방법입니다. 추가적인 가정을 통해서 해당 분포가 어떤 정보에 대해서 중립적이지 않은 형태보다는 단순화함으로써 중립적인 형태가 더 좋지 않을까라는 의미에서 이렇게 볼 수 있습니다.
Maximum Entropy의 이점
확률 분포의 불확실성이 높아짐으로써 몇 가지 이점이 있습니다.
- 정보의 중립성: 높은 불확실성을 갖는 확률 분포는 특정한 가정이나 선입견 없이 정보를 나타내기 때문에 중립성을 보장합니다. 이는 공정한 결정을 내리거나, 객관적인 판단을 위해 유용할 수 있습니다.
- 정보의 효율성: 불확실성이 높은 확률 분포는 다양한 가능성을 고려하므로, 적은 정보로도 대부분의 가능성을 포괄적으로 표현할 수 있습니다. 이는 정보의 효율적인 전달이나 저장에 도움을 줄 수 있습니다.
- 예측력과 일반화 능력: 불확실성이 높은 확률 분포는 다양한 결과를 수용하는 성향이 있어, 새로운 데이터나 상황에 대한 예측력과 일반화 능력이 향상될 수 있습니다. 이는 모델링이나 예측 작업에서 유용하게 활용될 수 있습니다.
이 말들을 다시 정리하면, Maximum Entropy를 가진다는 것은 해당 분포가 Uniform distribution에 가까운 형태를 가진다는 의미입니다. 높은 불확실성이라는 것은 해당 분포가 어떤 경우에도 비슷한 확률을 가지고 있기 때문에 불확실성이 높다는 것이고, 모든 경우에 대해서 비슷한 확률을 가지기 때문에 포괄적인 표현이 가능하다는 것을 의미합니다.
물론 그렇다고 불확실성이 높은 것이 항상 옳은 것은 아닙니다.
Reference
Uploaded by N2T
'AI > Basics' 카테고리의 다른 글
MLE, MAP (0) | 2023.07.28 |
---|---|
Manifold (0) | 2023.07.28 |
Mutual Information (0) | 2023.07.24 |
Probability vs Likelihood (0) | 2023.07.24 |