본문 바로가기

AI15

Maximum Entropy Principle IntroductionWhat is “Maximum Entropy Principle”Maximum Entropy의 이점Reference Introduction이번 글에서 RL이나 다양한 분야에서 자주 보이는 Maximum Entropy Principle이라는 것에 대해서 정리해볼 것입니다.Entropy를 최대화함으로써 이득이 되는 것이 무엇인지를 알아보겠습니다. 다양한 분야에서 사용되는 용어이지만, 이번글에서는 확률분포에 맞추어서 글을 작성하겠습니다.What is “Maximum Entropy Principle”Maximum Entropy Principle이란 확률 분포에 대해 부족하거나 불완전한 정보를 가지고 있는 경우, 가장 적절한 예측은 Entropy를 최대화하는 것을 의미합니다.여기서 말하는 En.. 2023. 7. 28.
MLE, MAP IntroductionWhat is “Bayes's theorem”Maximum Likelihood Estimation?Maximum A Posterior?MAP ⇒ MLEMAP vs MLEReferenceIntroduction이번 글에서는 MLE와 MAP가 어떤 것이며, 이 둘의 차이에 대해서 정리해보겠습니다.What is “Bayes's theorem”베이즈 정리(Bayes’s theorem) 우리가 평소에 확률에 대해서 다룰 때 많이 보는 법칙입니다. 이 정리는 다음과 같은 조건부 확률 계산식입니다. P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta|X) = \cfrac{P(X|\theta)P(\theta)}{P(X)}P(θ∣X)=P(X)P(X∣θ)P(θ)​XXX: 관측된 데이터, Observ.. 2023. 7. 28.
Manifold IntroductionWhat is “Manifold”Manifold HypothesisReferenceIntroduction여러 논문들을 보다보면 Manifold라는 단어는 자주 나오지만 이에 대해서 이해하기 어려웠습니다. 그래서 이번글을 통해서 해당 개념을 정리해보겠습니다.What is “Manifold”Manifold의 사전적인 의미를 보면 “국소적으로 유클리드 공간과 닮은 위상 공간이다”라고 적혀있습니다. 다르게 말하면 공간의 부분집합들이 국소적으로 유클리드 공간과 닮은 구조를 가지는 공간을 의미합니다.사전적인 의미로는 수학적인 정의로 되어 있어 이것이 의미하는 바를 직접적으로 이해하기도 힘듭니다.그래도 먼저 사전적인 의미를 예제로 가볍게 살펴보겠습니다.“국소적으로 유클리드 공간과 닮아있다.”라는.. 2023. 7. 28.
Mutual Information IntroductionMutual InformationReference IntroductionMutual Information은 하나의 확률변수가 다른 하나의 확률 변수에 대해 제공하는 정보의 양을 의미합니다. 다른 말로 하면 다른 확률변수를 통해 하나의 확률변수가 얻게되는 정보량을 의미합니다.Mutual InformationMutual Information I(X;Y)I(X;Y)I(X;Y)라고 정의할 때, 식은 다음과 같습니다.I(X;Y)≜DKL(p(x,y)∣∣p(x)p(y))=∑y∑xp(x,y)log⁡p(x,y)p(x)p(y)=∑x,yp(x,y)log⁡p(x,y)−∑xp(x)log⁡p(x)−∑yp(y)log⁡p(y)=−H(X,Y)+H(X)+H(Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=I(Y;.. 2023. 7. 24.
Probability vs Likelihood IntroductionProbabilityLikelihoodProbability vs LikelihoodReference Introduction인공지능을 공부하다 보면 확률(Probability)과 우도(Likelihood)에 대한 개념이 자주 나옵니다. 이 둘은 뭔가 비슷하게 느껴져서 가끔씩 헷갈리는 경우가 생깁니다. 이번 글에서는 이에 대해서 정리해보겠습니다.Probability확률(Probability)은 관측값 혹은 관측 구간이 “확률 분포 안에서 어느 정도의 값으로 존재하는 가”를 나타냅니다.이러한 설명은 뭔가 직관적으로 와닿지 않습니다. 좀 더 쉽게 설명하면 과거 데이터를 기반으로 미래의 사건이 발생할 가능성을 나타내는 개념으로 볼 수 있습니다.이를 저희는 분포라는 고정된 모델에서 관측한 데이.. 2023. 7. 24.
Batch size에 대해 이번 글에서는 간단하게 Batch Size와 학습, 학습 시간에 대해서 정리해보겠습니다. 먼저 Batch란 학습을 할 때 모델에 한 번에 들어가게 되는 데이터 집합을 의미한다고 볼 수 있습니다. 학습할 때 준비한 Train 데이터 전체를 모델에 입력으로 넣을 수 없기 때문에 이를 나눈 것을 Batch라고 생각하시면 될 것같습니다. 이 때 이 Batch에 포함된 데이터의 개수를 Batch Size라고 합니다. 아래 그림은 Batch size에 대한 그림입니다. epoch은 Train 데이터 전체를 한 번 보는 기준으로 생각하면 될 것같습니다. Batch Size와 학습 시간 그렇다면 Batch Size와 학습은 어떤 관계가 있을까요? 일반적으로 GPU를 이용하여 학습을 진행하기 때문에 GPU를 사용하고, .. 2022. 2. 7.
Model의 Bias-Variance 이번 글에서는 AI 혹은 머신러닝을 공부할 때 자주 듣게 되는 개념 중 하나인 Model의 Bias-Variance에 대해서 정리하겠습니다. 잘못된 정보나 이상한 내용에 대한 지적은 환영합니다. Bias, Variance Bias란 번역하면 편향이라고 하며, 모델이 예측한 값과 실제 정답 간의 오차를 의미합니다. Variance란 번역하면 분산이라고 하며, 모델이 예측한 값이 서로 얼마나 퍼져있나를 의미하는 수치입니다. Bias, Variance를 단순하게 정의로만 보면 이를 이해하기가 어렵습니다. (저의 경우에는 직관적으로 개념이 머리에 들어오지 않았습니다.) 그래서 공으로 분류하는 Task를 예시로 사용해보겠습니다. Bias 축구공, 농구공, 탁구공 등(데이터)이 들어왔을 때, 우리는 이것들을 공이라.. 2022. 2. 3.
Macro-average, Micro-average Macro와 Micro Average는 평균을 구하는 방법입니다. 먼저 각 방법에 대해서 간략하게 설명해보면 다음과 같습니다. Macro: 평균의 평균을 구하는 방법입니다. Micro: 전체의 평균을 구하는 방법입니다. 이를 좀 더 수식적으로 풀어 Precision, Recall, F1 스코어에 대입해서 보겠습니다. 먼저 N개의 카테고리가 있고 이를 Model $M$이 분류하는 Task를 풀고 있다고 가정을 해보겠습니다. 이때 Model $M$이 분류한 결과의 True Positive, False Positive, True Negative, False Negative를 $TP_i, FP_i, TN_i, FN_i,\ \ i=1, 2, ..., N$라 하겠습니다. 추가적으로 각 i번째 카테고리에 해당하는 P.. 2022. 2. 3.
CutMix 이번 글에서는 Data augmentation 기법 중 하나인 CutMix에 대해서 살펴볼 것입니다. 기존에 이미지 기반 테스크에서 성능을 높이기 위해서 이미지의 일부분을 잘라서 0으로 채우거나(Cutout) 다른 이미지와 겹치는(Mixup)과 같은 여러 기법이 사용되었습니다. 이러한 방법들을 통해서 이미지의 덜 중요한 부분까지 포커싱하게 만드는 regional dropout 전략을 사용해왔습니다. 하지만 Table 1에서 보이는 것과 같이 이미지의 정보가 손실되거나 왜곡되는 현상 때문에 오히려 성능이 감소하는 문제가 발생했습니다. CutMix는 기존 방법에서 더 나아가 cut-and-paste 방법을 취해서 현 이미지의 패치를 다른 이미지의 패치로 채우는 기법을 사용하여 높은 성능을 가져왔습니다. Al.. 2022. 1. 27.