본문 바로가기

metric4

Macro-average, Micro-average Macro와 Micro Average는 평균을 구하는 방법입니다. 먼저 각 방법에 대해서 간략하게 설명해보면 다음과 같습니다. Macro: 평균의 평균을 구하는 방법입니다. Micro: 전체의 평균을 구하는 방법입니다. 이를 좀 더 수식적으로 풀어 Precision, Recall, F1 스코어에 대입해서 보겠습니다. 먼저 N개의 카테고리가 있고 이를 Model $M$이 분류하는 Task를 풀고 있다고 가정을 해보겠습니다. 이때 Model $M$이 분류한 결과의 True Positive, False Positive, True Negative, False Negative를 $TP_i, FP_i, TN_i, FN_i,\ \ i=1, 2, ..., N$라 하겠습니다. 추가적으로 각 i번째 카테고리에 해당하는 P.. 2022. 2. 3.
[Metric] Recall과 Precision 딥러닝뿐만 아니라 머신러닝을 배우다 보면 모델의 성능을 평가하는 지표가 자주 나옵니다. 이 글에서는 모델을 평가하는 지표 중에서 가장 대표적이라고 할 수 있는 지표들에 대해서 살펴봅니다. Confusion Matrix 모델에 대한 평가는 일반적으로 실제 정답과 모델이 내놓은 정답간의 관계를 통해서 구할 수 있습니다. 정답이 True, False로 나누어져 있고, 모델이 True, False로 답을 내놓을 때 이에 대한 관계를 2x2 matrix로 표현하면 아래와 같은 표로 표현할 수 있습니다. matrix의 간 칵에 있는 것을 살펴보면 다음과 같이 볼 수 있습니다. True Positive(TP): 실제 True이고 모델이 True라고 분류한 경우 ( 정답 ) False Positive(FP): 실제 T.. 2021. 10. 3.
[Metric] BLEU (Bilingual Evaluation Understudy) BLUE BLEU(Bilingual Evaluation Understudy) score란 성과지표로 데이터의 X가 순서정보를 가진 단어들(문장)로 이루어져 있고, y 또한 단어들의 시리즈(문장)로 이루어진 경우에 사용되며, 번역을 하는 모델에 주로 사용됩니다. 3가지 요소를 살펴보겠습니다. n-gram을 통한 순서쌍들이 얼마나 겹치는지 측정(precision) 문장길이에 대한 과적합 보정 (Brevity Penalty) 같은 단어가 연속적으로 나올때 과적합 되는 것을 보정(Clipping) $$\text{BP} = \begin{cases} 1 &\text{if } c > r\\ e^{(1-r/c)}& \text{if } c \le r \end{cases}\\BLEU = \text{BP}\cdot\exp\.. 2021. 10. 2.
[Metric] ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ROUGE ROUGE (Recall-Oriented Understudy for Gisting Evaluation)는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이다. ROUGE는 일반적으로 n-gram recall을 기준으로 평가한 metric으로 보면 된다. 간단하게 요약을 하면 BLEU의 recall 버전이라고 볼 수 있다. (실제로는 다르다) 근데 상황에 따라서 recall, precision, F1 score로 다 표현하기 때문에 ROUGE-N recall/precision/f1 score 식으로 표기한다. 일단 N-gram에 대한 ROUGE-N의 식은 다음과 같다. $$ROUGE-N = \cfrac{\text{Number of overlapped n-gram}.. 2021. 10. 2.