nlp2 [Metric] BLEU (Bilingual Evaluation Understudy) BLUE BLEU(Bilingual Evaluation Understudy) score란 성과지표로 데이터의 X가 순서정보를 가진 단어들(문장)로 이루어져 있고, y 또한 단어들의 시리즈(문장)로 이루어진 경우에 사용되며, 번역을 하는 모델에 주로 사용됩니다. 3가지 요소를 살펴보겠습니다. n-gram을 통한 순서쌍들이 얼마나 겹치는지 측정(precision) 문장길이에 대한 과적합 보정 (Brevity Penalty) 같은 단어가 연속적으로 나올때 과적합 되는 것을 보정(Clipping) $$\text{BP} = \begin{cases} 1 &\text{if } c > r\\ e^{(1-r/c)}& \text{if } c \le r \end{cases}\\BLEU = \text{BP}\cdot\exp\.. 2021. 10. 2. [Metric] ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ROUGE ROUGE (Recall-Oriented Understudy for Gisting Evaluation)는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이다. ROUGE는 일반적으로 n-gram recall을 기준으로 평가한 metric으로 보면 된다. 간단하게 요약을 하면 BLEU의 recall 버전이라고 볼 수 있다. (실제로는 다르다) 근데 상황에 따라서 recall, precision, F1 score로 다 표현하기 때문에 ROUGE-N recall/precision/f1 score 식으로 표기한다. 일단 N-gram에 대한 ROUGE-N의 식은 다음과 같다. $$ROUGE-N = \cfrac{\text{Number of overlapped n-gram}.. 2021. 10. 2. 이전 1 다음