Just Do IT

이진 분류기의 성능 평가 척도 (Confusion Matrix) 본문

AI Study/ML 개념

이진 분류기의 성능 평가 척도 (Confusion Matrix)

풀용 2022. 2. 4. 19:35

본 포스팅은 유튜브 이수안컴퓨터연구소의 강의를 정리하여 만들었습니다.

https://www.youtube.com/watch?v=fVUinLbWBeQ&list=PL7ZVZgsnLwEF6iyCXbinHLm9nhokrPjdy&index=11

1. Confusion Matrix

Confusion Matrix - Wekipedia

이진분류기(binary classifier)란 두개의 분류만을 갖는 데이터에 대한 분류기를 말한다.

  • True Positive(TP): 실제 True인 답을 True라고 예측
  • False Positive(FP): 실제 False인 답을 True라고 예측
  • True Negative(TN): 실제 False인 답을 False라고 예측
  • False Negative(FN): 실제 True인 답을 False라고 예측

2. 민감도(Sensitivity), 재현율(Recall)

TP / (TP + FN)

  • TP와 FN 즉, 실제 정답이 True인 것들 중 분류결과도 True로 분류한 data의 확률을 말한다.

3. 특이도(Specificity)

TN / (FP + TN)

  • FP와 TN 즉, 실제 정답이 False인 것들 중 분류결과도 False로 분류한 data의 확률을 말한다.

4. 양성예측도(Positive Predictive Value),정밀도(Precision)

TP / (TP + FP)

  • TP, FP, 즉, 분류 결과가 True인 것들 중 실제 정답도 True인 data의 확률을 말한다.

5. 음성예측도(Negative Predictive Value)

TN / (TN + FN)

  • TN, FN, 즉, 분류 결과가 False인 것들 중 실제 정답도 False인 data의 확률을 말한다.

위양성율(False Positive Rate)

FP / (FP + TN) = 1 - Specificity

  • FP와 TN 즉, 실제 정답이 False인 것들 중 분류결과가 True로 분류한 data의 확률을 말한다.
  • 1 - Specificity 값으로도 구할 수 있다.

위발견율(False Discovery Rate)

FP / (TP + FP) = 1 - Precision

  • TP, FP, 즉, 분류 결과가 True인 것들 중 실제 정답은 False인 data의 확률을 말한다.
  • 1 - Precision 값으로도 구할 수 있다.

정확도(Accuracy)

(TP + TN) / (TP + FP + TN + FN)

  • 전체 데이터 중에 잘 예측한 TP와 TN인 data의 확률을 말한다.

F1 측도(F1 score)

2 * ((Precision * Recall) / (Precision + Recall))

  • 데이터가 불균형할 때 모델의 성능을 정확하게 평가할 수 있다.
  • 성능을 단일 값으로 표현 할 수 있다.

ROC곡선과 AUC

Wekipedia - ROC curve

ROC (Receiver operating characteristic)

  • 위양성율(X축)과 민감도 그래프(Y축)
  • 무작위로 예측한 Random guess축을 기준으로 좌상단으로 갈수록 좋고(Better) 우하단으로 갈수록 좋지 않다(Worse)고 볼 수 있다.

AUC (Area Under the Curve)

  • ROC곡선의 하단 면적을 뜻한다.
  • 면적이 클수록 학습이 잘 됐다고 볼 수 있다.
Comments