머신 러닝(Machine Learning) 의 분류 모형(Classification Model) 을 평가하는 지표들에는 여러 가지가 있는데 혼동되기가 쉽기 때문에 정리하여 소개하려고 합니다.
용어는 예측에 대한 참/거짓으로 정의합니다.
● TP(True Positive): 예측한 값이 Positive 이고 실제 값도 Positive 인 경우
● FP(False Positive): 예측한 값이 Positive 이고 실제 값은 Negative 인 경우
● TN(True Negative): 예측한 값이 Nagative 이고 실제 값도 Negative 인 경우
● FN(False Negative): 예측한 값이 Negative 이고 실제 값은 Positive 인 경우
1. 정확도 (Accuracy)
전체 중 올바르게 예측한 비율
TP + TN / 전체 (TP+FP+TN+FN)
2. 오분류율 (Error Rate)
전체 중 잘못 예측한 비율
FN+FP / 전체 (TP+FP+TN+FN)
3. 재현율 (Recall)
실제 참 중 올바르게 예측한 비율
TP / TP+FN
4. 특이도 (Specificity)
실제 거짓 중 올바르게 예측한 비율
TN/ FP+TN
5. 정밀도 (Precision)
올바른 예측 중 실제 참인 비율
TP/ TP+FP
6. F1 Score
재현율과 정밀도의 조화평균으로 값이 높을 수록 좋다.
2* 재현율 * 정밀도 / 재현율 + 정밀도
7. F-Beta Score
(1+beta ^2) * 재현율 * 정밀도 / {(beta^2 * 정밀도) + 재현율}
● |beta| =1 이면 F1 과 동일합니다.
● |beta| >1 이면 재현율의 가중치가 높습니다.
● |beta| <1 이면 정밀도의 가중치가 높습니다.
8. 거짓 긍정률 (False Positive Rate)
실제 거짓 중 잘못 예측한 비율
FP/ FP+TN
'데이터 사이언스 기초' 카테고리의 다른 글
시계열 분석 (0) | 2024.11.02 |
---|---|
거리 측도 (0) | 2024.10.31 |
SQL 유용한 코드 (0) | 2024.10.30 |
데이터 분석 관련 개념 (1) | 2024.10.29 |
유용한 파이썬 코드 2 (0) | 2024.10.18 |