데이터 사이언스 기초

ML 분류 모형 평가 지표

skbaek1223 2024. 10. 30. 20:53

머신 러닝(Machine Learning) 의 분류 모형(Classification Model) 을 평가하는 지표들에는 여러 가지가 있는데 혼동되기가 쉽기 때문에 정리하여 소개하려고 합니다.

 

용어는 예측에 대한 참/거짓으로 정의합니다.

 

● TP(True Positive): 예측한 값이 Positive 이고 실제 값도 Positive 인 경우

 

● FP(False Positive): 예측한 값이 Positive 이고 실제 값은 Negative 인 경우

 

● TN(True Negative): 예측한 값이 Nagative 이고 실제 값도 Negative 인 경우

 

● FN(False Negative): 예측한 값이 Negative 이고 실제 값은 Positive 인 경우

 

1. 정확도 (Accuracy)

 

전체 중 올바르게 예측한 비율

 

TP + TN / 전체 (TP+FP+TN+FN)

 

2. 오분류율 (Error Rate)

 

전체 중 잘못 예측한 비율

 

FN+FP / 전체 (TP+FP+TN+FN)

 

3. 재현율 (Recall)

 

실제 참 중 올바르게 예측한 비율

 

TP / TP+FN

 

4. 특이도 (Specificity)

 

실제 거짓 중 올바르게 예측한 비율

 

TN/ FP+TN

 

5. 정밀도 (Precision)

 

올바른 예측 중 실제 참인 비율

 

TP/ TP+FP

 

6. F1 Score 

 

재현율과 정밀도의 조화평균으로 값이 높을 수록 좋다.

 

2* 재현율 * 정밀도 / 재현율 + 정밀도

 

7. F-Beta Score

 

(1+beta ^2) * 재현율 * 정밀도 / {(beta^2 * 정밀도) + 재현율}

 

● |beta| =1 이면 F1 과 동일합니다.

 

● |beta| >1 이면 재현율의 가중치가 높습니다.

 

● |beta| <1 이면 정밀도의 가중치가 높습니다.

 

8. 거짓 긍정률 (False Positive Rate)

 

실제 거짓 중 잘못 예측한 비율

 

FP/ FP+TN

 

'데이터 사이언스 기초' 카테고리의 다른 글

시계열 분석  (0) 2024.11.02
거리 측도  (0) 2024.10.31
SQL 유용한 코드  (0) 2024.10.30
데이터 분석 관련 개념  (1) 2024.10.29
유용한 파이썬 코드 2  (0) 2024.10.18