본문 바로가기

카테고리 없음

(미완성)머신러닝 성능 평가지표

728x90

1. 혼동 행렬

각 테스트 데이터에 대한 모델의 예측 결과를 참 양성, 참 음성, 거짓 양성, 거짓 음성의 4가지 관점에서 분류하고, 각각에 해당하는 예측 결과의 개수를 정리한 표이다.

 

1) 정확도

혼동 행렬의 각 개수를 바탕으로 성능평가지표로 정확도 확인 가능

 

2) F값

데이터가 한쪽으로 치우쳐 있는 상태에서 정확도라는 지표를 사용하는 것은 매우 위험하다.

머신러닝에서는 적합률 ( 정밀도 ), 재현ㄴ율, F값이라는 지표로 성능을 평가하는 경우가 많다.

적합률은 양성으로 예측된 데이터 중 실제로 양성인 것의 비율이다.

재현율은 실제 양성 데이터 중 양성으로 예측된 것의 비율이다.

 

트레이드 오프 관계 ( 상충 관계 )

한쪽을 추구하면 반대쪽을 희생하게 되는 상태

 

2. PR 곡선 ( Precision Recall Cruve )

PR 곡선은 가로축을 재현율, 세로축을 적합률로 한 그래프이다.

 

1) 적합률이 높고, 재현율이 낮은 상태

낭비는 적지만 손빌이 많은 판정을 하고 있는 상태

기회 손실 ( Opportunity loss ) 이 발생하고 있다.

 

2) 적합률이 낮고, 재현율이 높은 상태

손실은 적지만 낭비가 많은 판정을 하고 있는 상태

접근 ( Approach ) 에 예산이 낭비될 가능성이 높다.

 

3) 손익분기점 ( Break Even Point )

적합률과 재현율이 일치하는 점이 존재한다.

이 점은 적합률과 재현율의 관계를 균형 있게 유지하면서 비용과 이익을 최적화할 수 있기 때문에 중요한 개념이다.