728x90
1. 혼동 행렬
각 테스트 데이터에 대한 모델의 예측 결과를 참 양성, 참 음성, 거짓 양성, 거짓 음성의 4가지 관점에서 분류하고, 각각에 해당하는 예측 결과의 개수를 정리한 표이다.
1) 정확도
혼동 행렬의 각 개수를 바탕으로 성능평가지표로 정확도 확인 가능
2) F값
데이터가 한쪽으로 치우쳐 있는 상태에서 정확도라는 지표를 사용하는 것은 매우 위험하다.
머신러닝에서는 적합률 ( 정밀도 ), 재현ㄴ율, F값이라는 지표로 성능을 평가하는 경우가 많다.
적합률은 양성으로 예측된 데이터 중 실제로 양성인 것의 비율이다.
재현율은 실제 양성 데이터 중 양성으로 예측된 것의 비율이다.
트레이드 오프 관계 ( 상충 관계 )
한쪽을 추구하면 반대쪽을 희생하게 되는 상태
2. PR 곡선 ( Precision Recall Cruve )
PR 곡선은 가로축을 재현율, 세로축을 적합률로 한 그래프이다.
1) 적합률이 높고, 재현율이 낮은 상태
낭비는 적지만 손빌이 많은 판정을 하고 있는 상태
기회 손실 ( Opportunity loss ) 이 발생하고 있다.
2) 적합률이 낮고, 재현율이 높은 상태
손실은 적지만 낭비가 많은 판정을 하고 있는 상태
접근 ( Approach ) 에 예산이 낭비될 가능성이 높다.
3) 손익분기점 ( Break Even Point )
적합률과 재현율이 일치하는 점이 존재한다.
이 점은 적합률과 재현율의 관계를 균형 있게 유지하면서 비용과 이익을 최적화할 수 있기 때문에 중요한 개념이다.