본문 바로가기

머신러닝

(미완성)머신러닝 성능 평가지표 1. 혼동 행렬 각 테스트 데이터에 대한 모델의 예측 결과를 참 양성, 참 음성, 거짓 양성, 거짓 음성의 4가지 관점에서 분류하고, 각각에 해당하는 예측 결과의 개수를 정리한 표이다. 1) 정확도 혼동 행렬의 각 개수를 바탕으로 성능평가지표로 정확도 확인 가능 2) F값 데이터가 한쪽으로 치우쳐 있는 상태에서 정확도라는 지표를 사용하는 것은 매우 위험하다. 머신러닝에서는 적합률 ( 정밀도 ), 재현ㄴ율, F값이라는 지표로 성능을 평가하는 경우가 많다. 적합률은 양성으로 예측된 데이터 중 실제로 양성인 것의 비율이다. 재현율은 실제 양성 데이터 중 양성으로 예측된 것의 비율이다. 트레이드 오프 관계 ( 상충 관계 ) 한쪽을 추구하면 반대쪽을 희생하게 되는 상태 2. PR 곡선 ( Precision Rec.. 더보기
(미완성)머신러닝 지도 학습의 흐름 컴퓨터 스스로 답을 찾아 데이터의 패턴으로 만든 기준을 모델이라고 한다. 지도 학습의 흐름 1. 데이터 수집 2. 데이터 클렌징 3. 머신러닝 기법으로 데이터 학습 4. 테스트 데이터로 성능 테스트 5. 머신러닝 모델을 웹 환경 등에서 구현 지도 학습에서는 취급하는 데이터는 훈련 데이터와 테스트 데이터로 나누어 사용한다. 훈련 데이터는 학습에 사용하는 데이터이며, 테스트 데이터는 학습된 모델을 평가할 때 사용한다. 데이터를 분리하는 방법 1. 홀드아웃 방법 주어진 데이터셋을 훈련 데이터와 테스트 데이터 2가지로 분할하여 사용한다. 2. K-분할 교차검증 훈련 데이터셋을 K개로 분할한 뒤 K-1개의 데이터는 학습 데이터셋으로 사용하고, 나머지 1개를 모델 테스트에 사용한다. LOOCV ( Leave One.. 더보기
(미완성)머신러닝 학습 방식을 크게 3가지로 나누다 1. 지도학습(supervised learning) 지도학습은 데이터를 읽어서 원하는 정답에 근접하도록 반복 처리하는 형태입니다. 1) 분류 2) 회귀 2. 비지도 학습(unsupervised learning) 비지도 학습은 주어진 데이터에 대한 규칙성을 발견하여 학습하는 형태입니다. 1) 클러스터링 3. 강화학습(reinforcement learning) 강화학습 또한 비지도 학습니다. 강화학습은 에이전트가 환경에 대해 행동하고, 그 결과로 얻은 보상에 따라 다음 행동을 결정하는 형태입니다. 더보기