본문 바로가기

카테고리 없음

(미완성)머신러닝 지도 학습의 흐름

728x90

컴퓨터 스스로 답을 찾아 데이터의 패턴으로 만든 기준을 모델이라고 한다.

 

지도 학습의 흐름

1. 데이터 수집

2. 데이터 클렌징

3. 머신러닝 기법으로 데이터 학습

4. 테스트 데이터로 성능 테스트

5. 머신러닝 모델을 웹 환경 등에서 구현

 

지도 학습에서는 취급하는 데이터는 훈련 데이터와 테스트 데이터로 나누어 사용한다.

훈련 데이터는 학습에 사용하는 데이터이며, 테스트 데이터는 학습된 모델을 평가할 때 사용한다.

 

데이터를 분리하는 방법

1. 홀드아웃 방법

주어진 데이터셋을 훈련 데이터와 테스트 데이터 2가지로 분할하여 사용한다.

2. K-분할 교차검증

훈련 데이터셋을 K개로 분할한 뒤 K-1개의 데이터는 학습 데이터셋으로 사용하고, 나머지 1개를 모델 테스트에 사용한다.

LOOCV ( Leave One Out Cross Validation )

SVM ( Support Vector Machine )

 

과적합 ( Overfitting )

일부 편중된 데이터에 과하게 학습되어 올바른 기준을 구축하지 못한 상태를 과적합이라고 한다.

1. 과적합 

데이터를 과도하게 학습한 상태

2. 과소적합

데이터를 제대로 학습하지 못한 상태

 

과적합의 해결

1. 드롭아웃 ( Dropout )

학습시 무작위로 일부 뉴런을 없애는 방법

 

2. 정규화 ( Regularization Nomalization )

편향된 데이터의 영향을 없애는 방법

 

앙상블 학습 ( Ensemble Learning )

여러 모델을 학습 시킴으로써 데이터의 일반화를 획득하려는 시도

 

배깅 ( Bagging )

복수의 모델을 동시에 학습시켜 예측 결과의 평균을 취하는 것으로 예측 결과의 일반화를 시도한다.

 

부스팅 ( Boosting )

모델의 예측 결과에 대한 모델을 만들어 일반화 성능을 높이는 기술