728x90
안정적인 일반화 성능 측정 방법인 교차 검증 소개
score 메서드가 제공하는 정확도와 R 값 이외에 분류와 회귀 성능을 측정하는 방법 소개
1. 교차 검증
K-fold cross validation
- 데이터를 먼저 fold(폴드)라고 하는 비슷한 크기의 부분 집합 다섯 개로 나눈다.
- 모델 생성
- 첫 번째 모델은 첫 번째 폴드를 테스트 세트로 사용, 나머지 폴드를 훈련 세트로 사용하여 학습
- 두 번째 모델은 두 번째 폴드를 테스트 세트로 사용….
- K 번째 모델은 K 번째 폴드를 테스트 세트로 사용(K는 주로 5 or 10)
- K개의 정확도 값을 얻게 됨
- 장점
- 테스트 세트에 각 샘플이 정확하게 한 번씩 들어간다.
- 분할을 한 번 했을 때보다 데이터를 더 효과적으로 사용할 수 있음
- 단점
- 연산 비용이 늘어난다. 모델을 k개 만들어야 하므로 데이터를 한번 나눈 것 보다 k배 느림
2. 그리드 서치(Grid Search)
- 모델에게 가장 적합한 하이퍼 파라미터를 찾는 것
- SVM 매개변수 설정 테이블(그리드)(커널의 폭: gamma, 규제 매개변수: C)
- 관심 있는 매개변수들을 대상으로 가능한 모든 조합을 시도하여 최적의 매개변수 조합을 찾음
- C와 gamma 값에 따른 교차 검증 평균 점수 히트맵
- 히트맵의 각 포인트는 특정 매개변수 설정에 대한 교차 검증 실행
- 각 매개변수의 최적 값이 그래프 끝에 놓이지 않도록 범위를 넓히는 것도 중요
- 매개변수 과대적합과 검증세트
- training set: 모델 생성
- validation set: 모델의 매개변수 선택
- test set: 선택된 매개변수의 성능 평가
- 일반화 성능을 더 잘 평가하려면 훈련 세트와 검증 세트를 한 번만 나누지 않고 교차 검증을 사용해서 각 매개변수 조합의 성능을 평가
3. 평가 지표와 측정
이진 분류의 평가 지표
- 에러의 종류: 1종 오류 / 2종 오류
- 불균형 데이터셋: 한 클래스가 다른 것보다 훨씬 많은 데이터셋
- 오차 행렬(confusion matrix)
- 이진 분류 평가 결과를 나타낼 때 가장 많이 사용하는 방법
- 정확도: 정확히 예측한 수/ 전체 샘플 수
- 정밀도: 양성으로 예측된 것 중 진짜 양성인 것
- 재현율(민감도): 모든 양성 샘플을 식별해야할 때 사용하는 지표
- F1-점수: 정밀도와 재현율의 조화 평균
- ROC와 AUC
- ROC curve: 여러 임계값에서 분류기의 특성을 분석하는데 사용하는 도구
- 진짜 양성 비율(TPR)에 대한 거짓 양성 비율(FPR)을 나타냄
- AUC: area under the curve (0~1)
- 불균형한 데이터셋에서는 정확도보다 AUC가 훨씬 좋은 지표
다중 분류의 평가 지표
- 다중 분류에서 불균형 데이터셋을 위해 가장 많이 사용: f1-score
회귀의 평가 지표
- 회귀 추정기의 score 메서드에서 이용하는 R2로 충분
- 일반적으로 R2이 회귀 모델 평가하는데 더 나은 지표
Reference
- 핸즈온 머신러닝 책
728x90
반응형
'Study > 머신러닝' 카테고리의 다른 글
[ML] 데이터 표현과 특성 공학 (0) | 2024.04.04 |
---|---|
[ML] 비지도 학습과 데이터 전처리 (0) | 2024.04.03 |
[ML] 지도학습(Supervised Learning) 요약 정리 (0) | 2024.04.03 |
[ML] Machine Learning 스터디 개요 (1) | 2024.04.03 |