Study/머신러닝

[ML] 비지도 학습과 데이터 전처리

potato_pizza 2024. 4. 3. 23:52
728x90
비지도 학습(unsupervised learning): 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝

 

1. 비지도 학습의 종류

비지도 변환(unsupervised transformation): 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘

  • 차원 축소(dimensionality reduction): 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법
    • ex. 텍스트 문서에서 주제 추출
  • 군집 알고리즘: 데이터를 비슷한 것끼리 묶는 것

2. 비지도 학습의 도전 과제

  • 비지도 학습의 결과를 평가? 직접 확인하는 방법뿐
  • 비지도 학습 알고리즘: EDA단계에서 많이 사용, 지도 학습의 전처리에도 사용

3. 데이터 전처리와 스케일 조정

[스케일 조정법]

train set 와 test set에 같은 변환을 적용해야함

  1. StandardScaler: 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 같은 크기를 갖게 함.
  2. RobustScaler: 특성들이 같은 스케일을 갖게됨. 평균과 분산 대신 중간값, 사분위값 사용. 이상치에 영향 받지 않음
  3. MinMaxScaler: 모든 특성이 정확하게 0과 1 사이에 위치하도록 데이터 변경
  4. Normalzier: 특성 벡터의 유클리디안 길이가 1이 되도록 데이터 포인트를 조정(지름이 1인 원or구에 데이터 포인트를 투영). 각 데이터 포인트가 다른 비율로 스케일 조정. 특성 벡터의 길이는 상관 없고 데이터의 방향만이 중요할 때 많이 사용

[데이터 변환 적용]

  1. 훈련 세트와 테스트 세트로 나눈다
  2. 훈련 세트와 테스트 세트의 산점도 그리기
  3. 스케일 조정
  4. 스케일이 조정된 데이터의 산점도 그리기
  5. 테스트 세트의 스케일 조정

4. 차원축소, 특성 추출, Manifold 학습

4.1 주성분 분석(PCA)

  • 데이터를 회전시키고 분산이 작은 주성분으로 덜어내는 것
  • 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전 시키는 기술
  • 어떤 성분의 가중치 합으로 각 데이터 포인트를 나타냄

4.2 비음수 행렬 분해(NMF)

  • NMF(non-negative matrix factorization)는 유용한 특성을 뽑아내기 위한 특성추출에 사용하는 비지도 학습 알고리즘
  • PCA와 비슷하고 차원 축소에 사용가능
  • 음수가 아닌 성분과 계수 값을 찾음

4.3 t-SNE를 이용한 매니폴드 학습

  • 고차원 데이터가 있을 때 고차원 데이터를 공간에 뿌리면 샘플들을 잘 아우르는 subspace가 있을 것이라는 가정에서 학습을 진행하는 방법
  • 고차원 데이터를 저차원으로 옮길 때 데이터를 잘 설명하는 집합의 모형
  • 2차원 산점도를 이용해 시각화 용도로 많이 사용
  • 클래스 레이블 정보를 사용하지 않음

5. 군집

군집(Clustering): 데이터셋을 클러스터라는 그룹으로 나누는 작업

 

5.1 k-평균 군집

  • 데이터 포인트를 가장 가까운 클러스터 중심에 할당하고, 클러스터에 할당된 데이터 포인트의 평균으로 클러스터 중심을 다시 지정
  • 클러스터에 할당되는 데이터 포인트에 변화가 없을 때 알고리즘이 종료
  • 입력 데이터와 k-평균 군집 알고리즘이 3번 진행되기까지 과정
  • 원형이 아닌 클러스터를 잘 구분하지 못한다는 단점이 있음

 

5.2 병합 군집(agglomerative clustering)

  • 시작할 때 각 포인트를 하나의 클러스터로 지정하고, 종료 조건을 만족할 때까지 가장 비슷한 두 클러스터를 합쳐나감
  • 두 인접 클러스터를 반복적으로 합쳐나가는 병합 군집
  • 병합 군집은 계층적 군집(Hierarchical clustering)을 만듬

 

5.3 DBSCAN(density-based spatial clustering of applications with noise)

  • 밀집지역: 데이터가 많이 붐지는 지역
  • 핵심 샘플(포인트): 밀집 지역에 있는 포인트
  • 매개변수: min_samples, eps// 한 데이터 포인트에서 eps 거리 안에 데이터가 min_samples 개수만큼 들어 있으면 이 데이터 포인트를 핵심 샘플로 분류
  • 포인트 종류: 핵심 포인트, 경계 포인트, 잡음 포인트

5.4 군집 알고리즘의 비교와 평가

  • ARI(adjusted rand index) & NMI(noramlized mutual information)

  • 클러스터를 무작위로 할당했을 때의 ARI 점수는 0이고, DBSCAN은 (완벽하게 군집을 만들어냈기 때문에) 점수가 1
  • 실루엣 계수(sillhouette coefficient): 클러스터의 밀집 정도 계산

Reference

  • 핸즈온 머신러닝 책
728x90
반응형