컴퓨터비전 면접 준비 - 머신러닝 1. 머신러닝과 딥러닝의 차이란?머신러닝은 데이터에서 패턴을 학습하고 이를 활용하여 작업을 수행하는 알고리즘을 개발하는 것입니다. 딥러닝은 머신러닝의 한 분야로, 인공 신경망을 사용해 대규모 데이터를 학습합니다. 딥러닝 모델은 데이터에서 복잡한 패턴을 추출할 수 있는 능력을 가지고 있어, 머신러닝 기법보다 높은 성능을 보여주는 경우가 많아 복잡한 문제에 적합한 모델입니다. 2. 지도(Supervised), 비지도(Unsupervised), 준지도(semi-supervised)이란?지도학습은 정답이 있는 데이터를 학습합니다. 비지도 학습은 정답이 없는 데이터를 학습하며, 준지도 학습은 정답이 일부만 있는 데이터를 학습합니다. 지도학습에는 크게 회귀와 분류가 있으며 대표..
안정적인 일반화 성능 측정 방법인 교차 검증 소개 score 메서드가 제공하는 정확도와 R 값 이외에 분류와 회귀 성능을 측정하는 방법 소개 1. 교차 검증 K-fold cross validation 데이터를 먼저 fold(폴드)라고 하는 비슷한 크기의 부분 집합 다섯 개로 나눈다. 모델 생성 첫 번째 모델은 첫 번째 폴드를 테스트 세트로 사용, 나머지 폴드를 훈련 세트로 사용하여 학습 두 번째 모델은 두 번째 폴드를 테스트 세트로 사용…. K 번째 모델은 K 번째 폴드를 테스트 세트로 사용(K는 주로 5 or 10) K개의 정확도 값을 얻게 됨 장점 테스트 세트에 각 샘플이 정확하게 한 번씩 들어간다. 분할을 한 번 했을 때보다 데이터를 더 효과적으로 사용할 수 있음 단점 연산 비용이 늘어난다. 모델을..
1. 범주형 변수 1.1 One-hot encoding(가변수) 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 바꾼 것 one-hot-encoding one-out-of-N-encoding dummy variable 1.2 숫자로 표현된 범주형 특성 숫자 특성도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시해야 함 2. 구간 분할, 이산화, 그리고 선형 모델, 트리 모델 선형 모델: 선형 관계로만 모델링하므로 특성이 하나일 땐 직선으로 나타남 연속형 데이터에 강력한 선형 모델을 만드는 방법: 구간 분할(bining) 3. 상호작용과 다항식 특별히 특성을 풍부하게 나타내는 방법: 원본 데이터에 상호작용(interaction)과 다항식(polynomial)을 ..
비지도 학습(unsupervised learning): 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝 1. 비지도 학습의 종류 비지도 변환(unsupervised transformation): 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 차원 축소(dimensionality reduction): 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법 ex. 텍스트 문서에서 주제 추출 군집 알고리즘: 데이터를 비슷한 것끼리 묶는 것 2. 비지도 학습의 도전 과제 비지도 학습의 결과를 평가? 직접 확인하는 방법뿐 비지도 학습 알고리즘: EDA단계에서 많이 사용, 지도 학습의 전처리에..
지도학습 지도학습은 입력과 출력 샘플 데이터가 존재, 주어진 입력으로부터 출력을 예측하고자 할 때 사용 1. 분류와 회귀 분류(Classification): 미리 정의된, 가능성 있는 여러 클래스 레이블(class label) 중 하나를 예측하는 것 -> 이진 분류(binary classification) or 다중 분류(multiclass classification) 회귀(regression): 연속적인 숫자(실수,부동소수점수)를 예측 $\rightarrow$ 출력값에 연속성이 존재 2. 일반화, 과대적합, 과소적합 회귀(regression): 연속적인 숫자(실수,부동소수점수)를 예측 $\rightarrow$ 출력값에 연속성이 존재 알고리즘이 잘 작동하는지 확인 = 테스트 세트로 평가 과대적합(over..