Study/머신러닝

·Study/머신러닝
안정적인 일반화 성능 측정 방법인 교차 검증 소개 score 메서드가 제공하는 정확도와 R 값 이외에 분류와 회귀 성능을 측정하는 방법 소개 1. 교차 검증 K-fold cross validation 데이터를 먼저 fold(폴드)라고 하는 비슷한 크기의 부분 집합 다섯 개로 나눈다. 모델 생성 첫 번째 모델은 첫 번째 폴드를 테스트 세트로 사용, 나머지 폴드를 훈련 세트로 사용하여 학습 두 번째 모델은 두 번째 폴드를 테스트 세트로 사용…. K 번째 모델은 K 번째 폴드를 테스트 세트로 사용(K는 주로 5 or 10) K개의 정확도 값을 얻게 됨 장점 테스트 세트에 각 샘플이 정확하게 한 번씩 들어간다. 분할을 한 번 했을 때보다 데이터를 더 효과적으로 사용할 수 있음 단점 연산 비용이 늘어난다. 모델을..
·Study/머신러닝
1. 범주형 변수 1.1 One-hot encoding(가변수) 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 바꾼 것 one-hot-encoding one-out-of-N-encoding dummy variable 1.2 숫자로 표현된 범주형 특성 숫자 특성도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시해야 함 2. 구간 분할, 이산화, 그리고 선형 모델, 트리 모델 선형 모델: 선형 관계로만 모델링하므로 특성이 하나일 땐 직선으로 나타남 연속형 데이터에 강력한 선형 모델을 만드는 방법: 구간 분할(bining) 3. 상호작용과 다항식 특별히 특성을 풍부하게 나타내는 방법: 원본 데이터에 상호작용(interaction)과 다항식(polynomial)을 ..
·Study/머신러닝
비지도 학습(unsupervised learning): 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝 1. 비지도 학습의 종류 비지도 변환(unsupervised transformation): 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 차원 축소(dimensionality reduction): 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법 ex. 텍스트 문서에서 주제 추출 군집 알고리즘: 데이터를 비슷한 것끼리 묶는 것 2. 비지도 학습의 도전 과제 비지도 학습의 결과를 평가? 직접 확인하는 방법뿐 비지도 학습 알고리즘: EDA단계에서 많이 사용, 지도 학습의 전처리에..
·Study/머신러닝
지도학습 지도학습은 입력과 출력 샘플 데이터가 존재, 주어진 입력으로부터 출력을 예측하고자 할 때 사용 1. 분류와 회귀 분류(Classification): 미리 정의된, 가능성 있는 여러 클래스 레이블(class label) 중 하나를 예측하는 것 -> 이진 분류(binary classification) or 다중 분류(multiclass classification) 회귀(regression): 연속적인 숫자(실수,부동소수점수)를 예측 $\rightarrow$ 출력값에 연속성이 존재 2. 일반화, 과대적합, 과소적합 회귀(regression): 연속적인 숫자(실수,부동소수점수)를 예측 $\rightarrow$ 출력값에 연속성이 존재 알고리즘이 잘 작동하는지 확인 = 테스트 세트로 평가 과대적합(over..
·Study/머신러닝
1. 요약 지도학습과 비지도 학습 모두 컴퓨터가 인식할 수 있는 형태로 입력 데이터를 준비하는 것이 중요 하나의 객체 혹은 행 = 샘플(sample) 또는 데이터 포인트(data point) , 샘플의 속성 혹은 열 = 특성(feature) 1.1 필수 라이브러리 Numpy: 다차원 배열을 위한 기능과 선형 대수 연산과 푸리에 변환 같은 고수준 수학 함수와 유사 난수 생성기를 포함 Scipy: 고성능 선형 대수, 함수 최적화, 신호 처리, 특수한 수학 함수와 통계 분포 등 Matplolib: 선 그래프, 히스토그램, 산점도 등 고품질 그래프 Pandas: 데이터 처리와 분석, 각 열의 타입이 달라도 됨 ex.정수, 날짜, 부동소숫점, 문자열 (Numpy의 경우 각 열의 타입이 같아야 함) SQL, 엑셀 ..
potato_pizza
'Study/머신러닝' 카테고리의 글 목록