'머신러닝' 태그의 글 목록

2024.05.11·취업

컴퓨터비전 면접 준비 - 머신러닝 1. 머신러닝과 딥러닝의 차이란?머신러닝은 데이터에서 패턴을 학습하고 이를 활용하여 작업을 수행하는 알고리즘을 개발하는 것입니다. 딥러닝은 머신러닝의 한 분야로, 인공 신경망을 사용해 대규모 데이터를 학습합니다. 딥러닝 모델은 데이터에서 복잡한 패턴을 추출할 수 있는 능력을 가지고 있어, 머신러닝 기법보다 높은 성능을 보여주는 경우가 많아 복잡한 문제에 적합한 모델입니다. 2. 지도(Supervised), 비지도(Unsupervised), 준지도(semi-supervised)이란?지도학습은 정답이 있는 데이터를 학습합니다. 비지도 학습은 정답이 없는 데이터를 학습하며, 준지도 학습은 정답이 일부만 있는 데이터를 학습합니다. 지도학습에는 크게 회귀와 분류가 있으며 대표..

[ML] 모델 평가와 성능 향상

2024.04.04·Study/머신러닝

안정적인 일반화 성능 측정 방법인 교차 검증 소개 score 메서드가 제공하는 정확도와 R 값 이외에 분류와 회귀 성능을 측정하는 방법 소개 1. 교차 검증 K-fold cross validation 데이터를 먼저 fold(폴드)라고 하는 비슷한 크기의 부분 집합 다섯 개로 나눈다. 모델 생성 첫 번째 모델은 첫 번째 폴드를 테스트 세트로 사용, 나머지 폴드를 훈련 세트로 사용하여 학습 두 번째 모델은 두 번째 폴드를 테스트 세트로 사용…. K 번째 모델은 K 번째 폴드를 테스트 세트로 사용(K는 주로 5 or 10) K개의 정확도 값을 얻게 됨 장점 테스트 세트에 각 샘플이 정확하게 한 번씩 들어간다. 분할을 한 번 했을 때보다 데이터를 더 효과적으로 사용할 수 있음 단점 연산 비용이 늘어난다. 모델을..

[ML] 데이터 표현과 특성 공학

2024.04.04·Study/머신러닝

1. 범주형 변수 1.1 One-hot encoding(가변수) 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 바꾼 것 one-hot-encoding one-out-of-N-encoding dummy variable 1.2 숫자로 표현된 범주형 특성 숫자 특성도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시해야 함 2. 구간 분할, 이산화, 그리고 선형 모델, 트리 모델 선형 모델: 선형 관계로만 모델링하므로 특성이 하나일 땐 직선으로 나타남 연속형 데이터에 강력한 선형 모델을 만드는 방법: 구간 분할(bining) 3. 상호작용과 다항식 특별히 특성을 풍부하게 나타내는 방법: 원본 데이터에 상호작용(interaction)과 다항식(polynomial)을 ..

[ML] 비지도 학습과 데이터 전처리

2024.04.03·Study/머신러닝

비지도 학습(unsupervised learning): 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝 1. 비지도 학습의 종류 비지도 변환(unsupervised transformation): 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 차원 축소(dimensionality reduction): 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법 ex. 텍스트 문서에서 주제 추출 군집 알고리즘: 데이터를 비슷한 것끼리 묶는 것 2. 비지도 학습의 도전 과제 비지도 학습의 결과를 평가? 직접 확인하는 방법뿐 비지도 학습 알고리즘: EDA단계에서 많이 사용, 지도 학습의 전처리에..

[ML] 지도학습(Supervised Learning) 요약 정리

2024.04.03·Study/머신러닝

지도학습 지도학습은 입력과 출력 샘플 데이터가 존재, 주어진 입력으로부터 출력을 예측하고자 할 때 사용 1. 분류와 회귀 분류(Classification): 미리 정의된, 가능성 있는 여러 클래스 레이블(class label) 중 하나를 예측하는 것 -> 이진 분류(binary classification) or 다중 분류(multiclass classification) 회귀(regression): 연속적인 숫자(실수,부동소수점수)를 예측 $\rightarrow$ 출력값에 연속성이 존재 2. 일반화, 과대적합, 과소적합 회귀(regression): 연속적인 숫자(실수,부동소수점수)를 예측 $\rightarrow$ 출력값에 연속성이 존재 알고리즘이 잘 작동하는지 확인 = 테스트 세트로 평가 과대적합(over..

티스토리툴바