728x90
1. MLP와 CNN이란?
MLP란 여러 개의 퍼셉트론 뉴런을 여러 층으로 쌓은 다층 신경망 구조입니다. 입력층과 출력층 사이에 하나 이상의 은닉층을 가지고 있는 신경망입니다. 인접한 두 층의 뉴런 간에는 완전 연결됩니다. CNN은 이미지의 특정한 패턴의 특징이 어디서 나타나는지를 확인하는 도구인 필터를 학습시키는 것입니다. CNN은 이미지를 가장 잘 분류할 수 있는 최적의 필터를 찾는 과정입니다.
MLP는 일반적인 분류, 회귀 문제에 사용되지만, 이미지 및 비디오 등 다양한 고차원 데이터에서 우수한 성능을 발휘합니다. MLP는 입력 데이터의 공간적 구조를 고려하지 않고 각 입력 특성을 독립적으로 처리하지만 CNN은 입력 데이터의 공간적 구조를 유지하며 처리합니다.
2. ResNet과 Residual Learning이란?
ResNet은 딥러닝 모델의 깊이가 깊어질수록 발생하는 gradient vanishing문제를 해결하기 위해 개발된 모델입니다. residual learning은 입력을 출력에 직접 더함으로써 네트워크가 학습해야 하는 목표를 residual function으로 변경합니다. 이 방식은 깊은 네트워크에서도 안정적으로 학습을 가능케합니다.
3. Residual Connection이란?
ResNet에서 제안된 것으로 신경망의 각 레이어의 입력을 해당 레이어의 출력에 직접 더하는 방식입니다. Residual connection을 통해서 gradient vanishing 문제를 완화하여 네트워크의 효율적인 학습이 가능해졌으며, 성능 향상에 기여하였습니다. Residual connection은 기울기가 적절히 전파될 수 있도록 도와주기 때문에 훨씬 더 깊은 신경망을 구성할 수 있게 되었습니다.
4. Vision Transformer(ViT)란?
Vision Transformer는 Transformer의 원리를 이미지처리에 적용한 논문(모델)입니다. ViT는 이미지를 패치로 나누고, 각 패치를 Transformer 구조의 입력으로 사용합니다. 이 모델은 패치 간의 관계를 학습하며, 주로 이미지 분류 작업에서 사용됩니다. ViT는 CNN과 비교했을 때 더 나은 성능과 더 강력한 전이학습 능력을 보였습니다.
5. Positional Encoding이란?
Positional encoding은 Transformer 모델에서 입력 시퀀스의 순서 정보를 제공하는 방법입니다. 각 위치에 고유한 인코딩을 추가함으로써 모델이 시퀀스의 순서를 인식할 수 있도록 합니다. 이는 주로 사인과 코사인 함수의 주기적 변화를 사용하여 구현됩니다.
6. Self Attention이란?
Self Attention은 Transformer 내에서 사용하는 기법으로, 입력 시퀀스의 각 요소가 시퀀스의 다른 모든 요소와 어떻게 관련되는지를 학습합니다. 이 기법의 핵심은 시퀀스 내의 각 위치가 다른 모든 위치의 정보를 활용하여 새로운 표현을 생성할 수 있습니다.
7. Multi-head Attention이란?
Multi-head Attention은 self-attention의 확장으로 동일한 어텐션 메커니즘을 여러번 병렬로 수행해 서로 다른 표현 공간에서 정보를 동시에 학습합니다. 각 head는 입력 시퀀스에 대해 독립적으로 attention 연산을 수행하며, 각각 다른 관점에서 정보를 집계합니다.
8. Edge Detection이란?
Edge란 영상에서 픽셀의 밝기 값이 급격하게 변하는 부분입니다. 일반적으로 배경과 객체 또는 객체와 객체의 경계를 의미합니다. Edge detection은 영상을 $(x, y)$ 변수의 함수로 간주하였을 때, 함수의 1차 미분 값이 크게 나타나는 부분을 검출합니다(Gaussian 미분).
9. Blob Detection이란?
Blob이란 image region인데 주변보다 밝거나 더 어두운 영역에 대해서 BLOB이라고 합니다. 특정 임계값을 이용해 이미지를 이진화하여 밝기가 높은 영역(또는 낮은 영역)을 찾습니다.
10. SIFT(Scale Invariant Feature Transform)란?
이미지에서 특징점을 추출하는 알고리즘입니다. 크기, 회전, 조명 변화에 강인하며, 이미지 매칭, 객체 인식 등 다양한 컴퓨터 비전 응용분야에 사용됩니다. Scale-space extreme detection, keypoint localization, Orientation assignment, keypoint descriptor가 있습니다.
11. RANSAC(Random Sample Consensus)란?
데이터에서 이상치에 강인한 모델 파라미터를 추정하기 위한 방법입니다. RANSAC은 잡음이 많은 데이터중에서 유효한 데이터 포인트a만을 사용하여 모델을 견고하게 추정하는 것입니다. RANSAC은 무작위 샘플링, 모델 적합, Consensus Set, 모델 재평가, 반복 과정을 거치게 됩니다.
12. Hough transforms란?
영상에서 (x, y) 좌표공간의 픽셀들은 $(r, \theta)$ 매개변수 공간에서 곡선의 형태로 나타난다. 또한 $(x, y)$ 좌표공간에서 같은 직선상에 존재하는 픽셀들의 경우 $(r, \theta)$ 매개변수 공간에서 교점을 가지게 됩니다. hough transforms 기법은 이러한 특징을 이용하여 영상의 특징픽셀들을 $(x, y)$ 좌표공간에서 $(r, \theta)$ 매개변수 공간으로 mapping 시킨 후, voting과정을 통해 교점을 찾아 직선 성분을 추출합니다.
728x90
반응형
'취업' 카테고리의 다른 글
[데이터분석 과제테스트] 데이터 분석 과제테스트 정리 (0) | 2024.11.08 |
---|---|
[면접준비] 컴퓨터비전 면접준비 - 컴퓨터비전 1 (0) | 2024.05.18 |
[면접준비] 컴퓨터비전 면접 준비 - 딥러닝 (0) | 2024.05.11 |
[면접준비] 컴퓨터비전 면접 준비 - 머신러닝 (0) | 2024.05.11 |
[면접준비] 컴퓨터비전 면접 준비 - 선형 대수 & 확률 통계 (0) | 2024.05.10 |