모델 학습

·Study/cs231n
Global Minima: 기울기가 0인 극소값 Local Minima: Global minima에 다다르지 않고, 기울기가 0 이 되는 지점 Learning rate: Local Minimum에 효율적으로 도달할 수 있도록, 너무 크지도 작지도 않은 적절한 학습률을 셋팅 해야함. 1. Optimization Optimizer는 loss를 줄이기 위해 weight과 learning rate와 같은 neural network 속성을 변경하는데 사용하는 알고리즘이다. Gradient Descent 가장 기본적인 최적화 알고리즘이다. backpropagation을 통해 weight을 변경하여 함수가 최소값에 도달할 수 있도록 한다. 쉽고 간단한 방법이지만 데이터셋이 큰 경우 모든 데이터를 계산한 뒤 step을..
·Study/cs231n
1. Activation Functions Activation Functions 즉, 활성화 함수는 뉴런(노드)의 최종 값을 제공한다. input 데이터를 특정 범위의 출력으로 변환하는 단순한 함수이다. 활성화 함수의 종류는 위와 같이 다양하다. 활성화 함수는 모두 비선형 함수이다. 1.1 Sigmoid 함수 Sigmoid 함수는 넓은 범위의 값을 [0,1] 사이의 값으로 만든다. 입력 값이 크면 1, 작으면 0에 가까워 진다. 0과 1 사이의 값은 선형 함수와 같은 모양이다. 하지만 Sigmoid 함수에는 3가지 문제점이 있다. Vanishing gradient x가 -10, 10일 경우엔 gradients가 0이다. Chain rule에 의해 gradient를 구할 때 곱연산을 지속적으로 하면 gra..
potato_pizza
'모델 학습' 태그의 글 목록