Deep learning Studying(37) - Gradient Vanishing

Part.4 Gradient Vanishing

Posted on June 23, 2021

Ch 08. 딥러닝 입문 (희귀)

Part.4 Gradient Vanishing

Backpropagation with Chain Rule

Gradient 들의 곱셈으로 이루어져 있음
입력에 가까운 레이어의 파라미터일수록 곱셈이 늘어남
- Gradient가 1보다 작을 경우, 좌변은 점점 작아질 것

20210723_172906

Gradient of Sigmoid & TanH

모두 1보다 작거나 같다.

20210723_172924

Gradient Vanishing because of Activation Functions

깊은 네트워크를 구성하게 되면 점점 gradient가 작아지는 현상
따라서 깊은 신경망을 학스바기 어렵게 됨
- 앞쪽 레이어의 파라미터는 업데이트 되는 크기가 매우 작기 때문

20210723_172938

Tags: Deeplearning pytorch