Ch 08. 딥러닝 입문 (희귀)

Part.5 ReLU

Gradient Vanishing by Sigmoid & TanH

  • Chain rule로 펼쳤을때, 이 함수에 대하 미분 값은 항상 1보다 같거나 작다

20210723_212927

  • DNN이 깊어지게 되면 활상 함수의 사용 횟수가 증가 할 것
    • 따라서 입력에 가까운 파라미터에 대한 미분에선 1보다 작은 값이 반복적으로 곱해질것

20210723_212940

ReLU (Rectifed Linear Unit)

  • 두개의 linear 함수로 이루어져 있음

20210723_212952

Learky ReLU

  • 기울기를 조절할 수 있음

20210723_213012

Summary

  • 기존의 Sigmoid, TanH는 gradient vanishing 문제를 일으킴
    • 함수의 미분 값이 항상 1보다 작거나 같음
  • ReLU를 통해 gradient vanishing 문제를 어느정도 해결할 수 있다.
  • 양수 부분의 기울기는 항상 1이므로 학습 속도가 빠르다
    • 또한 linear에 가까운 특성으로 인해, 최적화가 더 쉽다.
  • ReLU의 입력 값이 음수인 경우, 이전 레이어는 학습이 불가하다.
    • LeakyReLU를 통해 단점을 극복할 수 있다.