Ch 05. 기초 최적화 방법 Gradient Descent

Part.4 Learning rate에 따른 특성

Learning Rate in Gradient Descent

  • 파라미터가 업데이트 될 때, gradient의 크기에 영향을 받게 됨

    • 이때, learning rate가 step-size를 정해주게 된다.
    • if. learning rate 가 크면? gradient 많이 이동한다.
    • if. learning rate 가 작으면? gradient가 커도 learning rate가 작아지니까 조금 이동한다.
  • Equation

20210716_213616

Learning rate에 따른 최적화

  • Large LR: 너무 큰 loss가 발산할 수 있음

20210716_220318

  • Small LR: 너무 작은 LR은 수렴이 너무 늦음
    • 자칫 local minima에 빠질 수 있음

20210716_220318 - 복사본

Learning rate는 중요한 하이퍼파라미터*

  • 실험을 통해 최적화 하는 것이 필요
  • 초보자들은 처음에 어떤 값을 정해야 할 지 난감
    • 고민할 바에 그냥 아주 작은 값(eg. 1e-4)으로 엄청 오래 돌려도 괜찮다.
  • 나중에 Adam Optimizer를 통해 learning rate에 대한 고민을 없앨 수 있음