Ch 12. 딥러닝 입문 (분류)

Part.2 Evaluation Metrics

Tradeoff by Thresholding

  • 0.5를 기준선으로 하지 않는 경우, Threshold에 따라서 성능의 성격이 달라진다.

    ( 0.5 이상은 True, 0.5 아래는 False )

    • 큰 Threshold를 가질 경우, 더 보수적으로 True라고 판단 할것
    • 작은 Threshold를 가질 경우, 실제 정답인 True인 case를 놓치지 않을 것

20210730_104544

Thresholding, Case by Case

  • 원자력 발전소의 누출 감지 프로그램 (False Alarm)이면, 어떤 지표가 중요할까?
    • True: 누출
    • False: 정상.
  • 주식에 올인할 것이라면, 어떤 지표가 중요할까?
    • True: 상승 이벤트 발생
    • False: 하락 또는 변동 없음

Precision and Recall

  • Accuracy: N개의 값중 True인 개수
  • Precision: Positive라고 예측한것중에서 실제 Positive인 값
  • Recall: 실제 Positive 였던 값.

20210730_104603

F1 Score: Precision & Recall 을 합친 값

  • 하지만 또 하나의 숫자가 필요하다.

20210730_104615

AUROC

  • 두 클래스의 분포간의 분리(separation) 정도를 나타낼 수 있는 metric

    • 같은 accuracy(정확도)라도 분리 정도에 따라 강인함(robustness)이 다를 수 있다.

image-20210730111904510

Wrap-up

  • Sigmoid를 사용하는 경우 0.5를 기준으로 삼지만, 이외의 경우도 있음.

  • 이때, Threshold에 따라 binary classification의 성능이 봐꿜 수 있음.
    • Precision과 recall을 많이 고려
    • 문제의 정책(policy)에 따라 threshold를 정할 수 있음.
  • AUROC들을 통해 classifier의 robustness를 평가할 수 있음.