*주의할 점: 문제 상황에 따라 적합한 activation function을 고르는 것은 문제가 어떻게 복잡한가, 입출력 데이터의 특성은 어떠한가 등에 따라 달라지므로 다양하게 실험해보고 하이퍼 파라미터를 조정하는 것이 좋다.
1. Hidden Layer
(1) ReLU(Rectified Linear Unit):
- 가장 많이 쓰이고 가장 먼저 쓰임. 렐루 짱짱~><
- Vanishing gradient problem을 해결할 수 있음
- 단순하고 효율적임
(2) Leaky ReLU / Parametric ReLU:
- ReLU를 사용할 때 "dying ReLU"(모든 입력에 대해 계속해 0 출력) 문제를 해결
- 입력이 음수이며 작은 기울기가 존재함.
- 많은 뉴런을 죽게하거나 학습 프로세스가 느린것 처럼 보이는
(3) Sigmoid / Tanh:
- Vanishing gradient problem을 발생시킬 수 있어서 조심해서 사용해야함
- 0과 1(시그모이드) 또는 -1과 1(Tanh) 사이의 출력이 필요한 작업에는 유용할 수도 있음
2. Output Layer
(1) Sigmoid:
- Binary classification problems에서 일반적으로 출력 레이어에서 사용됨.
- 0과 1 사이의 값으로 매핑, 두 클래스에 대한 확률로 처리될 수 있다.
(2) Softmax
- Multi-class classification problems에서 여러 클래스에 대한 확률 분포로 제공, 일반적으로 출력 계층에서 사용
3. 문제 상황을 잘 고려하기
- 출력이 확률이어야하는 경우: binary냐, multi-class냐에 따라 각각 sigmoid, softmax를 선택함
- 출력이 임의의 실수일 수 있는 회귀 문제인 경우: 출력 레이어에 linear activation function이 사용될 수도 있음
'AI-Study' 카테고리의 다른 글
ImageNet Challenge (0) | 2023.11.05 |
---|---|
[Supervised Learning] Ensemble 앙상블이란 무엇인가? (0) | 2023.07.23 |
임베디드 시스템에서 AI의 필요성 (0) | 2023.05.21 |
[CS231n]Image classification (0) | 2023.05.16 |
[CS231n] Introduction to CNN for Visual Recognition (0) | 2023.05.15 |