적합한 Activation function을 선택하는 법!

728x90

*주의할 점: 문제 상황에 따라 적합한 activation function을 고르는 것은 문제가 어떻게 복잡한가, 입출력 데이터의 특성은 어떠한가 등에 따라 달라지므로 다양하게 실험해보고 하이퍼 파라미터를 조정하는 것이 좋다.

(1) ReLU(Rectified Linear Unit):

- 가장 많이 쓰이고 가장 먼저 쓰임. 렐루 짱짱~><

- Vanishing gradient problem을 해결할 수 있음

- 단순하고 효율적임

(2) Leaky ReLU / Parametric ReLU:

- ReLU를 사용할 때 "dying ReLU"(모든 입력에 대해 계속해 0 출력) 문제를 해결

- 입력이 음수이며 작은 기울기가 존재함.

- 많은 뉴런을 죽게하거나 학습 프로세스가 느린것 처럼 보이는

(3) Sigmoid / Tanh:

- Vanishing gradient problem을 발생시킬 수 있어서 조심해서 사용해야함

- 0과 1(시그모이드) 또는 -1과 1(Tanh) 사이의 출력이 필요한 작업에는 유용할 수도 있음

(1) Sigmoid:

- Binary classification problems에서 일반적으로 출력 레이어에서 사용됨.

- 0과 1 사이의 값으로 매핑, 두 클래스에 대한 확률로 처리될 수 있다.

(2) Softmax

- Multi-class classification problems에서 여러 클래스에 대한 확률 분포로 제공, 일반적으로 출력 계층에서 사용

3. 문제 상황을 잘 고려하기

- 출력이 확률이어야하는 경우: binary냐, multi-class냐에 따라 각각 sigmoid, softmax를 선택함

- 출력이 임의의 실수일 수 있는 회귀 문제인 경우: 출력 레이어에 linear activation function이 사용될 수도 있음

728x90

ImageNet Challenge (0)	2023.11.05
[Supervised Learning] Ensemble 앙상블이란 무엇인가? (0)	2023.07.23
임베디드 시스템에서 AI의 필요성 (0)	2023.05.21
[CS231n]Image classification (0)	2023.05.16
[CS231n] Introduction to CNN for Visual Recognition (0)	2023.05.15

티스토리툴바