Neural Network를 학습시키는 방법
데이터의 입력이 들어오면 가중치와 곱하고 비선형 연산을 거치게 된다.
Activation Functions
데이터의 입력이 들어오면 가중치와 곱하고 비선형 연산을 거치게 된다.
-sigmoid
각 입력을 받아서 출력이 0~1 사이의 값이 되도록 해준다.
입력의 값이 크면 출력은 1에 가까울 것이고, 값이 작으면 출력은 0에 가까울 것이다.
뉴런의 fitting rate를 saturation시킨다.
문제점 1.saturation 되는 것은 gradient를 없앤다.
sigmoid에서 x가 음의 큰 값이면 sigmoid가 flat하게 되고 gradient가 0이 된다.
x가 0이면 이 구간에서는 잘 동작할 것이다.
x가 양의 큰 값이면 sigmoid가 flat 하게 되고 gradient가 0이 된다.
문제점 2.sigmoid의 출력이 zero centered하지 않아, gradient 업데이트가 효율적이지 않다.
문제점 3. exp()로 인해 계산 비용이 크다.
-tanh(x)
출력이 1~-1 사이의 값이다.
zero centered하지만, sigmoid 와 마찬가지로 여전히 saturation 때문에 gradient가 죽는다.