Neural Network를 학습시키는 방법

데이터의 입력이 들어오면 가중치와 곱하고 비선형 연산을 거치게 된다.

Activation Functions

데이터의 입력이 들어오면 가중치와 곱하고 비선형 연산을 거치게 된다.

-sigmoid

각 입력을 받아서 출력이 0~1 사이의 값이 되도록 해준다.

입력의 값이 크면 출력은 1에 가까울 것이고, 값이 작으면 출력은 0에 가까울 것이다.

뉴런의 fitting rate를 saturation시킨다.

문제점 1.saturation 되는 것은 gradient를 없앤다.

sigmoid에서 x가 음의 큰 값이면 sigmoid가 flat하게 되고 gradient가 0이 된다.

x가 0이면 이 구간에서는 잘 동작할 것이다.

x가 양의 큰 값이면 sigmoid가 flat 하게 되고 gradient가 0이 된다.

문제점 2.sigmoid의 출력이 zero centered하지 않아, gradient 업데이트가 효율적이지 않다.

문제점 3. exp()로 인해 계산 비용이 크다.

-tanh(x)

출력이 1~-1 사이의 값이다.

zero centered하지만, sigmoid 와 마찬가지로 여전히 saturation 때문에 gradient가 죽는다.