[모두의 딥러닝] 12. 기울기 소실(vanishing gradient) 문제, 활성화 함수(ReLU, softplus 등), 고급 경사 하강법(SGD, Adam 등)
기울기 소실(vanishing gradient) 문제 - 문제 : 은닉층이 늘어나면서 출력층에서 시작된 가중치 업데이트가 처음 층까지 전달되지 않음 - 원인 : 활성화 함수로 사용된 시그모이드 함수 미분 값의 최대치가 0.25이므로 계속 곱하다보면 0에 가까워진다는 것 - 해결책 : 활성화 함수로 시그모이드가 아닌 다른 함수 탐색 활성화 함수 - 딥러닝에서는 activation이라는 객체에 이름을 넣어 사용 하이퍼볼릭 탄젠트(hyperbolic tangent) : 시그모이드 함수의 범위를 -1에서 1로 확장 : but, 1보다 작은 값 존재하므로 여전히 기울기 소실 문제 존재 렐루(ReLU) : x가 0보다 작을 때는 모든 값을 0으로 처리하고, 0보다 큰 값은 x를 그대로 사용 : x가 0보다 크기만 ..