selu보다 좋은 mish 활성화 함수
새로운 activation을 소개하는 논문이 나왔다. 일단 논문은 안읽고 바로 적용하면서 부분적으로 읽어서 좋은 점만 알아보는 걸로... def relu(x): return max(0,x) def swish(x) : return x * tf.nn.sigmoid(x) def mish(x) : return x * tf.nn.tanh( tf.nn.softplus(x)) mish를 사용하니, 평균 정확도도 올라가고 정점의 정확도도 올라가는 것을 확인했다고 함. 왜 Mish가 잘 되는지? 1. 위에 무한이 있으면(즉, 양의 값이 어떤 높이로든 갈 수 있음) 캡핑으로 인한 포화를 피할 수 있다. 2. 약간의 음수를 허용해서 relu zero bound 보다는 gradient 가 더 잘 흐르게 함. 마지막으로 현재 ..
2019.10.15