¿Cuáles son los efectos secundarios del uso de una función de activación incorrecta en las redes neuronales?

Es difícil diagnosticar limpiamente una falla de modelado debido a una función de activación “incorrecta”, ya que puede existir una estrecha relación entre algunos hiperparámetros (por ejemplo, arquitectura NN, no linealidades) y otros (por ejemplo, estrategia de inicialización de parámetros, estrategia de actualización de parámetros).

Sin embargo, un obstáculo común con muchas funciones de activación (incluidas las principales: relu, sigmoid, tanh) es que muchas veces el modelo se queda atascado en un valle largo; es decir, la mejora de la capacitación por iteración se reducirá a un rastreo, mucho antes de que se realice la verdadera capacidad de la red.

Esto sucede a menudo debido a que muchas celdas en la red “saturan” o “mueren”. Esto le sucede a una celda cuando la variable aleatoria “gradiente local” (considerada sobre la distribución de muestras de entrenamiento) tiene una distribución de probabilidad máxima o cercana a cero. Esto actúa como un fuerte cuello de botella que bloquea la propagación del gradiente a capas anteriores e impide el aprendizaje.

Otra queja contra el sigmoide específicamente es que, debido a que es estrictamente positiva, de alguna manera no está “blanqueada” y por lo tanto dificulta el aprendizaje. Todavía no he intentado comprender esta objeción en detalle, pero he oído que está relacionada con la enfermedad de Hessians (básicamente un valle plano y largo en el espacio de parámetros).

Supreme Content

More Interesting