Statistical methodology - Six desirable properties for sample quantile

B.1.5 Six desirable properties for sample quantile

4.2 Statistical methodology

En los capítulos siguientes me centraré en el trabajo con los clasificadores de percep- trón multicapa. Esto, una vez más, debe tener un punto de comparación, particular- mente en el capítulo 8, ya que las redes de escaleras se basan en un clasificador de percepción multicapa. Sin embargo, es importante comparar el perceptrón multicapa con otros métodos de clasificación para descartar la posibilidad de que sea una mala elección con la que trabajar desde el principio.

4.4.2.1 Selección de arquitectura

Uno de los principales hiperparámetros de una red neuronal es la arquitectura. En un perceptrón multicapa esto es la selección del número de capas y el tamaño de cada capa (es decir, el número de neuronas). Como la cantidad de datos es pequeña, existe un alto riesgo de que la red memorice los conjuntos de datos. Con suficientes neuronas disponibles, cada instancia puede ser mapeada a una ruta en la red. Por lo tanto, no puedo trabajar con una red neural muy profunda sin caer en este problema. Por eso sólo busco hasta tres capas ocultas.

Figura 4.2:Comparación de arquitecturas del perceptrón multicapa

La figura 4.2 compara diferentes arquitecturas para un perceptrón multicapa usando las representaciones de trucos de hash (como se seleccionó antes). Esto se hace sólo para las siguientes arquitecturas:

1. Una capa oculta de 100 neuronas. 2. Una capa oculta de 250 neuronas.

3. Una capa oculta de 500 neuronas.

4. Dos capas ocultas: La primera de 250 neuronas y la segunda con 100 neuronas. 5. Tres capas ocultas: la primera con 500 neuronas, la segunda con 250 neuronas,

y la tercera con 100 neuronas.

La Figura tiene una estructura similar a la de la Figura 4.1 ya que también es una trama de cajas y bigotes para mostrar el rendimiento de cada lemma:

• Cada columna representa un corpus: SenSem y SemEval.

• Cada grupo de gráficos de caja en cada gráfico representa una métrica: Promedio macro y ponderado del F1-score.

• Cada gráfico de caja de color distinto representa una arquitectura de la red, descrita anteriormente.

• El gráfico de caja representa la distribución de desempeño para cada lema como se describió para la Figura 4.1.

En este caso puedo ver que el número de neuronas no afecta el resultado sino el número de capas. La arquitectura de tres capas muestra los mejores resultados evitando una alta tendencia al overfit. Hubo otros experimentos añadiendo más capas, pero la mejora de los resultados no fue mucho mayor que con una arquitectura de tres capas y, a medida que el número de hiperparámetros aumentaba, las redes eran más propensas a sobredimensionar los datos memorizándolos. Además, el tiempo de formación aumentó considerablemente para arquitecturas más profundas.

4.4.2.2 Comparación de clasificadores

La figura 4.3 muestra la comparación de los clasificadores descritos en la Sección 4.3.3, con la adición de un clasificador de línea de base que asigna el sentido más frecuente a cada instancia.

Dado que se estableció que la representación supervisada a utilizar en el resto de los experimentos de esta tesis está utilizando el truco del hash, la comparación aquí es sólo para dicha representación. La figura también tiene un gráfico de cajas y bigotes con una estructura similar a la mostrada anteriormente:

• Cada columna representa un corpus: SenSem y SemEval.

• Cada grupo de gráficos de caja en cada gráfico representa una métrica: Promedio macro y ponderado del F1-score.

• Cada gráfico de caja de color distinto representa un clasificador: baseline, árbol de decisión, perceptrón multicapa, Naive Bayes, regresión logística y SVM.

Figura 4.3:Comparación de clasificadores

• El gráfico de caja representa la distribución de desempeño para cada lema como se describió para la Figura 4.1.

Lo primero que hay que eliminar de la trama es que todos los clasificadores superan al clasificador de línea de base descrito anteriormente. En particular, la ingenuidad de Bayes es la que muestra los peores resultados entre los otros clasificadores, muy cerca del desempeño del clasificador de línea base, claramente sesgado por el sentido más frecuente. Por otro lado, tanto el clasificador de árbol de decisión como el clasificador de perceptrón multicapa (con la arquitectura definida en el apartado anterior) muestran los mejores rendimientos para el corpus SenSem si nos centramos en las clases minoritarias. Sin embargo, en un promedio ponderado el árbol de decisión tiene un peor desempeño que SVM, LR o MLP.

Para SemEval hay menos disparidad entre el desempeño de los clasificadores (siendo todavía ingenuo Bayes el de peor desempeño, además de la línea de base), siendo la mediana similar para todos ellos, y siendo el árbol de decisión el que tiene el mejor desempeño en un promedio ponderado.

Viendo que los árboles de decisión y las percepciones multicapa son los que tienen mejores resultados, hay una fuerte indicación de que el problema de desambiguación de sentidos verbales no es lineal.

4.4.2.3 Significancia

Los resultados anteriores son lo suficientemente buenos como para afirmar que un per- ceptrón multicapa es un buen enfoque para modelar el problema de desambiguación de sentidos verbales. Sin embargo, para ver si la diferencia de rendimiento es significativa o no, debería probarla usando Metric 2 y viendo el coeficiente kappa de Cohen entre los diferentes clasificadores.

La figura 4.4 muestra con un mapa térmico la media del coeficiente kappa del Cohen entre los resultados de clasificación de cada clasificador por lema sobre el corpus de prueba. Cuanto más alta es la kappa, más similar es la clasificación, por lo tanto,

Figura 4.4: Coeificiente kappa de Cohen entre clasificadores

menos significativa es la diferencia entre los clasificadores. El color de la carta térmica define el valor del kappa interclasificador entre el clasificador de la fila y el clasificador de la columna. El mapa térmico es simétrico.

Los clasificadores de regresión logística y SVM son los que están más de acuerdo, probablemente porque ambos son clasificadores lineales. Por lo tanto, la diferencia de rendimiento entre ellos no es realmente significativa. El perceptrón multicapa es el más parecido a estos dos. Los árboles de decisión y los ingenuos Bayes son los que muestran menos acuerdo en comparación con los otros clasificadores. Es probable que el ingenuo Bayes tenga un bajo acuerdo, ya que es uno de los clasificadores con peor desempeño. Aunque no es trivial establecer un umbral para el cual la estadística kappa es buena para denotar significación estadística, puedo inferir de este gráfico que el aprendizaje del árbol de decisión está teniendo claramente un buen desempeño con diferencias estadísticamente significativas con otros clasificadores que también están funcionando bien, lo que hace que sea más interesante continuar explorando en el trabajo futuro.

In document Estimation of Disaggregated Indicators with Application to the Household Finance and Consumption Survey (Page 86-91)