Data sets - Six desirable properties for sample quantile

B.1.5 Six desirable properties for sample quantile

4.3 Data sets

Este capítulo presenta el problema de desambiguación de sentidos verbales utilizar métodos puramente supervisados. La hipótesis que quiero probar es que el tamaño del equipo de entrenamiento afecta al rendimiento de un modelo. Esta hipótesis inicial se dividió en subhipótesis más específicas, que la experimentación y el análisis de los resultados intentaron aceptar o rechazar.

Diseñé algunos experimentos para ver si había una diferencia significativa entre los diferentes modelos. Un primer paso fue descartar que las técnicas para reducir la dimensionalidad de las representaciones afectaran el rendimiento de los modelos. Esto se demostró con los resultados de la Sección 4.4.1.

Para el clasificador de la red neural, necesitaba establecer la arquitectura de la red. Los resultados reportaron que una arquitectura con más capas mejoró el desempeño del modelo. Este no fue el caso para el número de neuronas por capa. La sección 4.4.2.1 muestra estos resultados.

Finalmente, comparé el rendimiento del clasificador de la red neuronal con los otros clasificadores definidos en la Sección 4.3.3. La sección 4.4.2.2 muestra que la red neuronal tuvo uno de los mejores resultados para el corpus SenSem. Sin embargo, el coeficiente de Kappa no reportó significación en esta mejora sobre los otros clasificadores. En cualquier caso, el objetivo era comprobar si la red neural tenía un rendimiento superior al de otros clasificadores, lo que no era el caso. La red neural, como mostraré, es el clasificador que finalmente elegí porque su desempeño no era peor que los otros y es comparable a los clasificadores explorados en capítulos futuros.

Los experimentos realizados para aceptar o rechazar la Hipótesis 1.1 de que un mayor conjunto de datos de entrenamiento mejora el rendimiento son observables en la Sección 4.4.3. Los resultados reportados dan fuertes indicaciones sobre la validez de la Hipótesis, ya que hay una mejora visible en los resultados generales a medida que

aumenta el número de ejemplos de entrenamiento, por lo que la Hipótesis no puede ser rechazada.

Hipótesis 1.2 no puede ser rechazado ya que los resultados de la Sección 4.4.4 dan una fuerte evidencia que lo respalda. De hecho, la tendencia al sobreajuste y el error debido a la varianza disminuyen mientras más datos de entrenamiento tenga el modelo.

De la misma manera la Hipótesis 1.3 no puede ser rechazada debido a la evidencia en los resultados de la Sección 4.4.5. El número de clases (sentidos) influye en el ajuste del modelo. Cuantas más clases haya, más difícil le resultará al modelo no adaptarse. Por último, los experimentos para probar Hipótesis 1.4, que espera que los modelos lineales tengan menos tendencia a sobredimensionarse que los modelos no lineales, no arrojan resultados concluyentes, aunque en una observación superficial los resultados pueden interpretarse a favor de no rechazar la Hipótesis. Dos de los clasificadores lineales tienen el error de entrenamiento más cercano al error de validación. Los métodos sacrifican la precisión en sus datos de entrenamiento para mejorar la generalización. El problema, sin embargo, es que el error de clasificación errónea del conjunto de pruebas no tiene un aspecto significativamente mejor que el de los otros clasificadores.

El objetivo de este capítulo era sentar las bases sobre las que se compararán los capítulos siguientes y tratar de superar sus deficiencias. En particular, los modelos puramente supervisados presentan desafíos en dos aspectos principales: la tendencia a adaptarse cuando se entrena un modelo con un conjunto de datos pequeño y la cobertura que estos modelos pueden tener sobre ejemplos nuevos e invisibles. Los enfoques semi-supervisados que exploraré en los capítulos siguientes tratan de resolver estos desafíos desde diferentes ángulos.

Una de las causas latentes del sobreequipamiento en modelos puramente supervisados viene dada por la propia naturaleza de tales modelos. Generan una representación de los ejemplos de formación basada en características obtenidas a partir de los mismos datos anotados que los clasificadores intentan representar. La forma en que preten- do atacar este fallo es mediante el uso de características que generalizan mejor, no vinculadas a un conjunto de datos etiquetado en particular, sino obtenidas a partir de una muestra de lenguaje más general. Esto se explora en el capítulo 5. Los méto- dos no supervisados utilizan representaciones más suaves de los datos etiquetados con embeddings de palabras.

Otro de los problemas latentes en los modelos puramente supervisados ocurre en la cobertura de tales modelos. Esto es difícil de medir y cuantificar, ya que para ello se necesita un número mucho mayor de ejemplos anotados.

El problema de cobertura sólo puede medirse a través de la métrica del silencio. El silencio captura aquellos ejemplos que pertenecen a una de las clases de datos, pero que no están disponibles en el corpus anotado, por lo que los modelos no pueden aprender de estos datos. Los datos comentados sólo pueden considerar un universo limitado de características, dejando fuera otras características de las etiquetas que pueden mejorar el modelo sobre nuevos candidatos a clasificar.

Otros métodos semi-supervisados, estudiados con más detalle en capítulos poste- riores, estudian formas de superar esta deficiencia de los enfoques puramente supervisados, por ejemplo, mediante la anotación de nuevos datos (automática o manual- mente) que contribuyen a que los modelos supervisados dispongan de más información latente para mejorar el rendimiento con respecto a los nuevos datos.

Parte II

Aprendizaje semisupervisado

disjunto

Capítulo 5

Vectores de palabras (word

embeddings)

In document Estimation of Disaggregated Indicators with Application to the Household Finance and Consumption Survey (Page 91-93)