Methods and materials - Determination of nicotine and its metabolites by capillary electrophore

Chapter 1. Introduction

2.2 Methods and materials

El algoritmo EM es un método probabilístico que permitirá encontrar indicadores estadísticos. El algoritmo EM es más elaborado que el SimpleK-means, ya que requiere muchas más operaciones, y es más apropiado cuando los datos tienen una variabilidad estadística de modelo conocido. Este asigna a cada instancia una distribución de probabilidad de pertenencia a cada uno de los clúster.

El algoritmo puede decidir cuántos clústeres crear basado en validación cruzada o se le puede especificar a priori cuantos debe generar, y para ello, es necesario realizar algunos ajustes en los parámetros por defecto que tiene el algoritmo, ya que, si se desea obtener un número pequeño de datos representativos es necesario incrementar el número de clústeres, para que haya menos datos por clúster, se tomó una entrada de dimensión 3, y poder alargar el tiempo de procesado y obtener clasificaciones con datos de mayor frecuencia.

Para el proceso de experimentación se realizó varios experimentos, del cual el primero se lo realizó con los parámetros por defecto del algoritmo (I=100, N=-1, S=100), y el modo de

HYDOXDFLyQµUse training set¶TXHXWLOL]DHOSURSLRFRQMXQWRGHHQWUHQDPLHQWRSDUDTXHLQGLFDUHO

porcentaje de instancias que se van a cada grupo. Los resultados del experimento presentaron datos poco significativos para la evaluación por lo cual, se modificó los valores de semilla, el

número de clúster y el modo de evaluación, el cual se lo realizó por Classes to clusters evaluation para que realice la comparación de los clústeres con varios atributos de clasificación de los datos.

Fig. 10. Resultados con el algoritmo EM, evaluación por cursos

Fuente: Ruiz, F., (2014).

Debido a la complejidad que tiene este algoritmo, y a que se requiere más operaciones, se realizó varios experimentos con el valor del clústeres, la Fig. 10, muestra que el algoritmo realizó la evaluación por cursos, en el cual se puede apreciar que el curso con mayor nivel de interacción

HVµRedes y Sistemas Distribuidos¶FRQXQWRWDOGH1843 datos bien clasificados y seguido con

104

Fig. 11. Resultados con el algoritmo EM, evaluación por actividad

Fuente: Ruiz, F., (2014).

Se puede apreciar en la Fig. 11, que los estudiantes navegan más por las páginas de los foros, y con un menor nivel de interacción las tareas y el perfil de usuario en el curso de Redes y

Sistemas Distribuidos y Control de Calidad respectivamente.

Más adelante se presenta una tabla comparativa con los resultados obtenidos de cada uno de los modelos de Clustering (SimpleKMeans y EM) para determinar a partir de esos datos, buscar indicadores y atributos del comportamiento de los estudiantes cuando interactúan en las actividades del EVA.

Fuente: Ruiz, F., (2014).

Algoritmos Class atribute = Cursos Class atribute = Actividades Class atribute = Acciones

Clúster 0 1 2 3 4 0 1 2 3 4 0 1 2 3 4 Instancias 3731 2640 2212 5089 202 4512 2461 2440 2254 2207 7418 3032 881 962 1581 Porcentaje 27% 19% 16% 37% 1% 33% 18% 18% 16% 16% 53% 22% 6% 7% 11% Instancias mal clasificadas 10192.0 73.46% 8558.0 61.68% 8893.0 64.09% Algoritmos EM

Clasificador Curso Actividad Acciones

herramientas Redes y Sistemas Distribuidos

Foros Tareas Perfil de usuario Revisar Revisar Revisar

En la Tabla 18, se puede ver que los resultados obtenidos de los experimentos, presentan derivaciones similares, esto puede ser debido a que el método del modelo permite que los clústeres se superpongan, la suma de los elementos de todos los clústeres puede superar la totalidad de los elementos existentes en el conjunto de entrenamiento, y por ello, para la evaluación se puede considerar cualquiera de los resultados obtenidos del algoritmo EM.

Los resultados del segundo y tercer experimento son similares, el valor de instancias mal clasificadas es más alto que el primer experimento. Se escogió los datos mismos datos para los tres experimentos (semilla 500, clústeres=5, Iteraciones=100), ya que los clústeres están mejor definidos, además de tener el valor más bajo de clústeres mal clasificados, por ello, se tomaron los mismos datos con diferentes atributos a clasificar. El tercer experimento muestra que el número de instancias significativas en la muestra de los 3 clústeres es de 1582 instancias. El resultado del agrupamiento sobre diferentes combinaciones de atributos se escogió el tercer experimento (semilla 500, clústeres=3, Iteraciones=100), ya que los clústeres están mejor definidos, y además tiene el valor más bajo de clústeres mal clasificados.

Fig. 12. Resultados con el algoritmo EM, con evaluación por acciones

106

Como se puede apreciar en la Fig. 12, las herramientas con mayor nivel de interacción por parte de los estudiantes durante su navegación en el EVA están clasificadas en varios grupos, las mismas que se detallan a continuación:

De los tres grupos obtenidos el grupo con mayor número de accesos realizados dentro del sistema por parte de los estudiantes de la UTPL de Informática, de la Modalidad Abierta, de un total de 112 estudiantes, navegan con mayor frecuencia en la herramienta de los foros en las materias de Redes Sistemas Distribuidos y Control de Calidad con un total bien diferenciado en comparación a las demás herramientas, en las cuales ingresan a revisar los foros

propuestos por el docente a revisar las discusiones.

Una vez aplicados los algoritmos propuestos para el análisis de los mismos, se realizó un cuadro comparativo de los resultados obtenidos de las experimentaciones realizadas con el algoritmo

SimpleKMeans y EM, con la finalidad de establecer cuál de los dos algoritmos presenta los resultados más eficientes, y a partir de esos datos extraer los indicadores de navegación de los estudiantes que interactúan con el EVA. Para determinar cual de ellos es mejor se realizó una comparación de los valores con los resultados obtenidos y a partir de ello determinar el resultado con menor índice de error ver Tabla 23.

Luego de la implementación de los algoritmos propuestos, se procedió a realizar una evaluación de los diferentes resultados obtenidos en cada una de las experimentaciones realizadas, para con ello, determinar cuál es el resultado más eficiente, igualmente las similitudes entre ellos, además con estos resultados se pretende determinar cual de los resultados obtenidos de los diferentes algoritmos implementados son los más convenientes para determinar los indicadores de navegación a las que ingresan con mayor frecuencia los estudiantes de noveno ciclo de la modalidad Abierta de la UTPL.

Fuente: Ruiz, F., (2014). Algoritmos SimpleKMeans EM Clúster 0 1 2 0 1 2 3 4 Instancias 3485 1936 2282 3731 2640 2212 5089 202 Porcentaje 45% 25% 30% 27% 19% 16% 37% 1% Clúster mal clasificados 3426.0 44.5 % 10192.0 73.46%

Tabla 19. Comparativa de los resultados de los algoritmos SimpleKMeans y EM.

Los datos arrojados por el algoritmo de clustering SimpleKMeans muestra el total de interacciones de los estudiantes con las herramientas dentro del sistema, además se puede apreciar que el valor de error de la suma de cuadrados es más bajo en comparación al del

modelo EM, también muestran en su gran mayoría consistencia y similitud entre sus características, en los diferentes atributos de los datos cargados.

Resultados obtenidos de la experiencia

Con los resultados obtenidos de los modelos detallados en la Tabla 19, se puede apreciar que el modelo SimpleKMeans determinó mayor eficiencia en los resultados obtenidos y en un intervalo de tiempo más corto al momento de ejecutarlos, además permitió obtener el indicador del nivel de interés y colaboración que tienen los estudiantes con las herramientas del EVA para su aprendizaje. En los resultados obtenidos de la implementación del algoritmo EM, se agrupó a los estudiantes de los cursos en varios conjuntos de datos según las características de comportamiento que tienen con EVA, y a partir de este comportamiento análogo determinar patrones de navegación. Con los datos obtenidos del proceso del modelo se determinaron indicadores estadísticos del nivel de interacción de los estudiantes con las páginas de Actividades (foros, cuestionarios, tareas) de Apoyo (recursos, subida de archivos REA), además con la navegación de los estudiantes en las herramientas de colaboración (foros,

twitter, blog), y páginas de Información general (perfil de usuario, utpl, etc.); se obtuvieron indicadores de interacción y colaboración que tienen los estudiantes con la herramienta de los foros, ya que tienen un nivel de interacción alto, a diferencia del blog y twitter, que existe un porcentaje bajo de contribución por parte de los estudiantes.

In document Determination of nicotine and its metabolites by capillary electrophoresis and mass spectrometry (Page 89-93)