• No results found

NO LANYARDS ARE TO BE WORN WITH COMBAT 95 OR ANY OTHER JACKETS

AIR CADET ORGANIZATION DISTINGUISHING INSIGNIA

NO LANYARDS ARE TO BE WORN WITH COMBAT 95 OR ANY OTHER JACKETS

En general, los clasificadores entrenados con el conjunto de características HEXNF tuvieron mejor desempeño. Puesto que HEXNF (5462 características) es cinco veces más grande que PNF (1024 características), se exploró la aplicación de selección de características a ambos conjuntos. Para lograr lo anterior se aplicaron los siguientes cuatro algoritmos a los conjuntos de características:

la importancia de un subconjunto de característica considerando la capacidad predictiva individual de cada característica junto con el grado de redundancia entre ellas. Para lo anterior se utilizó la implementación de Weka, seleccionando la búsqueda voraz del espacio de subconjuntos. El resultado de este algoritmo fueron los conjuntos PNF_CFS (39) y HEXNF_CFS (83).

Information Gain Attribute Evaluation (InfoGainAttributeEval) (Yang y Pedersen,

1997): evalúa la importancia de un atributo por medio de la ganancia de infor- mación de dicha característica respecto a la clase. El resultado de este algoritmo fueron los conjuntos PNF_IGA (50) y HEXNF_IGA (50).

Componentes principales (PrincipalComponents) (Pearson, 1901): realiza el aná- lisis de componentes principales y la transformación de los datos. El resultado de este algoritmo fueron los conjuntos PNF_PCA (365) y HEXNF_PCA (522).

Selección por algoritmo genético (GeneticAlgorithmSVM) (Beltrán Verdugo, 2014): este algoritmo se compone de dos elementos principales: un algoritmo genético encargado de la generación y búsqueda eficiente de subconjuntos de caracterís- ticas, y un SVM que evalúa la calidad del subconjunto seleccionado. El resultado de este algoritmo fueron los conjuntos PNF_FSA (594) y HEXNF_FSA (2939).

Posteriormente, se evaluaron los clasificadores RF, SMO, MAJV y MAXP en validación cruzada de 10 pliegues utilizando todas las secuencias con los conjuntos reducidos (Tabla 18). Los parámetros de cada clasificador son los mismos que están indicados en la Tabla 16 y la Tabla 17.

Obsérvese que el ensamble MAJV entrenado con las características HEXNF_FSA al- canzó el mejor resultado en las métricas de especificidad (99.04), precisión (96.35) y MCC (0.93). Aunque no fueron los mejores clasificadores, tanto RF-HEXNF_CFS como RF-HEXNF_IGA y MAJV-PNF_FSA obtuvieron mejor desempeño que SVM∗ en términos de MCC. En general podemos afirmar que la selección de características demostró ser de utilidad para mejorar los resultados obtenidos hasta el momento. Además, es importante destacar que, a excepción de HEXNF_FSA, todos los conjuntos contienen menos características que PNF, lo que permite generar clasificadores más rápidos.

4.4. Conclusiones

El objetivo principal de este trabajo fue explorar hasta qué punto era posible mejo- rar los resultados presentados en el trabajo de Chaudharyet al.(2016) para la predic-

ción de ARN inmunomodulador al extraer diferentes características de las secuencias, utilizando diversos clasificadores e incluso selección de características.

Como primer aporte, se propuso el conjunto de características HEXNF. En un aná- lisis preliminar, se seleccionaron seis clasificadores, los cuales fueron inducidos con este nuevo conjunto. Con la finalidad de realizar una comparación justa, se consideró el mejor conjunto de características reportado en el trabajo previo, llamado PNF, y se desarrolló la metodología de clasificación de la misma manera en la que fue repor- tada. Al comparar los mejores clasificadores con el mejor modelo reportado (SVM∗), observamos que los nuestros lo superan en todas las métricas excepto en sensibili- dad, donde los resultados eran competitivos. Posteriormente, se hizo una prueba de validación cruzada de 10 pliegues con todas las secuencias. En este escenario, el com- portamiento del desempeño de los clasificadores fue similar a los anteriores.

Motivados por los resultados obtenidos hasta ese momento, se consideraron en- sambles de clasificadores, así como métodos de selección de características para me- jorar la clasificación. Al usar un ensamble de votación con regla de mayoría con los clasificadores RF, SMO y SPegasos inducido con las características reducidas por el algoritmo GeneticAlgorithmSVM, los resultados obtenidos en validación cruzada de 10 pliegues en todas las secuencias fueron 96.35 en precisión, 94.02 en sensibilidad, 99.04 en especificidad y 0.93 en MCC. Por consiguiente, se puede concluir que el en- foque propuesto resulta apropiado para la clasificación de IMORNs.

Capítulo 5.

Ingeniería de características basadas en la

secuencia del ARN

5.1. Introducción

Un motivo en una secuencia biológica es un patrón sobrerrepresentado con respec- to a un modelo de fondo (Song y Gu, 2014). Los motivos por lo general están asociados a la evolución: debido a la función que realizan, pasan de generación en generación. Por ejemplo, existen motivos asociados al inicio de la transcripción, la identificación del punto de auto-corte para ribosimas, entre otros.

Sin embargo, en ocasiones no basta con identificar que una cadena sea un motivo, sino que además existan en un conjunto de secuencias pero no en algún otro (usual- mente llamado conjunto negativo). Estos motivos son llamados discriminantes y tienen aplicaciones en el análisis de expresión diferencial y clasificación de secuencias (Song y Gu, 2014). Generalmente, los programas que encuentran motivos discriminantes lo hacen entre el conjunto positivo y negativo (es decir, dos clases). Ejemplos de estos algoritmos son WordSpy (Wanget al., 2005), DEME (Redhead y Bailey, 2007) y MERCI

(Venset al., 2011). Estos métodos son lentos debido a que trabajan con alineamientos

múltiples. Además, no todos los problemas de este tipo están limitados a dos clases, lo que aumenta la complejidad de las soluciones.

En el Capítulo 3 se mostró que algunos k-meros seleccionados por el algoritmo

CFS pueden considerarse motivos discriminantes. Particularmente, esta observación se derivó del mapa de coberturak-mérica (k-mer covMap), donde fue posible apreciar

que ciertos k-meros son más conservados en una familia de riboswitches que en el

resto de ellas. En este capítulo se introduce la función de evaluación q para evaluar

de manera rápida la unicidad de un k-mero, así como el conjunto de éstos con la

función de cobertura co (denominado el framework QCOV). A su vez, se muestran