EMISSIONS REDUCTIONS BASED ON OFFSHORE WIND

3 OFFSHORE WIND ENERGY FOR THE U.S MID-ATLANTIC REGION

3.1 THE U.S MID-ATLANTIC REGION

4.2.5 EMISSIONS REDUCTIONS BASED ON OFFSHORE WIND

Para determinar los genes cuyos perfiles de expresión se diferencian de manera significativa entre las condiciones estudiadas se utilizan métodos para la comparación de clases. Estos son métodos supervisados de aprendizaje que requieren como entrada la información del grupo o condición experimental a la que pertenece cada muestra y como resultado se identifican los genes que están expresados diferencialmente en los grupos o condiciones definidas. Para encontrar un conjunto de genes cuyo perfil de expresión permita clasificar una nueva muestra es necesario el uso de métodos de predicción de clases. El objetivo consiste en desarrollar un predictor de clases multivariado para asignar la membres´ıa de un nuevo individuo a una clase u otra.

Dado un conjunto de objetos D = {xi|i = 1..N }, descritos por las carac-

ter´ısticas xi = {xijj|j = 1..p}, que pueden ser asociados a una clase de un

conjunto de clases posibles y = yz|z = 1..k, la clasificaci´on se define como la tarea de asignar a cada objeto su clase asociada. Para determinar la clase correcta, un clasificador necesita, describir una funci´on discreta, un mapeo del espacio de caracter´ısticas de un objeto al espacio de clases:f : xi → y.

Para aprender esta función f, los clasificadores hacen uso de un conjunto de entrenamiento para los que se conoce su clase asignada. Como se mencionó, la clasificación es un tipo de método de aprendizaje supervisado. Los distintos métodos de clasificación utilizan diversas representaciones para la función de mapeo f. Algunos de los paradigmas de clasificación más comunes son los árboles y reglas de decisión, clasificadores bayesianos, clasificadores basa-

dos en los vecinos más cercanos, funciones discriminantes, regresión log´ıstica, máquinas de vector soporte (support vector machines, SVM) o redes neuro- nales artificiales, entre otros.

Desde hace algunos años, se han aplicado diversas técnicas de AA en el análisis de microarreglos para establecer algunas relaciones de los genes involucrados en la enfermedad de Alzheimer obteniéndose resultados exito- sos [86, 87, 88, 89, 90]. El National Research Council of Canadá, elaboró una investigación de miner´ıa de datos para la búsqueda de patrones en microarreglos de datos clasificados en 2 clases (pacientes con enfermedad de Alzheimer y pacientes normales) como resultado identificaron 67 genes incluyendo a 17 genes que ya estaban asociados con la EA [91]. También se ha aplicado la teor´ıa de redes para entender cómo trabajan o funcionan las redes biológicas, concretamente como herramienta para el estudio de la complejidad de en- fermedades neurodegenerativas [92]. En otro estudio, se utilizó el enfoque de redes biológicas para efectuar un análisis de coexpresión de los genes que de- terminan redes transcripcionales de la EA. Este método organiza la expresión de los genes considerando su relevancia funcional para explorar la patofisio- log´ıa de la enfermedad de Alzheimer desde una perspectiva de sistemas. Se encontraron nueve módulos relacionados con la progresión de la enfermedad, incluyendo dos grupos que corresponden a la función sináptica y al proceso metabólico [89]. Recientemente, se identificaron potentes biomarcadores y combinaciones de biomarcadores mediante el uso de aprendizaje automático utilizando ganancia de información, random forest (basado en un conjunto de ´

arboles de decisión), algoritmos genéticos y SVM. En dicho trabajo, se usa- ron seis métodos de clasificación: Naive Bayes, C4.5 (árboles de decisión), random forest, nearest neighbor y SVM con kernel gaussiano provistos por el software Weka. Los algoritmos genéticos y SVM pueden identificar los genes que son capaces de clasificar los tejidos en diferentes clases [93].

Existen pocos trabajos que utilizan redes bayesianas para el an´alisis de los niveles de expresi´on de genes en la EA [94, 95].

La mayor´ıa de los trabajos mencionados se centran en efectuar la com- paración de dos clases (pacientes con enfermedad de Alzheimer vs. pacientes control). Muchos resultados de los estudios de microarreglos de la EA han identificado numerosas y variadas categor´ıas funcionales de genes, sin em- bago, en réplicas experimentales, es relativamente raro encontrar listas de genes expresados diferencialmente con una superposición significativa entre los estudios de microrreglos.

Cap´ıtulo 2

Justificaci´on

La enfermedad de Alzheimer (EA) es un trastorno neurodegenerativo de evolución lenta caracterizado por deterioro cognitivo, pérdida progresiva de la memoria, la orientación, el juicio y el lenguaje. El principal factor de riesgo es la edad avanzada. Actualmente, no existe cura para esta enfermedad, por lo que se ha hecho importante el esfuerzo por descubrir métodos de preven- ción, diagnóstico más temprano y de fácil acceso, as´ı como tratamientos más efectivos. Una de las piezas más importantes para desentrañar el misterio del Alzheimer es determinar lo que causa la enfermedad. En primer lugar, ¿qué hace que el proceso de la enfermedad empiece? ¿qué es lo que empeora con el transcurso del tiempo? ¿por qué aumenta el número de personas con la enfermedad con el aumento de la edad? ¿por qué lo desarrollan algunas personas mientras que otras siguen siendo saludables? A escala global se están realizando numerosas investigaciones centradas en la prevención, diagnósti- co y tratamiento de la EA. Hoy en d´ıa se cuenta con numerosa información sobre la EA; sin embargo, aún es importante continuar la investigación que permita mejorar la calidad de vida de estos pacientes mediante diagnósticos más tempranos y precisos, as´ı como tratamientos más adecuados.

En el año 2014 se diagnosticaron alrededor de 44 millones de casos de demencia a nivel mundial y se estima que el número de casos llegue a 135 millones para el año 2050 [4]. La EA es la causa más común de demencia.

Según el Instituto Nacional de Geriatr´ıa, en México hay 700 mil casos detectados y se estima que 7 % de mayores de 60 años padece algún tipo de demencia. Cada cinco años la prevalencia se duplica.

En el ámbito de la ciencias computacionales, recientemente ha tomado auge el término neurociencia computacional que es una subárea de las neu-

rociencias encargada de desarrollar modelos que integran datos de carácter experimental para ayudar a entender el funcionamiento del cerebro. Los cam- pos de las neurociencias computacionales y los sistemas buscan elucidar estrategias para el procesamiento de la información empleadas por los circuitos neurales en el cerebro. A pesar de la intensa investigación desde hace varias décadas, algunos problemas fundamentales de la neurociencia siguen sin resol- verse. Para dar solución a este tipo de preguntas es necesaria la combinación de la neurociencia con las recientes tecnolog´ıas. Se requieren definir nuevos enfoques computacionales que permitan la integración de datos a través de diversas modalidades y niveles de análisis, as´ı como la definición de nuevas técnicas de integración y miner´ıa de datos que permitan extraer información significativa y útil de los complejos sistemas de interacción. La inteligencia artificial y la ciencia cognitiva siguen y seguirán intercambiando diversas aportaciones en diferentes áreas. La fusión de la inteligencia artificial con las neurociencias constituye uno de los más promisorios tópicos de investi- gación. Muchos aspectos relacionados con el funcionamiento del cerebro se encuentran actualmente sin explicación y podr´ıan comprenderse si existiera un trabajo conjunto de ambas áreas.

Dentro del campo de la genómica funcional, los microarreglos han emergi- do como una potente técnica para la medición de datos de expresión genética y para la comparación de la abundancia relativa de ARN mensajero gene- rado en distintas pruebas biológicas. Los microarreglos constituyen uno de los últimos avances en biolog´ıa molecular haciendo posible el monitoreo de la expresión de genes en paralelo. El análisis de microarreglos constituye un reto debido a su alta dimensionalidad y complejidad. En el caso de la enfermedad de Alzheimer, es importante encontrar caracter´ısticas sobresalientes de los niveles de expresión genética que podr´ıan aportar información relevante del fenómeno biológico subyacente a dicha enfermedad.

Para el análisis de microarreglos, se han aplicado diversas técnicas de Aprendizaje Automático con la finalidad de establecer algunas relaciones de los genes involucrados en la enfermedad de Alzheimer [86, 87, 88, 89, 90].

En un reciente trabajo se identificaron potentes biomarcadores y combinaciones de biomarcadores mediante el uso de seis métodos de clasificación: Naive Bayes, C4.5 (árboles de decisión), random forest, nearest neighbor y Support Vector Machines (SVM) con kernel gaussiano provistos por el software Weka. Los algoritmos genéticos y SVM pueden identificar los genes que son capaces de clasificar los tejidos en diferentes clases [93].

paración de dos clases (pacientes con enfermedad de Alzheimer vs. pacientes control). En este trabajo tenemos planeado el uso de técnicas de clasificación para modelar los diferentes estad´ıos de la EA (severa, moderada e incipiente). El presente trabajo, tiene como objetivo aplicar técnicas de aprendizaje (árboles de decisión y redes bayesianas) orientadas a descubrir nuevas relaciones o patrones de los genes del cerebro relacionados con la enfermedad de Alzheimer (incipiente, moderada y severa) que ayuden a una mejor com- prensión de dicha patolog´ıa y consecuentemente contribuir al desarrollo de un diagnóstico más temprano y preciso para la aplicación de tratamientos más adecuados.

Cap´ıtulo 3

Hip´otesis

3.1. Hip´otesis

Existen nuevas relaciones o patrones y asociaciones entre los genes involucrados en las diferentes etapas del desarrollo de la enfermedad de Alzheimer (EA incipiente, EA moderada y EA severa).

3.1.1. Objetivos generales

Objetivo general: Aplicar técnicas de aprendizaje automático (árboles de decisión y redes bayesianas) orientadas a descubrir relaciones o patrones de la expresión de los genes de la enfermedad de Alzheimer en sus diferentes etapas de desarrollo (incipiente, moderada y severa).

3.1.2. Objetivos espec´ıficos

Objetivo particular 1: Obtener un modelo de conocimiento que repre- sente patrones de comportamiento observados en los valores de la expresi´on de los genes de la enfermedad de Alzheimer en sus diferentes estad´ıos.

Objetivo particular 2: Interpretar biológicamente los resultados mediante la vinculación con otras fuentes de información pública para observar el comportamiento de bloques de genes funcionalmente relacionados con la enfermedad de Alzheimer en sus diferentes etapas de desarrollo.

Cap´ıtulo 4

Materiales y M´etodos

4.1. An´alisis y modelado de los datos

La matriz de expresión genética contiene el nivel de expresión de los genes (dispuestos en las filas de la matriz, un gen por cada fila) para cada una de las muestras de estudio (dispuestas en las columnas de la matriz, una muestra por columna). El objetivo de esta investigación es el análisis de la matriz de expresión para encontrar patrones de interés y asociaciones entre genes y muestras mediante miner´ıa de datos. La miner´ıa de datos es el conjunto de técnicas orientadas a la extracción de conocimiento útil de grandes bases de datos (KDD, Knolewdge Database Discover). Un proceso t´ıpico de miner´ıa de datos consta de los siguientes pasos:

1. Selecci´on del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables dependientes (las que sirven para hacer el c´alculo o proceso), como posiblemente al muestreo de los registros disponibles.

2. An´alisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersi´on, presencia de valores at´ıpicos y ausencia de datos (valores nulos).

3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de miner´ıa de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preproce- samiento de los datos.

4. Seleccionar y aplicar la técnica de aprendizaje automático, se construye el modelo predictivo, de clasificación o segmentación. En esta fase, se pretende usar Waikato Enviroment for Knowledge Analysis (WEKA). Weka es una herramienta implementada en Java, desarrollado por la Universidad de Waikato (Nueva Zelanda). Weka contiene las herramien- tas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización [84], [92]. 5. Extracción de conocimiento, mediante una técnica de aprendizaje au- tomático, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos para seleccionar el que mejor se ajuste al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si el modelo final no superara esta evaluación el proceso se podr´ıa repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

Un aspecto de suma importancia en el análisis de microarreglos es la reducción de la dimensión. Una caracter´ıstica de los microarreglos de expre- sión de genes es que el número de variables (genes) p excede el número de ejemplos n, dicho problema es conocido como “large p, small n”. Existen algunas maneras de tratar dicho problema, una de ellas es la reducción de la dimensión de los datos que consiste en seleccionar un subconjunto con los genes de mayor interés (selección de genes) o producir componentes de genes o super genes –combinación de genes- (reducción de la dimensión), o usar una combinación de ambas estrategias. La selección de genes se basa en alguna medida univariada relacionada con la clasificación [81]. La técnica de selección de genes más ampliamente utilizada es el ranking de genes que

consiste en evaluar individualmente cada gen y asignarle un valor que refleje su correlaci´on con la clase de acuerdo a cierto criterio, seleccionando los genes mejor posicionados.

Generalmente, se seleccionan entre 50-100 genes de acuerdo al puntaje obtenido por el método de ranking que se haya utilizado [81]. Los componentes de los genes se construyen usando técnicas multivariadas. Aunque los microarreglos de datos contienen numerosos genes, existe un pequeño número de variables subyacentes que explican la mayor´ıa de la variación de los datos. Por ejemplo, unas cuantas combinaciones de genes pueden explicar la varia- ción. En la práctica, se hace uso de una combinación de ambas estrategias para la clasificación de la expresión de los genes. El proceso de clasificación consta de los siguientes pasos: primero se efectúa la selección/reducción de la dimensión donde se construyen componentes de los genes de un gran número de genes; el segundo paso es la clasificación donde los ejemplos se clasifican en categor´ıas aplicando modelos estad´ısticos estándares en los componentes de los genes. La reducción de la dimensión es objeto de estudio de diversas ´

areas de investigación tales como análisis de datos de alta dimensión, re- conocimiento de patrones y aprendizaje automático. Algunas de las técnicas más utilizadas para el tratamiento de la reducción de la dimensionalidad son: cuadrados m´ınimos parciales (PLS), regresión inversa “sliced” (SIR), análisis de componentes principales (PCA) [81] y análisis de componentes indepen- dientes [88]. Algunos métodos de selección y clasificación han sido estudiados para la identificación de diferencias en la expresión de los genes de los microarreglos. Los métodos de clasificación tales como Support Vector Machines (SVM), redes bayesianas y árboles de decisión, se han utilizado como técnicas de clasificación [82]. En referencia a las bases de datos de expresión genéti- ca, el clustering se ha consolidado como una de las técnicas más utilizadas. El clustering es el método más utilizado de aprendizaje no supervisado. El clustering es una técnica que se utiliza para dividir un conjunto de datos en grupos de objetos similares. En cada grupo (cluster), se incluyen objetos similares entre s´ı. El objetivo consiste en maximizar la similitud entre los elementos de un grupo y minimizar la similitud entre los distintos grupos. De esta forma, el objetivo del clustering es encontrar estructuras intr´ınsecas a un conjunto de objetos [96].

In document Offshore wind energy in the U.S. Mid-Atlantic Region and the EPA clean power plan proposed rule (Page 93-101)