• No results found

3 OFFSHORE WIND ENERGY FOR THE U.S MID-ATLANTIC REGION

3.1 THE U.S MID-ATLANTIC REGION

4.2.5 EMISSIONS REDUCTIONS BASED ON OFFSHORE WIND

Para determinar los genes cuyos perfiles de expresi´on se diferencian de manera significativa entre las condiciones estudiadas se utilizan m´etodos para la comparaci´on de clases. Estos son m´etodos supervisados de aprendizaje que requieren como entrada la informaci´on del grupo o condici´on experimental a la que pertenece cada muestra y como resultado se identifican los genes que est´an expresados diferencialmente en los grupos o condiciones definidas. Para encontrar un conjunto de genes cuyo perfil de expresi´on permita clasificar una nueva muestra es necesario el uso de m´etodos de predicci´on de clases. El objetivo consiste en desarrollar un predictor de clases multivariado para asignar la membres´ıa de un nuevo individuo a una clase u otra.

Dado un conjunto de objetos D = {xi|i = 1..N }, descritos por las carac-

ter´ısticas xi = {xijj|j = 1..p}, que pueden ser asociados a una clase de un

conjunto de clases posibles y = yz|z = 1..k, la clasificaci´on se define como la tarea de asignar a cada objeto su clase asociada. Para determinar la clase correcta, un clasificador necesita, describir una funci´on discreta, un mapeo del espacio de caracter´ısticas de un objeto al espacio de clases:f : xi → y.

Para aprender esta funci´on f, los clasificadores hacen uso de un conjunto de entrenamiento para los que se conoce su clase asignada. Como se mencion´o, la clasificaci´on es un tipo de m´etodo de aprendizaje supervisado. Los distintos m´etodos de clasificaci´on utilizan diversas representaciones para la funci´on de mapeo f. Algunos de los paradigmas de clasificaci´on m´as comunes son los ´arboles y reglas de decisi´on, clasificadores bayesianos, clasificadores basa-

dos en los vecinos m´as cercanos, funciones discriminantes, regresi´on log´ıstica, m´aquinas de vector soporte (support vector machines, SVM) o redes neuro- nales artificiales, entre otros.

Desde hace algunos a˜nos, se han aplicado diversas t´ecnicas de AA en el an´alisis de microarreglos para establecer algunas relaciones de los genes involucrados en la enfermedad de Alzheimer obteni´endose resultados exito- sos [86, 87, 88, 89, 90]. El National Research Council of Canad´a, elabor´o una investigaci´on de miner´ıa de datos para la b´usqueda de patrones en microarre- glos de datos clasificados en 2 clases (pacientes con enfermedad de Alzheimer y pacientes normales) como resultado identificaron 67 genes incluyendo a 17 genes que ya estaban asociados con la EA [91]. Tambi´en se ha aplicado la teor´ıa de redes para entender c´omo trabajan o funcionan las redes biol´ogicas, concretamente como herramienta para el estudio de la complejidad de en- fermedades neurodegenerativas [92]. En otro estudio, se utiliz´o el enfoque de redes biol´ogicas para efectuar un an´alisis de coexpresi´on de los genes que de- terminan redes transcripcionales de la EA. Este m´etodo organiza la expresi´on de los genes considerando su relevancia funcional para explorar la patofisio- log´ıa de la enfermedad de Alzheimer desde una perspectiva de sistemas. Se encontraron nueve m´odulos relacionados con la progresi´on de la enfermedad, incluyendo dos grupos que corresponden a la funci´on sin´aptica y al proce- so metab´olico [89]. Recientemente, se identificaron potentes biomarcadores y combinaciones de biomarcadores mediante el uso de aprendizaje autom´atico utilizando ganancia de informaci´on, random forest (basado en un conjunto de ´

arboles de decisi´on), algoritmos gen´eticos y SVM. En dicho trabajo, se usa- ron seis m´etodos de clasificaci´on: Naive Bayes, C4.5 (´arboles de decisi´on), random forest, nearest neighbor y SVM con kernel gaussiano provistos por el software Weka. Los algoritmos gen´eticos y SVM pueden identificar los genes que son capaces de clasificar los tejidos en diferentes clases [93].

Existen pocos trabajos que utilizan redes bayesianas para el an´alisis de los niveles de expresi´on de genes en la EA [94, 95].

La mayor´ıa de los trabajos mencionados se centran en efectuar la com- paraci´on de dos clases (pacientes con enfermedad de Alzheimer vs. pacientes control). Muchos resultados de los estudios de microarreglos de la EA han identificado numerosas y variadas categor´ıas funcionales de genes, sin em- bago, en r´eplicas experimentales, es relativamente raro encontrar listas de genes expresados diferencialmente con una superposici´on significativa entre los estudios de microrreglos.

Cap´ıtulo 2

Justificaci´on

La enfermedad de Alzheimer (EA) es un trastorno neurodegenerativo de evoluci´on lenta caracterizado por deterioro cognitivo, p´erdida progresiva de la memoria, la orientaci´on, el juicio y el lenguaje. El principal factor de riesgo es la edad avanzada. Actualmente, no existe cura para esta enfermedad, por lo que se ha hecho importante el esfuerzo por descubrir m´etodos de preven- ci´on, diagn´ostico m´as temprano y de f´acil acceso, as´ı como tratamientos m´as efectivos. Una de las piezas m´as importantes para desentra˜nar el misterio del Alzheimer es determinar lo que causa la enfermedad. En primer lugar, ¿qu´e hace que el proceso de la enfermedad empiece? ¿qu´e es lo que empeora con el transcurso del tiempo? ¿por qu´e aumenta el n´umero de personas con la enfermedad con el aumento de la edad? ¿por qu´e lo desarrollan algunas per- sonas mientras que otras siguen siendo saludables? A escala global se est´an realizando numerosas investigaciones centradas en la prevenci´on, diagn´osti- co y tratamiento de la EA. Hoy en d´ıa se cuenta con numerosa informaci´on sobre la EA; sin embargo, a´un es importante continuar la investigaci´on que permita mejorar la calidad de vida de estos pacientes mediante diagn´osticos m´as tempranos y precisos, as´ı como tratamientos m´as adecuados.

En el a˜no 2014 se diagnosticaron alrededor de 44 millones de casos de demencia a nivel mundial y se estima que el n´umero de casos llegue a 135 millones para el a˜no 2050 [4]. La EA es la causa m´as com´un de demencia.

Seg´un el Instituto Nacional de Geriatr´ıa, en M´exico hay 700 mil casos detectados y se estima que 7 % de mayores de 60 a˜nos padece alg´un tipo de demencia. Cada cinco a˜nos la prevalencia se duplica.

En el ´ambito de la ciencias computacionales, recientemente ha tomado auge el t´ermino neurociencia computacional que es una sub´area de las neu-

rociencias encargada de desarrollar modelos que integran datos de car´acter experimental para ayudar a entender el funcionamiento del cerebro. Los cam- pos de las neurociencias computacionales y los sistemas buscan elucidar es- trategias para el procesamiento de la informaci´on empleadas por los circuitos neurales en el cerebro. A pesar de la intensa investigaci´on desde hace varias d´ecadas, algunos problemas fundamentales de la neurociencia siguen sin resol- verse. Para dar soluci´on a este tipo de preguntas es necesaria la combinaci´on de la neurociencia con las recientes tecnolog´ıas. Se requieren definir nuevos enfoques computacionales que permitan la integraci´on de datos a trav´es de diversas modalidades y niveles de an´alisis, as´ı como la definici´on de nuevas t´ecnicas de integraci´on y miner´ıa de datos que permitan extraer informaci´on significativa y ´util de los complejos sistemas de interacci´on. La inteligencia artificial y la ciencia cognitiva siguen y seguir´an intercambiando diversas aportaciones en diferentes ´areas. La fusi´on de la inteligencia artificial con las neurociencias constituye uno de los m´as promisorios t´opicos de investi- gaci´on. Muchos aspectos relacionados con el funcionamiento del cerebro se encuentran actualmente sin explicaci´on y podr´ıan comprenderse si existiera un trabajo conjunto de ambas ´areas.

Dentro del campo de la gen´omica funcional, los microarreglos han emergi- do como una potente t´ecnica para la medici´on de datos de expresi´on gen´etica y para la comparaci´on de la abundancia relativa de ARN mensajero gene- rado en distintas pruebas biol´ogicas. Los microarreglos constituyen uno de los ´ultimos avances en biolog´ıa molecular haciendo posible el monitoreo de la expresi´on de genes en paralelo. El an´alisis de microarreglos constituye un reto debido a su alta dimensionalidad y complejidad. En el caso de la enfermedad de Alzheimer, es importante encontrar caracter´ısticas sobresalientes de los niveles de expresi´on gen´etica que podr´ıan aportar informaci´on relevante del fen´omeno biol´ogico subyacente a dicha enfermedad.

Para el an´alisis de microarreglos, se han aplicado diversas t´ecnicas de Aprendizaje Autom´atico con la finalidad de establecer algunas relaciones de los genes involucrados en la enfermedad de Alzheimer [86, 87, 88, 89, 90].

En un reciente trabajo se identificaron potentes biomarcadores y combi- naciones de biomarcadores mediante el uso de seis m´etodos de clasificaci´on: Naive Bayes, C4.5 (´arboles de decisi´on), random forest, nearest neighbor y Support Vector Machines (SVM) con kernel gaussiano provistos por el soft- ware Weka. Los algoritmos gen´eticos y SVM pueden identificar los genes que son capaces de clasificar los tejidos en diferentes clases [93].

paraci´on de dos clases (pacientes con enfermedad de Alzheimer vs. pacientes control). En este trabajo tenemos planeado el uso de t´ecnicas de clasificaci´on para modelar los diferentes estad´ıos de la EA (severa, moderada e incipiente). El presente trabajo, tiene como objetivo aplicar t´ecnicas de aprendizaje (´arboles de decisi´on y redes bayesianas) orientadas a descubrir nuevas rela- ciones o patrones de los genes del cerebro relacionados con la enfermedad de Alzheimer (incipiente, moderada y severa) que ayuden a una mejor com- prensi´on de dicha patolog´ıa y consecuentemente contribuir al desarrollo de un diagn´ostico m´as temprano y preciso para la aplicaci´on de tratamientos m´as adecuados.

Cap´ıtulo 3

Hip´otesis

3.1.

Hip´otesis

Existen nuevas relaciones o patrones y asociaciones entre los genes involu- crados en las diferentes etapas del desarrollo de la enfermedad de Alzheimer (EA incipiente, EA moderada y EA severa).

3.1.1.

Objetivos generales

Objetivo general: Aplicar t´ecnicas de aprendizaje autom´atico (´arboles de decisi´on y redes bayesianas) orientadas a descubrir relaciones o patrones de la expresi´on de los genes de la enfermedad de Alzheimer en sus diferentes etapas de desarrollo (incipiente, moderada y severa).

3.1.2.

Objetivos espec´ıficos

Objetivo particular 1: Obtener un modelo de conocimiento que repre- sente patrones de comportamiento observados en los valores de la expresi´on de los genes de la enfermedad de Alzheimer en sus diferentes estad´ıos.

Objetivo particular 2: Interpretar biol´ogicamente los resultados me- diante la vinculaci´on con otras fuentes de informaci´on p´ublica para observar el comportamiento de bloques de genes funcionalmente relacionados con la enfermedad de Alzheimer en sus diferentes etapas de desarrollo.

Cap´ıtulo 4

Materiales y M´etodos

4.1.

An´alisis y modelado de los datos

La matriz de expresi´on gen´etica contiene el nivel de expresi´on de los genes (dispuestos en las filas de la matriz, un gen por cada fila) para cada una de las muestras de estudio (dispuestas en las columnas de la matriz, una muestra por columna). El objetivo de esta investigaci´on es el an´alisis de la matriz de expresi´on para encontrar patrones de inter´es y asociaciones entre genes y muestras mediante miner´ıa de datos. La miner´ıa de datos es el conjunto de t´ecnicas orientadas a la extracci´on de conocimiento ´util de grandes bases de datos (KDD, Knolewdge Database Discover). Un proceso t´ıpico de miner´ıa de datos consta de los siguientes pasos:

1. Selecci´on del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables dependientes (las que sirven para hacer el c´alculo o proceso), como posiblemente al muestreo de los registros disponibles.

2. An´alisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersi´on, presencia de valores at´ıpicos y ausencia de datos (valores nulos).

3. Transformaci´on del conjunto de datos de entrada, se realizar´a de diver- sas formas en funci´on del an´alisis previo, con el objetivo de prepararlo para aplicar la t´ecnica de miner´ıa de datos que mejor se adapte a los datos y al problema, a este paso tambi´en se le conoce como preproce- samiento de los datos.

4. Seleccionar y aplicar la t´ecnica de aprendizaje autom´atico, se construye el modelo predictivo, de clasificaci´on o segmentaci´on. En esta fase, se pretende usar Waikato Enviroment for Knowledge Analysis (WEKA). Weka es una herramienta implementada en Java, desarrollado por la Universidad de Waikato (Nueva Zelanda). Weka contiene las herramien- tas necesarias para realizar transformaciones sobre los datos, tareas de clasificaci´on, regresi´on, clustering, asociaci´on y visualizaci´on [84], [92]. 5. Extracci´on de conocimiento, mediante una t´ecnica de aprendizaje au- tom´atico, se obtiene un modelo de conocimiento, que representa patro- nes de comportamiento observados en los valores de las variables del problema o relaciones de asociaci´on entre dichas variables. Tambi´en pueden usarse varias t´ecnicas a la vez para generar distintos modelos, aunque generalmente cada t´ecnica obliga a un preprocesado diferente de los datos.

6. Interpretaci´on y evaluaci´on de datos, una vez obtenido el modelo, se debe proceder a su validaci´on comprobando que las conclusiones que arroja son v´alidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas t´ecnicas, se deben comparar los modelos para seleccionar el que mejor se ajuste al proble- ma. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si el modelo final no superara esta evaluaci´on el proceso se podr´ıa repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentaci´on se podr´a repetir cuantas veces se considere necesario hasta obtener un modelo v´alido.

Un aspecto de suma importancia en el an´alisis de microarreglos es la reducci´on de la dimensi´on. Una caracter´ıstica de los microarreglos de expre- si´on de genes es que el n´umero de variables (genes) p excede el n´umero de ejemplos n, dicho problema es conocido como “large p, small n”. Existen algunas maneras de tratar dicho problema, una de ellas es la reducci´on de la dimensi´on de los datos que consiste en seleccionar un subconjunto con los genes de mayor inter´es (selecci´on de genes) o producir componentes de genes o super genes –combinaci´on de genes- (reducci´on de la dimensi´on), o usar una combinaci´on de ambas estrategias. La selecci´on de genes se basa en alguna medida univariada relacionada con la clasificaci´on [81]. La t´ecnica de selecci´on de genes m´as ampliamente utilizada es el ranking de genes que

consiste en evaluar individualmente cada gen y asignarle un valor que refleje su correlaci´on con la clase de acuerdo a cierto criterio, seleccionando los genes mejor posicionados.

Generalmente, se seleccionan entre 50-100 genes de acuerdo al puntaje obtenido por el m´etodo de ranking que se haya utilizado [81]. Los compo- nentes de los genes se construyen usando t´ecnicas multivariadas. Aunque los microarreglos de datos contienen numerosos genes, existe un peque˜no n´umero de variables subyacentes que explican la mayor´ıa de la variaci´on de los datos. Por ejemplo, unas cuantas combinaciones de genes pueden explicar la varia- ci´on. En la pr´actica, se hace uso de una combinaci´on de ambas estrategias para la clasificaci´on de la expresi´on de los genes. El proceso de clasificaci´on consta de los siguientes pasos: primero se efect´ua la selecci´on/reducci´on de la dimensi´on donde se construyen componentes de los genes de un gran n´umero de genes; el segundo paso es la clasificaci´on donde los ejemplos se clasifican en categor´ıas aplicando modelos estad´ısticos est´andares en los componentes de los genes. La reducci´on de la dimensi´on es objeto de estudio de diversas ´

areas de investigaci´on tales como an´alisis de datos de alta dimensi´on, re- conocimiento de patrones y aprendizaje autom´atico. Algunas de las t´ecnicas m´as utilizadas para el tratamiento de la reducci´on de la dimensionalidad son: cuadrados m´ınimos parciales (PLS), regresi´on inversa “sliced” (SIR), an´alisis de componentes principales (PCA) [81] y an´alisis de componentes indepen- dientes [88]. Algunos m´etodos de selecci´on y clasificaci´on han sido estudiados para la identificaci´on de diferencias en la expresi´on de los genes de los micro- arreglos. Los m´etodos de clasificaci´on tales como Support Vector Machines (SVM), redes bayesianas y ´arboles de decisi´on, se han utilizado como t´ecnicas de clasificaci´on [82]. En referencia a las bases de datos de expresi´on gen´eti- ca, el clustering se ha consolidado como una de las t´ecnicas m´as utilizadas. El clustering es el m´etodo m´as utilizado de aprendizaje no supervisado. El clustering es una t´ecnica que se utiliza para dividir un conjunto de datos en grupos de objetos similares. En cada grupo (cluster), se incluyen objetos similares entre s´ı. El objetivo consiste en maximizar la similitud entre los elementos de un grupo y minimizar la similitud entre los distintos grupos. De esta forma, el objetivo del clustering es encontrar estructuras intr´ınsecas a un conjunto de objetos [96].

Related documents