Value Systems - The Problem Domain - Model of Learning Ability

3. The Problem Domain

3.3. Value Systems

En el apartado de resultados se muestran las diferencias entre poblaciones de las frecuencias alélicas que se han obtenido de la genotipación de distintos individuos de varias poblaciones humanas pero hay que tener en cuenta distintos factores específicos de cada método que afectan al proceso de genotipación de los individuos y por lo tanto pueden afectar a la fiabilidad de las frecuencias.

Nuestro estudio ha tenido como objetivo obtener genotipos fiables en el proceso de genotipación, y para ello se han aplicado todas las medidas necesarias dentro de las limitaciones por ejemplo económicas que tiene hacer estudios usando individuos de varias poblaciones. En la genotipación por PCR e iPCR se diseñaron los experimentos para que sean multiplex, es decir, que en una misma reacción de PCR se amplifiquen los fragmentos correspondientes a los alelos de ambas orientaciones de la secuencia. De esta manera si falla la reacción no obtendremos ningún fragmento, mientras que un experimento independiente para ambos alelos puede conllevar la genotipación errónea de individuos heterocigotos como homocigotos en caso de que falle una de las reacciones de PCR. Lamentablemente el diseño de cebadores en el genoma humano no es trivial debido a la repetitividad de determinadas zonas, que como hemos visto están relacionadas con las inversiones. En aquellos casos en que no fue posible el diseño multiplex, se repitió la genotipación de cualquier individuo que no fuese clara. Es decir, se repitieron los genotipos en que hubiese sospecha de no estar amplificando algún producto, por ejemplo

en el caso de amplificación de una banda de intensidad muy baja que no permitiese la genotipación correcta del individuo. Este control se llevó a cabo en la genotipación de los 90 individuos de población Europea correspondientes al proyecto HapMap y permitió obtener unas frecuencias muy fiables para esta población. Evidentemente las frecuencias obtenidas no son definitivas, ya que se genotipó sólo una parte del total de la población Europea, pero sí que nos dan una idea bien aproximada.

En el caso de la genotipación bioinformática también se dan circunstancias que nos pueden llevar a errores en la estima de la frecuencia de las inversiones. En primer lugar, debido a la secuenciación de baja cobertura se dispuso de pocos reads que cubrieran las regiones de los puntos de rotura en cada individuo, y a menor número de reads mapeados mayor probabilidad de detectar un solo alelo y subestimar el número de individuos heterocigotos para las inversiones. En segundo lugar, existe un sesgo en la detección, ya que ambos alelos no tienen las mismas probabilidades de ser detectados y es más probable detectar el más frecuente. Para evitar que estos factores alterasen la correcta genotipación de los individuos secuenciados en el proyecto de los 1000 Genomas, se usó svgem [Lucas-Lledó et al. 2014]. Se trata de un programa estadístico que aplica un algoritmo de esperanza-maximización que permite determinar la incertidumbre de cada genotipo teniendo en cuenta el sesgo de detección de ambos alelos. De esta manera se estima cual es el genotipo más probable de cada individuo. Además usa un algoritmo de máxima verosimilitud para estimar las frecuencias alélicas para las diferentes poblaciones. A pesar de esto, debido a la baja cobertura de secuenciación, muchos individuos no pueden ser genotipados por la falta de reads que mapeen en los puntos de rotura. Para que esto no afecte a las frecuencias poblacionales, se estableció un número mínimo de 10 individuos genotipados para considerar una frecuencia poblacional válida. Por lo tanto, la aplicación de svgem y de este umbral hacen que las frecuencias obtenidas de la genotipación in silico sean fiables.

Por último se han genotipado a través de SNPs marcador todos los individuos provenientes de las 14 poblaciones humanas en el proyecto de los 1000 Genomas. En la determinación de estos SNPs se usaron los genotipos de los individuos de la población Europea determinados experimentalmente y solo los SNPs fijados, con valores de r2_{de 1} y por lo tanto en completo desequilibrio de ligamiento con la inversión en esta población, para obtener los SNPs marcador globales para todas las poblaciones. Las frecuencias que se obtuvieron en población Europea son muy fiables ya que los genotipos de los individuos para estos SNPs coincidieron con los de las inversiones. En las inversiones genotipadas por mapeo de reads en los puntos de rotura, se usaron los genotipos predichos en las distintas poblaciones para asociarlos con los de los SNPs marcador en población Europea y así se encontraron los globales de manera manual. En este proceso se detectaron errores esporádicos de genotipación de los SNPs en individuos de distintas poblaciones por parte del consorcio encargado del proyecto [1000 Genomes Project Consortium. 2012].

Para el resto de inversiones en las que no disponemos de genotipos para los individuos de las 14 poblaciones del proyecto de los 1000 Genomas, se trató de determinar de la manera más fiable posible los SNPs marcadores globales. Para ello se analizó la correlación de los genotipos de los SNPs marcador en población Europea por parejas de SNPs en los 1092 individuos disponibles. Las parejas de SNPs marcador Europeos con valores de r2 superiores a 0.99 en todas las poblaciones, es decir, con un desequilibrio de ligamiento completo o casi completo entre ellos, se seleccionaron como SNP marcadores globales. La idea es que cuando no fue posible encontrar SNPs totalmente ligados entre ellos, se seleccionaron los SNPs con valores de r2_{más altos posibles, indicando que en un} porcentaje muy bajo, del 1% de los individuos no segregan conjuntamente. Hay que comentar que solo se pudo analizar el desequilibrio entre los alelos de SNPs y de las inversiones en la población Europea, de la que disponemos de genotipos provenientes de experimentos de PCR; por lo que de todas formas no podemos saber si segregan realmente con la inversión o no. Aún así se ha intentado buscar los SNPs marcador con el mayor desequilibrio de ligamiento posible con la inversión y no se han considerado como válidos valores de r2_{inferiores a 0.99. Esto contrasta con otros estudios donde se} catalogan como SNPs marcador aquellos que tienen valores de r2_{superiores a 0.8, donde} el 20% de los individuos tienen alelos para un determinado SNP que no segregan con el alelo de la inversión y por lo tanto, las frecuencias estimadas a partir de ellos no son fiables porque pueden variar de manera importante dependiendo de los genotipos de ese 20% de individuos [Pang et al. 2013]. A pesar de las medidas que se aplicaron para obtener las frecuencias más fiables posibles, el hecho de no relacionar directamente los genotipos de SNPs con los genotipos de las inversiones conlleva el riesgo de que la asociación que encontramos entre parejas de SNPs, que son SNPs marcadores en población Europea, no se dé porque ambos SNPs están asociados con la inversión en todas las poblaciones. En otras palabras, podemos estar seguros de que los SNPs marcador en Europeos están asociados con la inversión, pero sin los genotipos para la inversión en el resto de poblaciones, no podemos saber si también se trata de SNPs marcador en el resto de poblaciones o bien estos SNPs están asociados entre ellos pero no con la inversión. Por lo tanto, que una pareja de SNPs marcadores en población Europea estén asociados en el resto de poblaciones no indica necesariamente que se trate de SNPs marcadores a nivel global. Por ese motivo se seleccionaron los SNPs que por su localización tienen más probabilidades de estar asociados con la inversión. En concreto, se seleccionaron los más cercanos a los puntos de rotura, priorizando los localizados dentro de la inversión, ya que por los efectos de inhibición de la recombinación de las inversiones, es la localización más indicada para contener SNP marcador a nivel poblacional y global. En los casos en que estos pares de SNPs ligados están localizados lejos de los puntos de rotura, se descartaron, y se utilizaron los SNPs marcador en población Europea para obtener frecuencias aproximadas. En este caso también se mantuvieron los criterios de localización dentro de la inversión y cercanía a los puntos de rotura.

Por otra parte, es importante comentar que se produce una variación en las frecuencias poblacionales de las inversiones debido al número de individuos genotipados mediante cada método. En el caso de la genotipación experimental de la población Europea, el número de individuos genotipados es similar al número de individuos con información de SNPs marcador. La diferencia está en la genotipación bioinformática, que como ya hemos visto, debido a la baja cobertura de secuenciación no puede establecer un genotipo para muchos individuos. En el resto de poblaciones, la variación de las frecuencias entre las obtenidas por genotipación bioinformática y por SNPs marcador es visible en algunos casos, donde la diferencia en el número de individuos genotipados puede ser de hasta unos 80 individuos más en la genotipación por SNP marcador. Idealmente, la secuenciación de alta cobertura de los individuos del proyecto de los 1000 Genomas permitiría la genotipación bioinformática de todos los individuos y se corregirían estas diferencias.

Po r ú ltimo cabe d estacar q u e tal y co mo h emo s v isto en ap artad o s anterio res, la genotipación a través de SNPs marcador solamente es fiable en inversiones de origen único, donde los alelos de los SNPs están fijados o asociados con valores de r2_superiores a 0.95 con los alelos de la inversión. Esto excluye a las inversiones con origen recurrente que por la recombinación que se da durante los eventos de recurrencia, no tienen alelos fijados de SNPs y por lo tanto no tienen SNPs marcador fiables según nuestro criterio. En ese sentido es importante comentar que puede darse el caso de inversiones que son recurrentes en unas poblaciones mientras que en otras no y por lo tanto pueden tener SNPs fijados en las poblaciones donde no se ha producido el evento de recurrencia. En nuestro caso podría ser que algunas de las inversiones con puntos de rotura en RIs que tienen un origen único en la población Europea sean recurrentes en otras poblaciones y por lo tanto la genotipación por SNPs marcador sea errónea.

Además las características de los puntos de rotura de estas inversiones no nos permiten la genotipación bioinformática, porque se basa en el alineamiento de reads en los puntos de rotura específicos de cada orientación y no pueden alinearse de manera única en las repeticiones invertidas donde se localizan los puntos de rotura de las inversiones recurrentes. Por estos motivos, la genotipación de las inversiones recurrentes o potencialmente recurrentes debido a las características de sus puntos de rotura, ha de ser experimental.

4.4.2 Explicación de la distribución poblacional actual de las inversiones a través de

In document Model of Learning Ability (Page 98-114)