El análisis manual de la secuencia en ambos genomas de las 90 regiones supuestamente invertidas nos permitió mejorar la definición de los puntos de rotura de la mayoría de inversiones y que se descartase un porcentaje importante de falsos positivos. Más concretamente se redefinieron los puntos de rotura de 59 inversiones. Los puntos de rotura de 18 de estas inversiones estaban aceptablemente bien definidos, a pesar de existir una diferencia total (sumando ambos puntos de rotura) de entre 1 y 3 bases respecto los definidos en nuestro estudio. Las 41 inversiones restantes tenían sus puntos de rotura definidos con un error de más de 3 nucleótidos, 27 de ellas con una diferencia total de menos de 1 Kb y 14 inversiones con una diferencia total mayor a 1 Kb. Estas diferencias en la definición de los puntos de rotura provienen principalmente del análisis automatizado de los alineamientos sin tener en cuenta las variantes estructurales o los elementos que se encuentran en la secuencia donde se van a localizar. Por ejemplo, en muchas de las zonas donde Levy y colaboradores definieron los puntos de rotura, hay pequeñas inserciones/deleciones que afectaron a la precisión de su definición. En cuanto a los falsos positivos relacionados con la comparación genómica, se descartaron 31 en total. En el análisis del alineamiento de ambas secuencias encontramos diferentes casos en que no se encontró un alineamiento invertido único. La situación más repetida fue que la secuencia en HuRef alineaba en orientación invertida con la secuencia del genoma de Referencia pero este alineamiento no era único ya que al añadir secuencia flanqueante extra encontramos un segundo alineamiento, por lo que estas regiones no corresponden a inversiones sino a duplicaciones invertidas. La secuencia de HuRef presentaba varios gaps en la región, y en muchos casos correspondían a una duplicación segmental. En otros casos, además de la presencia de gaps, la secuencia era completamente repetitiva. Otra combinación que encontramos fue la presencia de inserciones y deleciones junto a los gaps. En el resto de regiones no encontramos alineamiento invertido de la secuencia, incluso al añadir secuencia flanqueante extra, y se atribuyen a errores en el mapeo de regiones invertidas adyacentes a la secuencia entre ambos genomas en el proceso de comparación, aunque en casos puntuales no se hallaron elementos que se pudiesen relacionar con el error en la comparación. En conjunto, 31 errores fueron resultado de la comparación entre ambos genomas, un porcentaje importante que corrobora que el proceso de comparación de ambos genomas ensamblados no tuvo como objetivo principal la detección de inversiones cromosómicas.
Nuestros resultados sobre el análisis de la comparación genómica se explican por las diferencias entre los objetivos del estudio de Levy y colaboradores y del nuestro. En el primer vistazo que le dimos a las coordenadas de las 90 inversiones publicadas [Levy et al. 2007], pudimos observar que no correspondían a ningún rango o intervalo, sino que los puntos de rotura fueron definidos en su extensión mínima, un nucleótido, y aparentemente delimitaban los extremos internos de la inversión. Por lo tanto, no se incluyeron las duplicaciones segmentales en las que se localizan los puntos de rotura en muchas inversiones; a pesar de que al tratarse de inversiones detectadas en todo el genoma era poco probable que no hubiese ninguna de este tipo. Además, en un estudio anterior de detección de variantes estructurales por comparación genómica [Feuk et al. 2005] ya se correlacionó la variación estructural con las repeticiones con bajo número de copias, LCRs, también conocidas como duplicaciones segmentales. Este hecho evidenció que la secuencia de los puntos de rotura no había sido analizada de una manera específica para cada inversión. Las 90 inversiones putativas forman parte de los resultados globales de una comparación en que se analizó con mayor detalle la variación nucleotídica y las inserciones/deleciones de menor tamaño. En conjunto, el planteamiento del estudio sugiere que el objetivo no fue analizar la variación estructural de una manera precisa, especialmente en el caso de las inversiones, que tan solo fueron detectadas a gran escala. Idealmente, la comparación de dos genomas perfectamente ensamblados sin errores daría como resultado la detección de todas las inversiones sin incluir falsos positivos, siempre y cuando la comparación estuviese dirigida a la detección de estas variantes estructurales. No es el caso del estudio de Levy y colaboradores [Levy et al. 2007]. La comparación se planteó como un alineamiento local de ambas secuencias y eso provocó una parte importante de los falsos positivos detectados en nuestro estudio. Los alineamientos continuos de máxima identidad y misma orientación formaron grupos donde se permitieron las discontinuidades como inserciones, deleciones o gaps, pero no cambios en la orientación. Estos grupos formaron bloques en los que sí se permitieron discontinuidades en la orientación de los alineamientos. Entre otras cosas, esta estrategia hizo que no se pudiese diferenciar bien las duplicaciones segmentales invertidas de las inversiones reales, ya que quedaron aisladas de sus parejas en bloques diferentes.
Por el contrario, el planteamiento de nuestro estudio fue analizar manualmente los puntos de rotura y las secuencias flanqueantes. Por eso se definieron los puntos de rotura como intervalos para incluir los localizados en repeticiones invertidas y delimitar bien las secuencias implicadas en la reorganización. La inspección detallada de las secuencias permitió determinar mejor la presencia de regiones de micro-homología implicadas en la generación de las inversiones con puntos de rotura no localizados en repeticiones invertidas (RIs). Además se incluyó cualquier elemento que afectase al punto de rotura como son las inserciones/deleciones. En el caso de las inversiones con puntos de rotura en RIs, la definición de sus puntos de rotura no fue trivial y tampoco siempre es posible. En nuestro estudio se definieron mediante el alineamiento múltiple de las RIs en las dos
orientaciones, que permitió detectar en qué zona de la duplicación o elemento repetitivo se produjo la inversión a partir del intercambio de cambios nucleotídicos entre éstas. Se acotó así la zona donde están localizados, contribuyendo a la mejora de la definición de este conjunto de inversiones.
En el caso de variantes estructurales balanceadas como los son las inversiones, una detección a gran escala como la que se realizó en el estudio de Levy y colaboradores [Levy et al. 2007] implica la inclusión de una gran cantidad de falsos positivos. El análisis manual de la secuencia nos permitió descartarlos. También era esperable que no se hubiesen detectado otras muchas inversiones debido a la estrategia poco dirigida a la detección de inversiones usada en el proceso de comparación. Precisamente en un segundo estudio sobre la variación estructural presente en HuRef [Pang et al. 2010] se usó la información generada en la secuenciación Sanger en forma de extremos apareados, para detectar por PEM las inversiones no identificadas por comparación genómica. El resultado fue de 105 inversiones detectadas por PEM, 79 nuevas inversiones y 26 inversiones entre las detectadas por comparación genómica. Este estudio evidenció así que la comparación genómica realizada no detectó correctamente todas las inversiones, ya que al menos la parte de las 79 nuevas inversiones correspondiente a las inversiones reales se tendría que haber detectado en el primer estudio de Levy y colaboradores. Por lo tanto en relación al primer estudio las consideramos falsos negativos y falsos positivos. Claramente el conjunto de 90 inversiones publicadas [Levy et al. 2007] no representa una aproximación al total de inversiones en el genoma de J. Craig Venter respecto al genoma de Referencia, pero la naturaleza no sesgada del método de detección por comparación genómica hace pensar que sí puede tratarse de un conjunto representativo del total. Por otra parte, el estudio de Pang y colaboradores [Pang et al. 2010] amplió el número de inversiones conocidas en HuRef, aunque la naturaleza sesgada del método de detección por PEM hacia la detección del alelo estándar en las inversiones con puntos de rotura localizados en repeticiones invertidas y la dificultad de alinear los extremos apareados en zonas duplicadas, hace pensar que una parte importante de las nuevas inversiones detectadas pueden ser falsos positivos y que otra parte resta sin detectarse. Por lo tanto, es difícil saber hasta que punto ambos estudios cubren las inversiones de HuRef; lo que sí sabemos es que el conjunto publicado por Levy y colaboradores no contiene la totalidad de inversiones pero que por el método de detección usado, los puntos de rotura de las inversiones detectadas tienen diferentes características y pueden representar los diferentes tipos de inversiones que se encuentran en el genoma humano.
Nuestro estudio se ha centrado en la eliminación de los falsos positivos para tener un conjunto fiable de las inversiones en HuRef, aunque evidentemente no se trate del total de inversiones que existen en este genoma. Esto ha requerido un análisis manual de la secuencia y una redefinición de los puntos de rotura en mucho casos, puntos además importantes para el diseño de los experimentos de PCR. Finalmente los resultados han
contribuido a la generación de un catálogo no redundante de inversiones fiables que se encuentra en la base de datos InvFEST [Martínez-Fundichely et al. 2013] y además junto con los datos mostrados sobre detección demuestran que las inversiones, por sus características balanceadas, no sólo requieren un análisis dirigido para poder diferenciarlas de falsos positivos y definir sus puntos de rotura con precisión; sino que también requieren un método de detección que tenga en cuenta sus características para intentar evitar los falsos negativos.