• No results found

Tras analizar la región clpA-infA en más de un centenar de aislados de E. coli, hemos encontrado dos arquitecturas principales del sistema CRISPR-Cas I-F. La mayoritaria de las cepas de la especie carece de genes cas asociados (cepas que denominamos cas I-F-), presentando una única agrupación CRISPR (denominada CRISPR4.1-2) entre los genes clpA e infA. El resto de cepas (denominadas cas I-F+) contiene dos loci CRISPR (nombrados como CRISPR4.1 y CRISPR4.2) localizados en la misma región y separados por seis genes cas. La organización de estos genes es cas1-

cas2/3-csy1-csy2-csy3-cas6f (Figura 9). La agrupación CRISPR4.1-2 de las cepas cas I-

F- analizadas, contiene un número muy reducido de repeticiones en comparación con los loci CRISPR4.1 y CRISPR4.2 de las cepas cas I-F+.

Figura 9. Arquitectura de la región CRISPR-Cas I-F de cepas cas I-F- (A) y cas I-F+ (B) de E. coli.

Las repeticiones CRISPR con secuencia equivalente a la consenso se representan con rombos negros y las degeneradas en gris. Los espaciadores se muestran mediante rectángulos de distintos colores y la secuencia leader está resaltada en rojo. Los genes cas I-F se representan mediante flechas azules apuntando hacia la dirección de transcripción. Se incluyen los genes adyacentes al locus CRISPR-Cas.

La secuencia de las repeticiones CRISPR4 más frecuentemente encontrada es GTTCACTGCCGTACAGGCAGCTTAGAAA, observándose diversas variantes con entre una y seis diferencias respecto a esta. Las repeticiones con mayor número de diferencias (degeneradas) se localizan, en todos los casos, en el extremo opuesto a clpA

para las tres agrupaciones (Figura 9), sugiriendo la presencia de una posible secuencia

leader en el extremo de cada agrupación más próximo a dicho gen (Figura 9). Además,

el alineamiento de estas posibles regiones leader revela una conservación de secuencia (mayor del 40% de identidad) para los tres tipos de agrupaciones (i.e., CRISPR4.1-2, CRISPR4.1 y CRISPR4.2) y un alto porcentaje de adeninas y timinas (Figura 10). Todas estas características (i.e., localización distal respecto a la repetición degenerada, elevado porcentaje de A/T y conservación de secuencia para agrupaciones de la misma repetición) son típicas de regiones leader (Mojica et al. 2000; Jansen et al. 2002).

Figura 10. Alineamiento ClustalW de las regiones localizadas en el extremo más próximo a clpA de

agrupaciones CRISPR4 de aislados de E. coli. Cada secuencia está identificada mediante la denominación del tipo de agrupación CRISPR4 seguido del nombre de la cepa correspondiente. En la parte superior de la imagen se representa un perfil del porcentaje de identidad. Las posiciones altamente conservadas en el alineamiento se sombrean con colores distintivos de cada base.

En cuanto a los espaciadores I-F, tan sólo se han encontrado alrededor de un centenar de secuencias distintas, número muy inferior al obtenido para el sistema CRISPR-Cas I-E de E. coli. Sin embargo, esta diferencia se puede atribuir al elevado porcentaje de cepas que aun presentado agrupaciones CRISPR4 carece de genes cas I-F asociados (90% de las analizadas, mientras que el porcentaje de cepas con CRISPR2 y sin genes cas I-E es inferior al 40%), y por tanto no son activas en adquisición siendo muy reducido el número de espaciadores en sus agrupaciones CRISPR. Por otra parte, en los aislados que carecen de genes cas I-F, solamente se han encontrado un total de diez espaciadores distintos (aunque hay variaciones de secuencia puntuales para cada uno de ellos; ver Artículo 1). Significativamente, nueve de esos diez espaciadores poseen un

porcentaje de identidad elevado con secuencias (posibles protoespaciadores) localizadas en genes cas I-F de cepas cas I-F+ de E. coli. Esta observación sugiere que las cepas cas

I-F- derivan de un ancestro cas I-F+ y que la pérdida de genes cas ocurrió como

consecuencia de un acontecimiento de “autointerferencia” CRISPR-Cas: la entrada en el ancestro cas I-F+ de una molécula de DNA portadora de genes cas I-F homólogos a los residentes provocó la adquisición de nuevos espaciadores procedentes del operón cas foráneo, que guiaron a la maquinaria de interferencia CRISPR frente a secuencias homólogas en cas residentes, actuando como una fuerza selectiva que derivó en la pérdida de dichos genes (Figura 11). La deleción de estos genes provocaría una pérdida de funcionalidad del sistema y con ello una reducción en el número de unidades CRISPR- espaciador de la agrupación CRISPR residual (i.e., CRISPR4.1-2) debido a eventos de recombinación entre repeticiones que provocarían la pérdida de unidades, sin que tuvieran lugar nuevas incorporaciones. Esta hipótesis está respaldada por la detección de sistemas I-F en elementos genéticos transmisibles, tanto en plásmidos (Haft et al. 2005) como en fagos (Seed et al. 2013). Se ha sugerido incluso que estos loci CRISPR4.1-2 podrían estar aún actuando como un sistema “anti-CRISPR” (Touchon and Rocha, 2010): impidiendo el establecimiento en la célula de elementos de DNA invasores portadores de sistemas con genes codificantes de proteínas Cas I-F que proporcionarían actividad a la agrupación CRISPR cromosómica, procesando los crRNA y produciendo interferencia guiada por ellos frente a dichos genes cas. Sin embargo, hasta la fecha, no se han detectado sistemas I-F en elementos genéticos móviles relacionados con E. coli.No obstante, no se puede descartar su existencia. En todo caso, la presencia en todas las cepas CRISPR4.1-2/cas I- F- que poseen 2 o más repeticiones (además de estas hay tres con tan solo una unidad

CRISPR), de al menos un espaciador (hasta 3 distintos, algunos duplicados) cuya secuencia coincide con la de genes cas I-F (ver Figura S2 de Artículo 1), así como la conservación de las secuencias de las repeticiones y de la leader, indican que estos loci deben cumplir una función importante. Dicho papel está relacionado de alguna manera, casi exclusivamente (sólo se ha encontrado, en una cepa, un espaciador no homólogo a secuencias cas) con los cas diana. Ciertamente, estas agrupaciones CRISPR4.1-2 residuales podrían en principio actuar como un sistema CRISPR/anti-cas. Sin embargo, la identidad de secuencia de estos espaciadores CRISPR4.1-2 con los genes cas I-F conocidos es parcial, localizándose en algunos casos diferencias con la secuencia cas diana en posiciones de la denominada región seed (región del crRNA que corresponde con las ocho primeras bases del espaciador en dirección 5’-3’; Figura 12). Estas

diferencias prevendrían una posible interferencia mediada directamente por dichos espaciadores (Semenova et al. 2011; Wiedenheft et al. 2011). Sin embargo, cabría también la posibilidad de que estos espaciadores promuevan una adquisición cebada (primed acquisition): adquisición de nuevos espaciadores procedentes de regiones próximas a la diana, inducida por un apareamiento parcial espaciador-protoespaciador (Datsenko et al. 2012). Los nuevos espaciadores serían los responsables de producir una interferencia eficaz contra el elemento portador de los genes cas. Esta eventualidad está siendo estudiada por nuestro grupo.

Respecto a los espaciadores de cepas cas I-F+, más del veinte por ciento son similares (identidad igual o superior al 90%) a secuencias no espaciadoras depositadas en bases de datos públicas, correspondiendo en su mayoría a plásmidos, y ninguno presenta semejanza con secuencias de genes cas I-F. Esta aparente preferencia por plásmidos es atípica entre los sistemas CRISPR-Cas analizados hasta la fecha y contrasta en particular con el sistema CRISPR-Cas I-E de E. coli, donde la mayor parte de los elementos portadores de protoespaciadores se corresponden con bacteriófagos (Mojica et al. 2005; Barrangou et al. 2007; Heidelberg et al. 2009; Touchon et al. 2009; Díez-Villaseñor et

al. 2010; Cady et al. 2012). Es probable que este hecho esté relacionado con una distinta

frecuencia de entrada en la célula de ambos tipos de elementos invasores. En este sentido cabe mencionar que, con la única excepción de los aislado B7A y Shigella sp D9 (que poseen los sistemas I-E y I-F completos), todas las cepas cas I-F+ de E. coli analizadas en

este trabajo pertenecen al mismo grupo filogenético (i.e., B2) y además carecen de genes

cas I-E. Estos aislados, en su mayoría descritos como patógenos, comparten modos de

vida y hábitats equivalentes en los que quizá la invasión por fagos sea menos frecuente que en otros ambientes.

El alineamiento de regiones conteniendo secuencias protoespaciadoras identificadas para espaciadores CRISPR4 de E. coli, reveló la conservación del dinucleótido GG inmediatamente a continuación del protoespaciador (ver Figura 1 de Artículo 3). Este motivo coincide con la secuencia PAM descrita para las CRISPR4 de otras especies (Mojica et al. 2009). También se pudo confirmar que los espaciadores se encuentran orientados de forma equivalente en las agrupaciones CRISPR con respecto al PAM, de manera que el extremo de los espaciadores más próximo a la leader es en todos los casos aquel que coincide con el extremo adyacente al PAM en el protoespaciador correspondiente. Esta polaridad de los espaciadores con respecto al PAM repercute en la

eficacia de la interferencia, tal y como se discute más adelante (ver apartado 3 de esta sección).

Figura 11. Modelo hipotético del acontecimiento de autointerferencia propuesto para la generación

de cepas cas I-F-. En primer lugar, el DNA de un fago o un plásmido portador de genes cas I-F (región

rosa; panel A), penetra en una célula cas I-F+ (B). Esta infección provoca la integración de

espaciadores procedentes de DNA foráneo (C), incluidas secuencias de los genes cas (rectángulo rosa), en la agrupación CRISPR cromosómica (rombos negros, CRISPR; rectángulo naranja, leader; rectángulos de colores, espaciadores). Estos nuevos espaciadores darán lugar a crRNAs que guiarán a la maquinaria de interferencia (círculo granate) frente a los genes cas del elemento genético invasor, provocando su degradación, y además sobre secuencias homólogas de los cas cromosómicos (D) forzando la deleción del operón cas (E). La ausencia de los genes cas conlleva la pérdida de funcionalidad del sistema y con ello una disminución en el contenido de unidades CRISPR-espaciador de las agrupaciones CRISPR (F).

Figura 12. Alineamientos de espaciadores CRISPR4.1-2 detectados en este trabajo (ver Artículo 1)

con secuencias de genes cas I-F de E. coli. En los casos en que se han encontrado diversas variantes de un mismo espaciador, únicamente se ha considerado la variante con la que se detectó un mayor porcentaje de identidad con secuencias cas. Para cada alineamiento, en la línea superior se muestra la secuencia 5’ – 3’ del espaciador (inversa-complementaria a la correspondiente al crRNA) y en la inferior la secuencia cas con la que presenta mayor identidad. La región seed está enmarcada con un rectángulo rojo.

La característica más variable de los loci CRISPR, y por tanto con mayor potencial en tipado de cepas, es el número e identidad de espaciadores. Este polimorfismo permitió agrupar y diferenciar cepas basándose exclusivamente en el contenido en espaciadores presentes en los loci CRISPR (tanto de los del sistema I-F como del I-E; ver Figura S1 de Artículo 2). La comparación mediante análisis bioinformático de las matrices de árboles generados a partir del contenido de espaciadores (árbol spacer groups) y los obtenidos por MLST a partir de quince regiones de distintos genes (árbol filogenético), reveló que las agrupaciones obtenidas por ambos métodos son similares (similitud estadísticamente significativa), validando el uso de los espaciadores como marcadores genéticos para la asignación filogenética de aislados de E. coli. Cabe destacar sin embargo la discordancia en la topología entre las agrupaciones de las cepas del grupo MLST B1 en referencia a su dotación de espaciadores, muchas de ellas apareciendo asociadas con aislados de otros grupos. Este hecho posiblemente se deba a eventos de recombinación

intraespecífica de las regiones CRISPR2. De esta manera, distintos grupos filogenéticos de la especie pueden beneficiarse de espaciadores seleccionados de manera independiente en varios linajes.

En lo referente a los genes cas, los dos sistemas (I-F y I-E) han evolucionado de manera distinta. Los resultados indican que el sistema CRISPR-Cas I-F se adquirió antes y presenta una mayor clonalidad que el I-E. Por otra parte, la presencia en cepas de

Salmonella y otras especies de Escherichia de los sistemas I-E y I-F en localizaciones

equivalentes a donde se encuentran en los genomas de E. coli indica que ambos estaban presentes en un ancestro común. Más concretamente, el fenómeno de “autointerferencia” que afectó al sistema CRISPR-Cas I-F podría haber ocurrido antes de la separación de las líneas evolutivas que dieron lugar a E. coli, Escherichia fergusonii y Escherichia albertii, ya que en las tres especies se pueden encontrar agrupaciones CRISPR4.1-2 que contienen espaciadores con homología a secuencias de genes cas I-F.

Por otra parte, el análisis bioinformático de los genes cas I-E confirmó la existencia de dos variantes (E1 y E2) en cepas de E. coli (ver Figura 2 de Artículo 2). Aparte de la disimilitud en la secuencia de los genes de las dos variantes, éstas también se diferencian en el uso de codones y porcentaje de GC, siendo en el caso de la variante E1 más semejantes (p<0,05) a los valores respectivos obtenidos para el genoma usado como referencia (E. coli K12 MG1655; ver Figura 3 de Artículo 2). Además, las secuencias de los genes cas I-E de otras especies filogenéticamente cercanas como S. enterica y E.

albertii mostraron una mayor similitud con las de los respectivos genes de la variante E1

de E. coli (ver Figura 2 de Artículo 2). Por otro lado, para comprobar si la variante E2 es el resultado de eventos de recombinación ocurridos en los genes cas de las cepas de la variante E1, se llevó a cabo un análisis con el programa GENECONV, mostrando que los posibles eventos de recombinación sucedidos en el operón cas I-E1 se produjeron principalmente en los genes cse1, cse2, cas7, cas5, y cas6e (ver Figura S3 de Artículo 2). Debido a que se forman prácticamente las mismas agrupaciones de cepas de E. coli en los árboles de secuencia en donde se usan los genes del operón cas I-E completo que empleando solamente los genes cas3, cas1 y cas2 (ver Figura 2 de Artículo 2), se puede descartar que la disparidad de la variante E2 con respecto a las E1 sea consecuencia de fenómenos de recombinación de esta última. Finalmente, del conjunto de resultados anteriormente descritos (uso de codones, porcentaje de GC, análisis de secuencias y de eventos de recombinación) se puede inferir que la variante E1 precedió a la E2.

Asimismo, el análisis de las distintas arquitecturas génicas observadas en la región iap-

cysH de E. coli, ha permitido elaborar un diagrama evolutivo de cómo pudo reemplazarse

la variante E1 por la E2 (ver Figura 4 de Artículo 2). Probablemente, el reemplazamiento de la versión ancestral por otra adquirida por transferencia horizontal fue interespecífica, ya que tanto E. fergusonii como determinadas cepas de E. coli (la mayoría pertenecientes al grupo MLEE A) comparten un operón cas I-E de la variante E2. Esta observación evidencia el carácter móvil de los loci CRISPR-Cas sugerido por otros resultados (Godde & Bickerton, 2006; Portillo & Gonzalez, 2009) y pone de manifiesto una diversidad intraespecífica que involucra incluso a sistemas pertenecientes al mismo subtipo.

Una vez puesto de manifiesto el intercambio de genes cas I-E, quedaría por establecer cuáles son los límites de la región reemplazada. En este sentido, resulta significativo el hecho de que la repetición CRISPR y la secuencia espaciadora más distal de la leader en las agrupaciones CRISPR2.1 (adyacente a los genes cas I-E) son prácticamente idénticas en casi todas las cepas analizadas portadoras de dicha agrupación (tanto de la variante E1 como la E2). Sin embargo, la secuencia leader es distinta para cada una de las dos variantes de genes cas (L1 para el subtipo E1 y L2 para el E2), al igual que lo es la CRISPR adyacente (una diferencia en una posición; Díez-Villaseñor et

al. 2013). Estas observaciones indican que hubo un reemplazamiento “parcial” del locus

CRISPR2.1/Cas I-E que implicó a todos los genes cas, así como a la leader y al menos una CRISPR adyacente. Estos elementos constituirían lo que podríamos denominar el “módulo de transferencia” intercambiable.

Por otro lado, la secuencia leader del locus CRISPR2.3 es prácticamente idéntica tanto en cepas con genes cas I-E1 como en aislados con cas I-E2,sugiriendo que ese

cassete estaba presente antes del reemplazamiento de elementos de la variante E1 por la

E2, no viéndose afectado por dicho cambio.

Actualmente, salvo una excepción (Díez-Villaseñor et al. 2013), todos los trabajos publicados sobre el sistema CRISPR-Cas I-E de E. coli analizan los genes cas de la cepa K12 MG1655. Este aislado tiene un operón cas perteneciente a la variante E2, que

corresponde al subtipo minoritario en la especie. Cabe por tanto la posibilidad de que al menos alguno de los aspectos funcionales establecidos para el sistema E2 no sean aplicables al E1. De hecho, el motivo PAM más frecuentemente asociado a los protoespaciadores de ambas variantes difiere en la posición central (CTT para E2, CWT para E1; W = A/T), poniendo de manifiesto diferencias a nivel del reconocimiento de las

secuencias precursoras de espaciadores, y por tanto en la elección de lo que resultarán siendo las dianas de la interferencia (Díez-Villaseñor et al. 2013).