Adaptive MCMC - Parameter and state model reduction for Bayesian statistical inverse problems

Primera parte: expresión heteróloga de una versión

truncada de la proteína humana β-1,4-galactosil-transferasa

7 (B4GALT7) y su caracterización bioquímica

La proteína galactosiltransferasa I o B4GALT7 (β-1,4-galactosiltransferasa 7; UDP-galactosa:O-β-D-xilosilproteína 4-β-D-galactosiltransferasa, EC 2.4.1.133) es,

como ya se ha comentado, la GalT implicada en la biosíntesis del tetrasacárido conector de los glicosaminoglicanos, que cataliza la adición del primer residuo de galactosa a la xilosa. Es una proteína conocida y que ha sido previamente clonada en células de insecto (Almeida et al., 1999) y de ratón (Okajima et al., 1999a), lo que permitió su caracterización cinética parcial con extractos de proteína semipura (Almeida et al., 1999) o como una enzima fusionada a la proteína A (Okajima et al., 1999a).

Nuestro propósito ha sido desarrollar un sistema de expresión y purificación más sencillo, basado en la sobre expresión en células bacterianas y purificación en un único paso por cromatografía de afinidad a iones metálicos inmovilizados (IMAC), una metodología que hemos utilizado en nuestro laboratorio en anteriores ocasiones y que

nos ha reportado fracciones de alta pureza de las enzimas recombinantes en cada caso (Bastida et al., 2003; Sánchez-Moreno et al., 2004; Latorre, 2008).

Para ello procedimos a clonar el cDNA del gen B4GALT7 en el vector de expresión pET-28b(+) (5,4 kb). Este plásmido posee varias características que lo hacen idóneo para obtener los objetivos propuestos. Es un plásmido de alto número de copia, con un sistema sencillo de selección por resistencia al antibiótico kanamicina, su promotor proporciona altos niveles de expresión de proteína con una fina regulación y su expresión se dispara por adición de IPTG al medio de cultivo. Además permite obtener una proteína recombinante con un pequeño fragmento fusionado al extremo N-t que codifica para una cola de seis histidinas. Esta cola de histidinas presenta una alta afinidad por los cationes divalentes, lo que permitirá, en un paso posterior, la purificación de la enzima mediante IMAC (Peti y Page, 2007).

Durante la escritura de esta tesis doctoral, han aparecido dos artículos describiendo la clonación de B4GALT7 en E. coli siguiendo un enfoque similar al utilizado en nuestro grupo de investigación: la glicosiltransferasa se obtuvo como una proteína de fusión. En ambos trabajos se fusionó B4GALT7 a una proteína de gran tamaño, la proteína de unión a maltosa (MBP) y a la galectina-1, lo que permitió su posterior purificación mediante columnas de afinidad (Daligault et al., 2009; Pasek et

al., 2010).

Clonación

El clon IRALp962B203Q2 de la colección RZPD se creció en medio LB con cloranfenicol y se purificó el plásmido p962B203Q2 (~3,5 kb) . Para comprobar el plásmido se procedió a digerirlo con EcoRI (resultando un único fragmento de ~3,5 kb) y con PstI (resultando dos fragmentos de de ~1,7 y ~1,8 kb). Ambos resultados coinciden con lo esperado (Figura 19A y B).

Para clonar el fragmento conteniendo el cDNA de B4GALT7 el plásmido se digirió con EcoRI y XhoI. El resultado fue una mezcla con dos fragmentos con un tamaño aproximado alrededor de las 1.700 pb. Ante la imposibilidad de separar los dos fragmentos por electroforesis, se optó por ligar la mezcla de dos fragmentos con el

Figura 19. Electroforesis con p962B203Q2 digerido con diferentes enzimas de restricción. (A) EcoRI (3,5 kb). (B) PstI (1,7 + 1,8 kb). (C) Los dos fragmentos resultantes de la digestión de p962B203Q2 con EcoRI y XhoI no pudieron separarse por electroforesis, apareciendo como una única banda (carril 2). La mezcla se ligó con el vector pET-28b(+) (5,4 kb) digerido con las mismas enzimas (carril 1).

vector de expresión pET-28b(+), previamente digerido con las mismas enzimas (Figura 19C).

Como puede verse en la Figura 20, pueden darse tres construcciones distintas. En la primera el fragmento conteniendo el cDNA de B4GALT7 liga con el pET digerido (pEcDNA). La segunda posibilidad era que el fragmento que ligase con el pET fuese el que contiene el gen de resistencia a cloranfenicol (pEp962). Por último, podría darse que los dos fragmentos de p962B203Q2 volviesen a ligar entre ellos.

Con esta mezcla heterogénea se transformó E. coli DH5α. Los transformantes tenían diferentes fenotipos de resistencia dependiendo de la construcción que hubiesen captado. Las primeras (DH/pEcDNA) presentaban resistencia a kanamicina, las segundas (DH/pEp962) poseían una doble resistencia a kanamicina y cloranfenicol, mientras que las terceras poseían resistencia a cloranfenicol (DH/p962B203Q2). Durante la trasformación se sembró en placas con kanamicina, por lo que sólo se seleccionaron las cepas DH/pEcDNA y DH/pEp962.

Para discriminar entre estos dos tipos se procedió a su selección mediante una siembra cruzada en placas con kanamicina y kanamicina/cloranfenicol, se sembraron un total de 25 colonias resultantes de la transformación, recogiendo las que crecieron en presencia de kanamicina pero no en presencia de kanamicina/cloranfenicol (Figura 20). De los clones seleccionados se purificó y se secuenció el plásmido

Figura 20. Esquema seguido para la clonación del cDNA del gen B4GALT7 en el vector pET-28b(+). El resultado de ligar los fragmentos de la digestión con EcoRI y

XhoI era de tres posibilidades: pEcDNA (resistente a kanamicina), pEp962 (resistente

a kanamicina y cloranfenicol) y p962 (resistente a cloranfenicol). Este último se eliminó en el proceso de transformación, ya que se sembró en placas con kanamicina. Para seleccionar los clones con la construcción pEcDNA se realizó posteriormente una siembra cruzada en placas con kanamicina y kanaminica/cloranfenicol. Las colonias que crecían en la placa con kanamicina pero no en la placa con kanamicina y cloranfenicol (representadas en azul) eran las que contenían la construcción pEcDNA (cDNA: cDNA de B4GALT7, 6xH: cola de polihistidinas de pET-28b(+), Kan: gen de resistencia a kanamicina, Cm: gen de resistencia a cloranfenicol).

pEcDNA. Además, se digirió con EcoRI para comprobar que el tamaño era el esperado (7 kb, Figura 21).

Un análisis de la secuencia del gen B4GALT7[17] nos reveló la existencia de varios dominios de interés (Figura 22). Es conocido que las glicosiltransferasas de

[17]_{La secuencia puede consultarse en el Gen Bank. El número de entrada es BC007317.2} (http://www.ncbi.nlm.nih.gov/nuccore/33873618) y corresponde al mRNA clonado en Strausberg et al.

Figura 21. El plásmido pEcDNa se digirió con EcoRI para comprobar que el tamaño coincidía con lo esperado (~7 kb)

mamíferos en general, y B4GALT7 en particular, son proteínas de membrana de tipo II (Amado et al., 1999), esto es, que se anclan a la membrana celular mediante un fragmento formado por aminoácidos lipófilos. En este caso se pueden diferenciar tres dominios básicos; el dominio N-t con un pequeño tallo citosólico, el fragmento transmembranal y el dominio C-t, formado por un gran dominio globular con la función catalítica más un pequeño tallo de unión no catalítico (Joziasse, 1992).

El expresar este tipo de proteínas en E. coli presenta serias dificultades, ya que los fragmentos lipófilos suelen interaccionar entre ellos formando agregados insolubles conocidos como cuerpos de inclusión o pueden dar lugar a plegamientos incorrectos de la proteína durante la fase de traducción (Fahnert y Neubauer, 2004). Debido a la dificultad intrínseca para expresar proteínas de membrana en E. coli, se siguió una estrategia, frecuente en estos casos, que consiste en eliminar el extremo N-t para obtener dominios solubles y activos de la proteína aprovechando que la actividad catalítica reside en el dominio C-t (Amado et al., 1999). Gracias al programa GREASE (Kyte y Doolittle, 1982) consiguió localizar el fragmento transmembranal entre los aás. 31 y 51, ambos inclusive. Afortunadamente, aguas abajo de la secuencia codificadora del dominio transmembranal existe una diana única de restricción para PstI entre los aás. 49 y 50 (Figura 22) que permitió obtener una versión truncada de la enzima.

El primer paso para ello fue realizar una digestión del plásmido pEcDNA (purificado de los clones DH/pEcDNA) con NheI y PstI. En ausencia de dNTPs, la enzima T4 DNA polimerasa tiene un índice de recambio mayor para su actividad exonucleasa 3’Æ5’ que para la actividad polimerasa. En presencia de dNTPs,

(2002), «Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences», Proc. Natl. Acad. Sci. USA. 99: 16899-16903.

Figura 22. Arriba: representación esquemática de la topología de B4GALT7. Debajo: secuencia del gen y de la proteína B4GALT7. El dominio transmembranal aparece en amarillo. El dominio citosólico se encuentra en el extremo N-t, aguas arriba del fragmento transmembranal. Subrayada en azul aparece la secuencia de reconocimiento de PstI, indicando la flecha el punto exacto de corte.

ATG TTC CCC TCG CGG AGG AAA GCG GCG CAG CTG CCC TGG GAG GAC GGC AGG TCC GGG TTG M F P S R R K A A Q L P W E D G R S G L CTC TCC GGC GGC CTC CCT CGG AAG TGT TCC GTC TTC CAC CTG TTC GTG GCC TGC CTC TCG L S G G L P R K C S .V F H L F V A C L S.

CTG GGC TTC TTC TCC CTA CTC TGG CTG CAG CTC AGC TGC TCT GGG GAC GTG GCC CGG GCA

.L G F F S L L W L Q L. S C S G D V A R A GTC AGG GGA CAA GGG CAG GAG ACC TCG GGC CCT CCC CGC GCC TGC CCC CCA GAG CCG CCC V R G Q G Q E T .S. G P P R A C P P E P P CCT GAG CAC TGG GAA GAA GAC GCA TCC TGG GGC CCC CAC CGC CTG GCA GTG CTG GTG CCC P E H W E E D A S W G P H R L A V L V P TTC CGC GAA CGC TTC GAG GAG CTC CTG GTC TTC GTG CCC CAC ATG CGC CGC TTC CTG AGC F R E R F E E L L V F V P H M R R F L S AGG AAG AAG ATC CGG CAC CAC ATC TAC GTG CTC AAC CAG GTG GAC CAC TTC AGG TTC AAC R K K I R H H I Y V L N Q V D H F R F N CGG GCA GCG CTC ATC AAC GTG GGC TTC CTG GAG AGC AGC AAC AGC ACG GAC TAC ATT GCC R A A L I N V G F L E S S N S T D Y I A ATG CAC GAC GTT GAC CTG CTC CCT CTC AAC GAG GAG CTG GAC TAT GGC TTT CCT GAG GCT M H D V D L L P L N E E L D Y G F P E A GGG CCC TTC CAC GTG GCC TCC CCG GAG CTC CAC CCT CTC TAC CAC TAC AAG ACC TAT GTC G P F H V A S P E L H P L Y H Y K T Y V GGC GGC ATC CTG CTG CTC TCC AAG CAG CAC TAC CGG CTG TGC AAT GGG ATG TCC AAC CGC G G I L L L S K Q H Y R L C N G M S N R TTC TGG GGC TGG GGC CGC GAG GAC GAC GAG TTC TAC CGG CGC ATT AAG GGA GCT GGG CTC F W G W G R E D D E F Y R R I K G A G L CAG CTT TTC CGC CCC TCG GGA ATC ACA ACT GGG TAC AAG ACA TTT CGC CAC CTG CAT GAC Q L F R P S G I T T G Y K T F R H L H D CCA GCC TGG CGG AAG AGG GAC CAG AAG CGC ATC GCA GCT CAA AAA CAG GAG CAG TTC AAG P A W R K R D Q K R I A A Q K Q E Q F K GTG GAC AGG GAG GGA GGC CTG AAC ACT GTG AAG TAC CAT GTG GCT TCC CGC ACT GCC CTG V D R E G G L N T V K Y H V A S R T A L TCT GTG GGC GGG GCC CCC TGC ACT GTC CTC AAC ATC ATG TTG GAC TGT GAC AAG ACC GCC S V G G A P C T V L N I M L D C D K T A ACA CCC TGG TGC ACA TTC AGC TGA

Figura 23. Esquema seguido para la obtención de la versión truncada de la proteína B4GALT7. En un primer paso se digirió el plásmido con PstI y NheI, para después tratarlo con T4 DNA polimerasa en presencia de dTTP. Después, se añadieron el resto de desoxinucleótidos para obtener un plásmido con los extremos romos, que se ligaron con T4 DNA ligasa. Nótese que tras el ligamiento se recuperó la fase de lectura de la proteína.

en cambio, la actividad polimerasa se encuentra favorecida frente a la exonucleasa (Sambrook et al., 1989). Teniendo esto en cuenta el fragmento resultante de la digestión con NheI y PstI se trató posteriormente con T4 DNA polimerasa en presencia de dTTP, así, se favorece la actividad exonucleasa hasta que la DNA polimerasa se encuentra con una adenina en la cadena complementaria, en ese momento, debido a la presencia de dTTP en el medio, la actividad polimerasa gana frente a la exonucleasa. Como consecuencia, se pudo generar un extremo 3’OH susceptible de ser utilizado por la DNA polimerasa como iniciador en el extremo cortado con PstI, quedando un plásmido con extremos cohesivos no complementarios (Figura 23). Para conseguir un plásmido con extremos romos se procedió a tratar con

5’ CAT ATG GCT AGC ··· ··· CTG CAG CTC AGC 3’ 3’ GTA TAC CGA TCG ··· ··· GAC GTC GAG TCG 5’

His Met Ala Ser ··· ··· Leu Gln Leu Ser

Digestión con NheI y PstI

CAT ATG G 3’ 5’ G CTC AGC GTA TAC CGA TC 5’ 3’ AC GTC GAG TCG

T4 DNA polimerasa + dTTP

CAT ATG G 3’ 5’ G CTC AGC GTA TAC CGA TC 5’ 3’ TCG

T4 DNA polimerasa + dNTPs

CAT ATG GCT AG 3’ 5’ G CTC AGC GTA TAC CGA TC 5’ 3’ C GAG TCG

T4 DNA ligasa

CAT ATG GCT AGG CTC AGC GTA TAC CGA TCC GAG TCG His Met Ala Arg Leu Ser

Figura 24. Secuenciación de pEb4g7. En amarillo aparecen los restos de la diana para NheI y en rojo los de PstI, después de la digestión y el tratamiento con la T4 DNA Polimerasa.

T4 DNA polimerasa pero esta vez en presencia de los cuatro dNTPs. El último paso consistió en incubar el plásmido con T4 DNA ligasa. Así se ligaron ambos extremos para obtener la construcción pEb4g7 (6,7 kb) (Figura 23).

El vector pEb4g7 se utilizó para transformar la cepa BL21 (DE3) de E. coli obteniendo así los clones BL/pEb4g7. Los clones se crecieron en medio LB con kanamicina y los plásmidos se purificaron mediante miniprep. Para llevar a cabo el análisis de restricción se digirieron con XhoI y XhoI + NcoI. El primer caso nos dio un fragmento de aproximadamente 6,5 kb. En el segundo caso aparecieron dos fragmentos, uno de alrededor de 1.500 pb y otro de 5 kb. Los resultados coincidieron con lo esperado. Además el plásmido se secuenció utilizando el promotor T7 para comprobar que la fase de lectura era correcta (Figura 24).

La secuencia de la nueva proteína generada se cargó en el programa GREASE (Kyte y Doolittle, 1982), obteniéndose un perfil de hidrofobia que concuerda con el de una proteína soluble. En la Figura 25 aparecen comparados los perfiles de hidrofobia de las dos construcciones, antes y después de eliminar el fragmento transmembranal. Puede observarse como la zona hidrófoba del extremo N-t desaparece de la nueva proteína.

Sobreexpresión y purificación

Una vez seguros de que se disponía de la secuencia correcta, se procedió a la sobreexpresión de la proteína B4GALT7, utilizando el promotor de expresión T7 inducible mediante IPTG, tal y como aparece recogido en la parte experimental. La proteína se purificó en un solo paso mediante IMAC, obteniéndose en un alto grado de pureza (>98 %). En la Figura 26 se muestra un gel de electroforesis con el CFE

Figura 25. Comparación entre los perfiles de hidrofobia calculados con el programa GREASE para las proteínas nativa (A) y modificada (B).

Figura 26. Purificación por IMAC de B4GALT7 humana expresada en E coli. Los carriles 1 y 2 corresponden con el CFE antes y después, respectivamente, de pasar por la columna. El carril 3 corresponde con la resina cargada con el CFE. Los carriles 4 y 5 corresponden a diferentes fracciones de proteína pura (puede verse alguna impureza en el carril 4). El monómero recombinante tiene un peso molecular de 34,3 kDa.

(A)

(carril 1) y muestras purificadas tras su paso por la columna de níquel-agarosa (carriles 4-5). Aunque el grado de expresión que muestra el CFE no es muy alto (en torno al 10 % del total de la proteína soluble) se consiguió concentrar la proteína (>90 %) tras pasar el extracto por la resina de níquel (carril 3). Eluyendo con concentraciones de imidazol entre 250 y 500 mM se consiguieron extractos muy puros

de proteína (carriles 4 y 5, respectivamente). Para eliminar el imidazol se sometió a las muestras a diálisis frente a H2O mili-Q. Las muestras se congelaron en N2 líquido y

se guardaron a –80 ºC. El rendimiento global fue de 5 mg de proteína recombinante/L de cultivo.

Para comprobar la identidad de la proteína se determinó su huella peptídica en la Unidad de Proteómica del Centro Nacional de Biotecnología del CSIC. Para ello se realizó una electroforesis de una muestra de proteína purificada por IMAC. La banda correspondiente a la proteína fue cortada del gel y digerida con tripsina a 37 ºC O/N. La huella peptídica se generó mediante MALDI-TOF en el rango m/z = 800-3600 de los péptidos generados tras la digestión con el enzima. La comparación de la secuencia de estos péptidos con las bases de datos fue realizada con el programa MASCOT (Perkins et al., 1999).

La huella peptídica de la proteína recombinante permitió la identificación de nueve péptidos correspondientes a la secuencia de la B4GALT7 presente en las bases de datos (Figura 27), quedando, no obstante, un número de péptidos sin asignar. Decidimos enfrentar las masas sin asignar a la secuencia conocida de B4GALT7 utilizando la herramienta FindMod de Expasy,[18] que permite comparar las masas de los péptidos obtenidas experimentalmente con las masas de los péptidos calculados por el programa para una secuencia teórica introducida. Así, se pudo comprobar que uno de esos péptidos (de m/z 1800,9094) correspondía con la secuencia ERFEELLVFVPHMR de B4GALT7. Por otro lado, aunque la huella peptídica no reconoce la secuencia inicial de la cola de poli histidinas, ésta se ha comprobado mediante secuenciación de DNA, como se describe más arriba en esta memoria.

Figura 27. Huella peptídica de la B4GALT7. (A) Cromatograma de la huella peptídica. (B) Secuencia de la B4GALT7, en la que se muestran sombreados los péptidos identificados en el análisis. El péptido de m/z 1800,9094 (que solapa parcialmente con el de m/z 914,6206) fue identificado mediante la herramienta FindMod de Expasy.

Caracterización bioquímica de la enzima B4GALT7

Con las fracciones de proteína pura se procedió a realizar su caracterización cinética. El esquema de reacción se muestra en la Figura 28: como puede apreciarse, se utilizó la UDP-Gal como sustrato donador de grupos glicosilo, que es el sustrato natural para todas las GalT humanas descritas (Amado et al., 1999; Hennet, 2002). Como sustrato aceptor se utilizó el p-Nph-β-D-Xyl (1), que ha sido descrito como tal en

la bibliografía (Schwartz et al., 1974b; Almeida et al., 1999; Okajima et al., 1999a).

(A) (B) MGSSHHHHHHSSGLVPRGSHMQLSCSGDVARAVRGQGQETSGPPRACPPEPPPEHWEEDASWGPHRLAVL VPFRERFEELLVFVPHMRRFLSRKKIRHHIYVLNQVDHFRFNRAALINVGFLESSNSTDYIAMHDVDLLP LNEELDYGFPEAGPFHVASPELHPLYHYKTYVGGILLLSKQHYRLCNGMSNRFWGWGREDDEFYRRIKGA GLQLFRPSGITTGYKTFRHLHDPAWRKRDQKRIAAQKQEQFKVDREGGLNTVKYHVASRTALSVGGAPCT VLNIMLDCDKTATPWCTFS 808,4430 914,6206 973,4473 1031,5695 1049,5942 1113,6047 1190,7202 2481,2534 1946,9652 1800,9094 914,6206

O HO HO OH OH O O O OH HO HO O O OH HO O HO HO HO OH + UDP B4GALT7 NO2 NO2 OUDP

Figura 28. Reacción catalizada in vitro por la B4GALT7.

Figura 29. (A) Cromatograma correspondiente a diferentes tiempos de reacción. Al tiempo de reacción de 1 h (azul) se observa la aparición de un pico a 10,2 min (pico 1), que no aparece a tiempos iniciales de reacción (negro). (B) Los espectros de emisión del pico 1 (10,2 min) y del pico 2 (p-Nph-β-D-Xyl; 16,1 min) son idénticos, observándose su máximo de absorción en el rango visible a 300 nm.

Además, este compuesto contiene un cromóforo con un máximo de absorbancia a 300 nm, lo que facilita el seguimiento de la reacción por HPLC (Figura 29B).

Se realizó una primera prueba de reacción con 500 μM de 1 y 200 μM de UDP-Gal,

concentraciones similares a las recogidas en la literatura (Lugemwa et al., 1996; Almeida et al., 1999). Mediante HPLC (tal y como se ha descrito en el capítulo de «materiales y métodos») se detectó la aparición de un nuevo pico con tiempo de retención de 10,2 min y que aumentaba con el tiempo de reacción (Figura 29A).

El pico resultante se analizó mediante HPLC-masas, confirmándose una masa de

m/z 432,1 (M–H+), que se corresponde con la del disacárido D-Gal–β(1,4)–D-Xyl–

β(1,O)–p-Nph esperado (Figura 30).

Estos resultados indican que la proteína expresada y purificada en E. coli es funcionalmente activa. Como ya se ha comentado, durante la escritura de esta tesis, se han publicado dos artículos describiendo la clonación de B4GALT7 en E. coli

Figura 30. Espectros de HPLC-masas para los picos 1 (arriba) y 2 (abajo). Las masas observadas coinciden con los resultados esperados para el disacárido (m/z 432,1; M–H+_{) y el p-Nph-β-}_D_{-Xyl (m/z 270,1; M–H}+_{), respectivamente.}

(Daligault et al., 2009; Pasek et al., 2010), pero hasta ese momento, la enzima sólo se había clonado en células de insecto (Almeida et al., 1999), de ratón (Okajima et al., 1999a, 1999b) o levaduras (Gulberti et al., 2005), Al fusionar B4GALT7 a una proteína de gran tamaño como MBP (Daligault et al., 2009; Parsek et al., 2010) o galectina-1 (Parsek et al., 2010) se consigue aumentar la solubilidad de la proteína de fusión aumentando las posibilidades de que esta se pliegue de forma activa (Bach et al., 2001; Esposito y Chatterjee, 2006). Los resultados descritos en esta memoria muestran que la proteína se expresó en E. coli de forma activa sin necesidad de fusionarla a grandes proteínas.

Medida de los parámetros cinéticos para p-Nph-β-D-xyl (1) y UDP-Gal

Comprobada ya la identidad de la enzima, el siguiente paso fue su caracterización cinética. Para la determinación de las constantes cinéticas aparentes se utilizó la ecuación de Michaelis-Menten (ec. 1) y sus derivaciones para la representación lineal de los datos de velocidad.

Los experimentos se realizaron variando un único sustrato (aceptor o donador) y

In document Parameter and state model reduction for Bayesian statistical inverse problems (Page 68-73)