III. General Methods
3.9 Clustering
3.9.1 k-Means
La evaluación de un método para el PSCPP se realiza in silico: se toma una es-
tructura del PDB y se remueven sus átomos de la cadena lateral, luego se realiza la predicción; y finalmente se compara la estructura predicha por el método con la es- tructura experimental mediante una o varias métricas de calidad. Este procedimiento puede realizarse para un conjunto de proteínas de prueba (o datasets), con el fin de
evaluar la calidad de la predicción para distintos tipos de estructuras. Las medidas de calidad empleadas en el PSCPP se describen a continuación.
3.6.1. Precisión absoluta
Es la métrica más empleada, y básicamente indica el porcentaje de ángulos de tor- sión de la cadena lateral predichos correctamente. En la misma se utilizan los valores
χ
1(%) y χ1+2(%), donde χ1(%) representa el porcentaje de residuos cuyos ángulos de torsiónχ
16son correctos, mientras queχ1+2(%)es el porcentaje de residuos cuyos ángulos de torsiónχ
1 y χ27 son ambos correctos. Se considera que un ángulo de tor- sión es correctosi se encuentra alejado a un máximo de 40◦ del ángulo de torsión de
la estructura experimental de la proteína. Este valor arbitrario se ha venido utilizan- do desde los primeros trabajos que tratan sobre el PSCPP (Summers y Karplus, 1989; Lee y Subbiah, 1991; Wendoloski y Salemme, 1992; Dunbrack y Karplus, 1993), bajo la suposición de que los ángulos en este intervalo corresponden al mismo mínimo de energía. De hecho, los algoritmos con mejores resultados para este problema siguen utilizando este valor como referencia. Los átomos más allá deCδ tienen relativamente
6Ángulo de torsión entre el plano determinado porN, Cα, Cβy el determinado porCα, Cβ, Xγ, dondeXγ
depende del tipo de residuo considerado (ver Tabla 1).
7Ángulo de torsión entre el plano determinado porCα, Cβ, Xγ y el determinado por Cβ, Xγ, Xδ, donde
ΔΧ≤ 40°
𝑟𝑒𝑠𝑖
Experimental Predicción 𝐎 𝐂𝛂 𝐂 𝐍 𝑪𝜷 𝐂𝛄 𝐂 𝛄ΔΧ
> 40°
ΔΧ 𝐂𝛂𝛃 𝐍 𝐂𝛄 𝐂𝛄 𝐂ΔΧ
Rotar para ver 𝐶𝛼− 𝐶𝛽
como un punto
𝝌
𝟏%
: % de 𝜒
1correctos.
𝝌
𝟏+𝟐%
: % de 𝜒
1y 𝜒
2correctos (ambos).
𝜒
1Precisión de un método
Figura 23.La precisión en una predicción está dada por el porcentaje de ángulos de torsión predichos correctamente. Una predicción es correcta cuando la diferencia de su ángulo de torsión con la de la
conformación nativa no supera los 40◦.
poca importancia en términos de energía de la proteína (Chandrasekaran y Ramachan- dran, 1970; Sasisekharan y Ponnuswamy, 1970), lo cual podría ser la razón por la que sólo se consideranχ
1(%)yχ1+2(%).
En el presente trabajo, para las medidas de χ
1(%) y χ1+2(%) solamente se consi- deran los residuos que tienen determinadas todas las posiciones de los átomos de la cadena lateral en la estructura experimental de referencia.
3.6.2. Desviación cuadrática media (RMSD)
El RMSD (root-mean-square deviation) se utiliza como una segunda medida de si-
militud entre estructuras, y su valor es la raíz cuadrada del promedio cuadrático de los valores de distancia entre los átomos correspondientes de las dos estructuras que se comparan. Así: RMSD= v u u t1 N N X =1 (−0)2+ (y−y0)2+ (z−z0)2 (5)
Donde (, y, z) representa la posición del átomo en la estructura de referencia, y
(0, y0, z0) representa la posición del mismo átomo en la estructura predicha. A dife-
dos proteínas distintas, el PSCPP no requiere un alineamiento previo de las dos estruc- turas; pues tienen la misma cadena principal y se conoce de antemano los pares de átomos equivalentes.
3.6.3. Consideraciones especiales en ciertos tipos de residuos
Casi el 90 % de las estructuras almacenadas en el PDB se obtuvieron mediante cristalografía de rayos X. Recordando el proceso de obtención de una estructura me- diante cristalografía de rayos X, explicado en la Subsección 2.2.3.1, las coordenadas tridimensionales de los átomos se determinan a partir de los mapas de densidad elec- trónica.
Existen ciertos tipos de residuos para los cuales se hacen consideraciones especia- les en las métricas empleadas para el PSCCP. En las Figuras 6 y 24 se pueden observar los siguientes casos:
Ciertos tipos de aminoácidos tienen una estructura simétrica en la cadena lateral (ARG, ASP, GLU, PHE y TYR) (Dunbrack, 2002; Eyal et al., 2004; Caoet al., 2011).
Por ejemplo, en la fenilalanina (PHE), la composición del anillo aromático es simé- trica considerando los átomos pesados; por lo que existen dos interpretaciones posibles del mapa de densidad electrónica: la conformación finalmente reportada y una conformación que resulta de “dar vuelta” la primera. Esto puede verse en la parte superior de la Figura 24 para el caso del aminoácido PHE.
En otros tipos de residuos (ASN, HIS y GLN) no se tiene una simetría en la con- formación de la cadena lateral, pero de igual manera puede existir una confusión en la interpretación del mapa de densidad electrónica, dándose el mismo caso de tener las dos posibilidades mencionadas en el punto anterior. En la parte inferior de la Figura 24 se muestra el caso de la glutamina (GLN).
N Cα C O C𝛽 C𝛾 C𝛿1 C𝛿2 C𝜖2 C𝜖1 C𝜁 N Cα C O C𝛽 C𝛾 C𝛿2 C𝛿1 C𝜖1 C𝜖2 C𝜁
PHE
N Cα C O C𝛽 C𝛿 C𝛾 O𝜖1 N𝜖2 N Cα C O C𝛽 C𝛿 C𝛾 N𝜖2 O𝜖1GLN
Figura 24.Dos posibles interpretaciones para ciertos tipos de residuos a partir del mapa de densidad electrónica. En el caso de la fenilalanina (PHE), existe una simetría en el anillo. En el caso de la glutamina
(GLN) no se da esto (considerando Oε1 y Nε2), aunque igual existen dos interpretaciones posibles al
mapa de densidad electrónica. Imagen obtenida mediante VMD (Humphreyet al., 1996).
Tabla 2. Ángulos de torsión de ciertos tipos de residuo a los que debe sumarse 180◦ al considerar la precisión y el RMSD.
Ángulo de torsión Tipos de residuo
χ
2 ASN, ASP, HIS, PHE, TYR
χ
3 GLN, GLU
χ∗
5 ARG
de la cadena lateral se consideran dos posibilidades: la conformación predicha por el método y la conformación “rotada”. El giro se hace sumándole 180◦ al ángulo de torsión relacionado a la región simétrica. Volviendo al caso de PHE, el giro se hace sumándole 180◦aχ
2. En la Tabla 2 se indica cada tipo de residuo particular y el ángulo de torsión al que debe sumarse 180◦.
Al considerar las dos conformaciones posibles para estos residuos particulares, el ángulo de torsión más cercano al de la conformación experimental se toma para con- siderar la precisión; y también se elige el menor valor de RMSD (Eyalet al., 2004; Cao et al., 2011). El caso de la arginina (ARG) es peculiar: debido a su polaridad y a la
longitud de su cadena lateral, generalmente es un residuo expuesto al solvente. Esto ocasiona que la misma esté en constante movimiento, y en especial los átomos en el extremo de la cadena lateral. Por esta razón se le asigna un valor fijo de 180◦ a χ
5 (Corona, 2010), lo cual sólo suele ser relevante para el cálculo del RMSD.
3.6.4. Colisión
Cuando se definió las interacciones de Van der Waals en la Subsección 3.3.2.1, se indicó que a distancias menores a un cierto umbral aparece una fuerza de repulsión que crece rápidamente a medida que decrece la distancia entre los átomos. Esta fuer- za de repulsión resulta de la superposición entre las nubes de electrones de ambos átomos. Así aparece el concepto de radio de Van der Waals, que se define como el radio de una esfera imaginaria que representa el espacio ocupado por un determi- nado átomo. Por lo tanto, a distancias menores al radio de Van der Waals empiezan a manifestarse las fuerzas de repulsión.
Otra métrica de calidad importante para el PSCPP es el número decolisiones en la
estructura predicha. Ocurre unacolisión entre un par de átomos cuando la distancia entre los mismos es menor que la suma de los respectivos radios de Van der Waals
multiplicada por un factor β. Los valores típicos de β son 0.6 (Lu et al., 2008a) y 0.7
(Cao et al., 2011; Miao et al., 2011). En este trabajo se empleó un valor de β igual a
0.6. Nagataet al.(2012) definieron dos clases de colisiones: moderadas (conβ=1.0) y
severas (conβ=0.8325). Cabe resaltar que valores menores deβcuentan un número
más grande de colisiones.
Se consideran ciertas excepciones a la hora de considerar las colisiones entre los átomos de un par de residuos en una estructura:
Átomos de los enlaces disulfuro entre cisteínas.
El átomo Cδ de una prolina (PRO) y el átomo C del residuo anterior.
Dos átomos de oxígeno, en un cierto intervalo de distancias, ya que podrían estar formando un enlace de hidrógeno.