¿Qué software usan las personas para predecir la estructura de una proteína en función de su patrón de difracción de rayos X?

La cristalografía de proteínas es una ciencia notable. Se pueden deducir estructuras extraordinariamente complicadas a partir de datos dispersos, uno de tales ejemplos es la enzima ATP sintasa a continuación. Esta enzima reside en las mitocondrias y produce ATP que impulsa a la célula, y al mismo tiempo imparte estructura a la mitocondria para mejorar su eficacia. La forma del tambor en la parte superior es un motor de protones, y a medida que gira mueve iones a través de una membrana y produce ATP que se cataliza fuera del componente rojo en la parte inferior. Esta estructura, que se presenta en pares, sirve con su compañero para formar una especie de “clip de chip” que pellizca la membrana interna de la mitocondria y hace que se pliegue en las crestas que se ven en las imágenes de libros de texto. Esto permite que más área de superficie se empaquete en una sola mitocondria, y por lo tanto una producción más eficiente de ATP. Recientemente, estas enzimas han sido fotografiadas directamente por microscopios electrónicos con corrección de aberración avanzada, pero se resolvieron mucho antes mediante difracción de rayos X.

Los paquetes de software que emplean una familia de algoritmos llamados métodos directos a menudo se emplean para resolver estructuras de proteínas como esta. Estos fueron desarrollados para la astronomía en la última mitad del siglo pasado y han demostrado ser poderosos para resolver estructuras en biología y ciencia de materiales cuando se les proporciona datos de rayos X de buena calidad. La mayoría de estos paquetes de software son software académicos de grado de investigación, cada uno con ventajas únicas para resolver ciertas clases de estructura, aunque existen muchos paquetes comerciales generales.

La forma en que funcionan es la siguiente: una estructura, cuando se resuelve en sus componentes de dominio de frecuencia, contiene dos tipos de información: intensidad y fase . Si ambos son conocidos, estos dos componentes y su relación entre sí se invierten fácilmente computacionalmente a través de la transformada de Fourier inversa para producir la estructura (o una imagen de estructura).

Lo más importante es saber que es la fase que contiene la información principal sobre una estructura. La siguiente imagen muestra cuán importante es la fase. La información de intensidad puede ser muy incorrecta, como se puede ver en la progresión siguiente, pero si la fase es correcta, la mayoría de la estructura se puede restaurar.


Desafortunadamente, debido a la física involucrada en la formación y detección del patrón de difracción, el patrón de difracción en los datos de difracción de rayos X contiene solo información de intensidad y falta la fase. La inversión que describí carece de información crucial.

Afortunadamente, hay formas de recuperar la fase a través de técnicas probabilísticas y un buen razonamiento deductivo anticuado. Usar información a priori , que puede ser en forma de conocimiento físico previamente conocido (por ejemplo, información química, conocimiento sobre átomos), algunas suposiciones basadas en otra estructura previamente resuelta, u otra información que restringe la fase, como imagen de resolución de la proteína que muestra un contorno de la proteína o parte de su estructura interna, algunas o todas las fases pueden encerrarse en valores que están cerca o exactamente en su verdadero valor. Esto a menudo es suficiente para invertir y obtener la estructura.

En algunos casos dudosos, por ejemplo, si la muestra o la calidad de los datos es deficiente, aún es posible obtener la estructura realizando la inversión de forma iterativa y refinando cuidadosamente la información de fase (algo así como un arte negro). Se puede deducir una representación de la estructura de la proteína con una buena confianza en la precisión. A través de otros medios de verificación, como la química (simulaciones ab initio ), imágenes de alta resolución o verificación o solución de estructuras complementarias como compuestos más simples que se unen a la proteína que se estudia, las estructuras que anteriormente eran inciertas pueden refinarse y luego convertirse aceptado como correcto

Hay una serie de paquetes de software utilizados. Ciertamente no es una tarea fácil, y una gran parte de la identificación de la estructura se basa en la comparación de cada patrón de difracción con lo que está en una gran base de datos de patrones de difracción de estructuras conocidas.

Aquí hay algunos paquetes que encontré:
Software para Cristalografía Macromolecular
IUCr (tiene una gran lista de paquetes de software utilizados

Si está realmente interesado en este tema, también le recomiendo ir al Centro Internacional de Datos de Difracción y ver todo lo que tienen. El número de publicaciones de datos sobre estructuras orgánicas se ha disparado en los últimos años, y estoy bastante seguro de que tienen un montón de cosas interesantes.
(Mi trabajo está en XRF, no en XRD, así que no estoy tan bien informado sobre lo que hay allí como podría serlo).