Bioquímica: ¿Cuáles son los mejores índices de diversidad para usar para evaluar la diversidad de proteínas?

Las proteínas tienen una estructura primaria (1º), que consiste en la secuencia peptídica de proteínas, la estructura 2º, que consiste en patrones de proteína plegada en gran medida adoptados por todas las proteínas (alfa-hélices, láminas-beta, espirales, espirales aleatorias) y un 3º espacial estructura, definiendo el empaque en el espacio tridimensional de los 2º elementos de la estructura. Se define una estructura adicional de 4º sobre la base de cómo las proteínas plegadas individualmente (cada una con su propia estructura de 3º) se ensamblan y se empacan para formar un oligómero o un complejo proteico.

La similitud de secuencia es uno de esos índices para evaluar la diversidad de proteínas. Cuando hablamos de la diversidad de proteínas, la estructura 1º puede ser un buen punto de partida. Las búsquedas de homología (es decir, búsquedas BLAST, etc.) en bases de datos de secuencias de proteínas (es decir, Uniprot) pueden producir semejanzas en secuencia, apuntando generalmente a una función similar en el caso de relaciones estructura-función conocidas. Dos proteínas pueden llamarse homólogas si hay al menos un 20% de identidad de sus secuencias. Sin embargo, porciones pequeñas de proteínas pueden mostrar altos grados de conservación (es decir, los dominios de homología de Src que definen tirosina quinasas), en general, dan una pista más clara sobre qué podría estar haciendo una parte de su proteína. Las búsquedas BLAST también pueden ser útiles para ver cómo están relacionadas las diferentes proteínas e incluso cómo están relacionadas evolutivamente. Algunos indentados bioinformáticos útiles son la penalización abierta de GAP (cuando hay diferencias en la similitud de la seuqence), la puntuación de alineación, el umbral de expectativa (el número máximo de aciertos idénticos que se esperan por casualidad), etc.

Cuando hablamos de 2º estructura, los diagramas de Ramachandran son la manera más fácil de puntuar la diversidad de proteínas y ver si la conformación de la proteína es físicamente posible en solución. Esta es una herramienta utilizada tanto para la validación de una determinación estructural como como una herramienta para la comparación de elementos de estructura 2º de proteínas múltiples. Los parámetros clave de dicha representación son los ángulos phi y psi alrededor de los enlaces peptídicos (los ángulos diedros entre los cuatro átomos de un enlace petide).
Para cierta estructura de 2º elementa, se permiten ciertos ángulos diedros, por lo tanto, las proteínas que son principalmente alfa helicoidales (es decir, GPCR) se pueden distinguir de las proteínas que son hojas beta principalmente (es decir, barriles beta). Vea un diagrama de Ramachandran abajo:


Para la diversidad de estructura 3º, los datos estructurales directos de cristalografía de rayos X, RMN o EM se pueden usar para comparar proteínas como un dominio de proteína completo o individual (pequeños módulos de plegado independiente dentro de una proteína). Hay cerca de 1000 diferentes pliegues vistos en la naturaleza, con la mayoría de los pliegues que pertenecen a un puñado de fols-superfamilies (es decir, el pliegue de ciclina, o el pliegue de inmunoglobulina se ve en la mayoría de los anticuerpos). Las proteínas se pueden caracterizar funcionalmente de acuerdo con los pliegues que adoptan y existen numerosas herramientas bioinformáticas para doblar el análisis de predicción de nuevas proteínas para mostrar la relación con otras proteínas conocidas (es decir, PHYRE3). Sin embargo, si está hablando de un índice particular de categorización de la diversidad de proteínas en términos de estructura 3º, puede usar rmsd (desviación cuadrática media). Cuando se utiliza esto, se deben comparar las proteínas con una arquitectura similar o pliegues (de lo contrario, es como comparar manzanas con las naranjas: inútil). Originalmente diseñado para comparar la desviación media del modelo estructural con la proteína real, o la de dos modelos estructurales entre ellos, una vez podría extrapolarse su definición para incluir las diferencias entre diferentes proteínas pertenecientes a la misma clase. Esto puede ser útil cuando, por ejemplo, se necesita encontrar un mecanismo de una proteína, pero faltan datos estructurales para ciertos estados conformacionales, las únicas estructuras disponibles son las de proteínas relacionadas (pero no idénticas). Un rmsd bajo significa una relación cercana de las proteínas, mientras que una grande significa poco parecido.

La estructura cuaternaria generalmente se analiza en términos de diversidad con el fin de comparar los efectos alostéricos de las proteínas que funcionan cooperativamente en un estado oligomérico. Parámetros como el coeficiente de Hill en una curva de unión de la trama de Hill pueden dar una idea de cuán divergentes son diferentes enzimas. Por ejemplo, la fosfofructoquinasa (PFK) a cuando se conoce una enzima cooperativa en humanos que también es regulada alostéricamente, no muestra un comportamiento cooperativo en absoluto en algunas especies de levadura. Por lo tanto, el coeficiente de Hill puede ser muy útil para decirle qué tan cooperativo es un sistema y cómo dos sistemas difieren en este aspecto. Esto se puede aplicar a muchas otras cosas, como copiar el parecido de diferentes tipos de hemoglobina, por ejemplo.

Hay muchos más métodos para comparar la diversidad de proteínas ya que su pregunta fue extremadamente amplia. Pero espero que esto brinde una idea de cómo se puede cuantificar esa diversidad.