¿Cuáles son las diferencias entre las diversas bases de datos de interacción de proteínas?

La respuesta corta es que cada una de estas bases de datos de PPI (interacción proteína-proteína) tiene diferentes métodos y fuentes para los PPI. Los métodos utilizados pueden variar de experimentales a computacionales a algún tipo de combinación de los dos. También hay una gama de métodos experimentales y computacionales utilizados. Además, la fuente de los datos también se puede mezclar, algunas de las bases de datos PPI se adhieren a una sola especie o un escenario, como un tipo de enfermedad, y otros no. Así que tenga cuidado de qué bases de datos se utilizan y para qué aplicación lo usa .

Un ejemplo de combinación es integrar datos experimentales, utilizando un método computacional para agregar automáticamente interacciones adicionales, luego corregir manualmente todas las entradas en función de algún protocolo.

Los detalles de cada base de datos generalmente se encuentran en la página “Acerca de XXX” donde debe prestar atención a cómo recopilaron sus datos, con qué frecuencia actualizan sus datos y cómo concatenan sus datos, lo que significa que la mayoría de las bases de datos se integran de varias fuentes Entonces, ¿qué hacen cuando hay un desacuerdo entre las bases de datos?

También es común que las bases de datos se usen entre sí.

Por ejemplo:

Biogrid = “BioGRID actualmente tiene más de 1,400,000 interacciones curadas de conjuntos de datos de alto rendimiento y estudios individuales enfocados, como se deriva de más de 57,000 publicaciones en la literatura primaria. Se mantiene una cobertura completa de la bibliografía completa para la levadura en ciernes (S. cerevisiae), la levadura de fisión (S. pombe) y el thale berro (A. thaliana), y se están realizando esfuerzos para expandir la curación en múltiples especies de metazoos “.

DIP = “La base de datos DIP (Base de datos de proteínas que interactúan) enumera los pares de proteínas que se sabe que interactúan entre sí. Por interacción queremos decir que dos cadenas de aminoácidos se identificaron experimentalmente para unirse entre sí. La base de datos enumera dichos pares para ayudar a aquellos que estudian una interacción proteína-proteína particular, pero también aquellos que investigan vías reguladoras y de señalización completas, así como aquellos que estudian la organización y complejidad de la red de interacción de proteínas a nivel celular “.

IntAct = “IntAct proporciona un sistema de base de datos de código abierto de libre acceso y herramientas de análisis para datos de interacción molecular. Todas las interacciones se derivan de la curaduría de la literatura o de los envíos directos de los usuarios y están disponibles de forma gratuita “.

mint = “MINT se centra en las interacciones proteína-proteína verificadas experimentalmente extraídas de la literatura científica por expertos curadores. A partir de septiembre de 2013, MINT utiliza la infraestructura de la base de datos de IntAct para limitar la duplicación de esfuerzos y optimizar el futuro desarrollo de software “.

HPRD = “Human Proteinpedia es un portal comunitario para compartir e integrar datos de proteínas humanas. Permite a los laboratorios de investigación contribuir y mantener anotaciones de proteínas. La base de datos de referencia de proteínas humanas (HPRD) integra datos, que se depositan en Human Proteinpedia junto con la información curada de literatura existente en el contexto de una proteína individual. Todos los datos públicos aportados a Human Proteinpedia pueden consultarse, visualizarse y descargarse “.

Para enumerar las diferencias de las fuentes que citó.

Principalmente en las líneas de evidencia utilizadas para construir la base de datos, [1] [2] [3] con la división principal entre las que definen una “interacción” estrictamente como la unión física entre proteínas y otras que definen una interacción proteína-proteína más libremente como cualquier asociación funcional, por ejemplo proteínas que comparten un sustrato común. Se puede encontrar una lista más completa en [4].

Asociaciones físicas solamente

  • Intacto [5] considera que solo se verifican las interacciones vinculantes mediante la detección directa de una interacción binaria o la membresía verificada en un complejo proteico. Tiene un formato de entrada estandarizado y preciso y sirve como el punto de entrada inicial para otras bases de datos de interacción de proteínas que agregan datos. La búsqueda es bastante dolorosa y solo se basa en coincidencias de texto exactas.
  • Las otras bases de datos en esta categoría son en su mayoría subconjuntos de IntAct
  • HPRD [6] Human Protein Reference Database) es una versión anotada y curada manualmente de IntAct restringida solo a proteínas humanas
  • INSINUACIÓN [7] ( INTeractomes de alta calidad) considera solo las interacciones que se han verificado mediante dos ensayos ortogonales (para ensayos de alto rendimiento) o dos publicaciones separadas para experimentos realizados manualmente. Esto es necesario debido a la alta tasa de falsos positivos de algunas técnicas de interacción de proteínas (tan alta como 40% para el ensayo levadura-tw-híbrido). [8]
  • MIPS [9] (Base de datos de interacción proteína-proteína de mamífero) se centra exclusivamente en la alta precisión, experimentos realizados manualmente. MIP se usa a menudo como el “estándar de oro” para probar nuevos métodos de predicción de PPI.
  • DIP es un esfuerzo independiente del laboratorio de Eisenberg que ha sido abandonado
  • Negatome [10] es un intento de definir un conjunto de proteínas que no interactúan mediante el análisis estructural. Tenga en cuenta que “no interactuar” aquí se define estrictamente como interacciones binarias directas, si dos proteínas son parte del mismo complejo pero no se tocan directamente, se cuentan como “no interactivas”.

Interacciones físicas más inferencias funcionales

  • Biogrid [11] es la versión competitiva estadounidense de la base de datos European IntAct. Además de incluir la mayoría de las entradas en IntAct (hay algunas diferencias menores pero ambos son parte del consorcio de intercambio de datos IMEX), Biogrid también incluye datos de experimentos de letalidad sintética en los que dos genes, cuando mutados por separado tienen un impacto mínimo en el fenotipo, son letales cuando están mutados juntos. Debido a que las mutaciones de diferentes proteínas en las rutas congruentes dan un resultado positivo en este experimento, esto es evidencia de una asociación funcional pero no necesariamente una interacción física. Biogrid también es mucho más fácil de buscar que IntAct y mucho más fácil de usar en general.
  • Cuerda [12] es el más inclusivo de todo lo anterior. Además de todas las interacciones en las bases de datos BIOGRID e IntAcT, STRING también incluye predicciones de la transferencia ortóloga de interacciones entre especies, así como predicciones de asociación funcional de coexpresión, minería de textos de resúmenes PUBMED y perfiles filogenéticos. STRING combina estas fuentes de datos para proporcionar un puntaje de confianza basado en una red bayesiana. La salida se ve así:

donde la longitud de cada línea indica la confianza de la interacción.

De [13]

Metadatabases

  • Reactome: [14] Se integra con la unión de moléculas pequeñas con datos de interacción de proteínas de IntAct

Bases de datos relacionadas

  • SKEMPI , [15] AB-Bind , [16] y PROXiMATE [17] son ​​bases de datos para la interacción proteína-proteína termodinámica, incluidos los cambios de unión sobre lo que ocurre tras la mutación (ΔΔG). AB-Bind es una versión actualizada de SKEMPI con un enfoque en la unión de anticuerpos. PROXIMATE también incluye cinética.

Notas a pie de página

[1] Interacciones proteína-proteína y enfermedad genética

[2] Bases de datos de interacción y vía proteína-proteína, una revisión gráfica | Briefings en Bioinformática | Oxford Academic

[3] Una evaluación de los datos de interacción proteína-proteína humana en el dominio público

[4] Bases de datos de interacción y vía proteína-proteína, una revisión gráfica | Briefings en Bioinformática | Oxford Academic

[5] El proyecto MIntAct-IntAct como una plataforma de curación común para 11 bases de datos de interacción molecular.

[6] Actualización de la Base de datos de referencia de proteínas humanas 2009.

[7] SUGERENCIA: interactomes proteicos de alta calidad y sus aplicaciones para comprender las enfermedades humanas

[8] Aumento de la especificidad en experimentos de dos híbridos de levadura de alto rendimiento.

[9] La base de datos de interacción proteína-proteína de mamíferos MIPS.

[10] La base de datos Negatome: un conjunto de referencia de pares de proteínas que no interactúan.

[11] BioGRID: un repositorio general para conjuntos de datos de interacción

[12] La base de datos de STRING en 2017: redes de asociación de proteínas y proteínas controladas por la calidad, ampliamente accesibles.

[13] Interacciones proteína-proteína y enfermedad genética

[14] Reactome: una base de datos de reacciones, vías y procesos biológicos

[15] SKEMPI: una base de datos cinética estructural y enérgica de Interacciones mutantes de proteínas y su uso en modelos empíricos.

[16] AB-Bind: base de datos de mutaciones de unión de anticuerpos para predicciones de afinidad computacional

[17] PROXiMATE: una base de datos de termodinámica y cinética del complejo proteína-proteína mutante | Bioinformática | Oxford Academic