¿Cuál es la diferencia entre Pfam y PROSITE?

Al alinear secuencias de proteínas, a menudo es evidente que ciertas regiones o aminoácidos específicos están más conservados que otros. Dichas regiones conservadas a menudo se conservan porque codifican una parte de la proteína que es funcionalmente importante.

El término motivo se usa para referirse a una parte de una secuencia de proteína que está asociada con una función biológica particular.

La presencia de un motivo particular dentro de una secuencia de proteína puede usarse para sugerir funciones para proteínas no caracterizadas.

Se han construido varias bases de datos que intentan describir motivos proteicos particulares en términos de patrones y perfiles. Le permiten buscar patrones o perfiles que son indicativos de motivos funcionales particulares dentro de una proteína de consulta.

Vamos a discutir sobre ellos: –

  • ExPASy – PROSITE – una colección de patrones y perfiles
  • Pfam: Página de inicio – Una colección de perfiles generados utilizando modelos ocultos de Markov

Profundizando, prepárate con largos párrafos, aquí vamos:

ExPASy – PROSITE es una colección anotada de descriptores de motivos dedicados a la identificación de familias y dominios de proteínas. Los descriptores de motivos utilizados en PROSITE son patrones o perfiles que se derivan de múltiples alineamientos de secuencias homólogas.

En la mayoría de los casos, las reglas se basan en perfiles PROSITE ya que son más específicas que los patrones, pero ocasionalmente las reglas hacen uso de patrones. En estos casos, las reglas no funcionarán de manera independiente, pero serán llamadas por otra regla, que será activada por un perfil.

Además de estas reglas correspondientes a un motivo único PROSITE, también hay reglas activadas por una combinación específica de motivos PROSITE llamados meta motivos. Meta Motifs permite la definición de arreglos de dominios separados por espaciadores de tamaño variable, así como el anclaje a los extremos N y / o C y la exclusión de un motivo PROSITE.

Tomemos un ejemplo:

Ahora obtendrás un resultado, que se ve así,

Donde como Pfam: es una base de datos completa de proteínas conservadas y proporciona herramientas para buscar secuencias de consulta para estos motivos. Estas herramientas se basan en modelos ocultos de perfil de Markov (HMMER3).

Pfam también genera agrupaciones de nivel superior de entradas relacionadas, conocidas como clanes . Un clan es una colección de entradas de Pfam que están relacionadas por similitud de secuencia, estructura o perfil-HMM.

Los datos presentados para cada entrada se basan en los Proteomas UniProt Reference, pero la información sobre las secuencias individuales de UniProtKB aún se puede encontrar ingresando la accesión a la proteína.

Tomemos el ejemplo de Pfam:

Espero que esto te ayude. Todo lo mejor

Pfam es una base de datos en la que las familias de dominios se almacenan en forma de modelos ocultos de Markov (HMM). Estos son conceptualmente muy similares a los perfiles; son modelos matemáticos probabilísticos basados ​​en estadísticas, que consisten en cadenas lineales de ajuste (M), eliminación (D) o estados de inserción (I), que intentan codificar tanto las regiones conservadas dentro de las alineaciones de secuencia como las regiones separadas entre ellas,

Pfam tiene dos componentes, denominados Pfam-A y Pfam-B. En Pfam-A, los HMM se derivan de alineaciones de semillas que pueden haberse producido automáticamente, pero se han verificado manualmente; por el contrario, Pfam-B se crea de forma totalmente automática. Todas las alineaciones finales también se generan de forma totalmente automática desde los HMM. Los métodos ampliamente automatizados utilizados para crear Pfam-A significan que la base de datos ofrece poca anotación propia. Sin embargo, cuando es posible, se hace un uso extensivo de la anotación hecha a mano en InterPro (que se deriva principalmente de PROSITE y PRINTS). Pfam-B solo ofrece anotaciones en forma de enlaces a otras bases de datos.

PROSITE fue la primera base de datos de familias de proteínas derivada. Hoy en día, almacena tres tipos de información: expresiones regulares familiares (a veces simplemente denominadas “patrones”); expresiones regulares no familiares (a veces denominadas reglas); y perfiles

Regexs son cadenas de consenso (típicamente de 10 a 30 caracteres de longitud) derivadas de motivos conservados en alineaciones de secuencia. Diagnósticamente, son efectivos para muchas familias, pero alcanzan sus límites cuando las relaciones evolutivas son distantes en tales circunstancias, tienden a identificar muchas coincidencias falsas y a menudo pasan por alto las verdaderas.

PROSITE consta de entradas de documentación que describen dominios de proteínas, familias y sitios funcionales, así como patrones y perfiles asociados para identificarlos. Se complementa con ProRule, una colección de reglas basadas en perfiles y patrones, que aumenta el poder discriminatorio de estos perfiles y patrones al proporcionar información adicional sobre aminoácidos funcional y / o estructuralmente críticos.

PROSITE se utiliza en gran medida para anotar las características de dominio de las entradas UniProtKB / Swiss-Prot. Mientras que otras bases de datos de dominio de proteínas como Pfam (5) pretenden ser exhaustivas y con una cobertura de secuencia máxima, PROSITE se concentra en la caracterización funcional precisa, que puede ser utilizado para la anotación de la base de datos de proteínas. Estos esfuerzos consumen mucho tiempo, lo que se refleja en un número reducido de dominios de proteínas en comparación con Pfam.

En resumen, Pfam produce alineaciones globales a través de HMMs mientras que el PROSITE “clásico” se construyó sobre expresiones regulares derivadas de secciones generalmente alineadas más cortas. Esto significa que Pfam reconocerá homólogos de una familia de enzimas extendida, pero verificando el motivo del sitio activo a través del patrón de residuos local PROSITE puede indicar qué es probable que esté activo, o podría estar “muerto” si no coinciden con la expresión regular.