¿Cómo representa uno los aminoácidos modificados en formato FASTA?

El rango de posibles modificaciones de aminoácidos es enorme: fosforilación, acetilación, metilación, isomerización, glicosilación, hidroxilación, sulfatación, amidación, sumoilación, etc.

Los formatos FASTA son útiles debido a su simplicidad y universalidad. Contienen información mínima: una breve descripción del texto (especie, nombre de la proteína, descriptivo, isoforma, etc.) seguido de identificadores de una sola letra de la secuencia de la proteína.

No hay forma de que la información de modificación se ingrese de forma útil o clara en la mayor parte de una secuencia de FASTA, ya que no hay suficientes letras, el uso de códigos de 2 letras sería muy confuso y sería casi imposible abarcar todos los aspectos conocidos. modificación. Como tal, una secuencia FASTA representa una cadena de proteína cruda, no modificada.

Un ejemplo es el colágeno: aquí, la secuencia FASTA ignora por completo la modificación de prolina a hidroxiprolina, que es muy importante para la estructura y función del colágeno. De forma similar, para las proteínas que contienen secuencias señal N-terminal, que se escinden durante la biosíntesis, la secuencia FASTA contiene solo la información bruta.

Sin embargo, UniProt (UniProt) tiene una gran cantidad de detalles curados en cada secuencia de proteínas (y mucha información no curada también), que incluye el FASTA de la proteína, así como una sección detallada de las modificaciones, como se muestra a continuación:


Además, sitios tales como PhosphoSite (un recurso para la fosforilación de proteínas y otras modificaciones postraduccionales), proporciona detalles interactivos de vista de dominio de todos los sitios de modificación determinados.