¿Cómo son los conjuntos de datos de proteómica?

Todo depende de qué tipo de experimento esté haciendo y qué tipo de datos quiere al final. Para la proteómica de LC-MS / MS de escopeta estándar, la salida de los instrumentos es un espectro que, afortunadamente, corresponde a un péptido en una proteína. Un programa interpreta un espectro y lo asigna a un péptido, proporcionará una puntuación estadística para el péptido en función de la confianza que tenga el programa en la asignación. Si hay múltiples péptidos identificados a partir de una proteína particular, otro programa puede proporcionar estadísticas sobre la probabilidad de que esa proteína esté en la muestra.
El resultado de este tipo de análisis generalmente se puede poner en 1-2 hojas de cálculo. Una hoja a menudo tiene información de péptidos: secuencia, puntuaciones de péptidos, modificaciones, genes / proteínas que contienen los péptidos, etc.
Otra hoja podría tener información sobre el nivel de proteína: cuántos péptidos se identificaron para la proteína, cobertura de proteínas de los péptidos IDedificados, puntajes de proteínas, modificaciones de proteínas, etc.
El software más avanzado incluirá más funciones en el informe. Algunos tienen enlaces a los espectros de un péptido particular, otros incluyen estadísticas adicionales o muestran si un péptido es un contaminante común.

Cuando miro los datos de proteínas, la manera más fácil de pensarlo son solo las secuencias de un organismo en un solo archivo. En realidad, hay una gran cantidad de datos con respecto a la función, estructura, etc. de proteínas, por lo que una gran cantidad de datos se presenta en forma de metadatos. Esto puede ser agrupaciones de partes estructuralmente, funcionalmente, etc. en clases que pueden vincularse a muchas proteínas.

Solo tenemos un pequeño grupo de proteínas con estructura y funciones determinadas experimentalmente. Esto es problemático dada la diversidad de proteínas. Entonces, para hacer algo de un grupo de secuencias desconocidas en un proteoma, comienzo a preguntar si hay secuencias idénticas en otro organismo. Es probable que tengan funciones idénticas. Luego pregunto qué proteínas han compartido grupos de secuencias conocidas por otros a partir de estructuras importantes en proteínas. Si encuentro algo que parece interesante, puedo intentar predecir su estructura en función de las regiones evolutivas conservadas, e incluso intentar simular la proteína en su entorno nativo con la dinámica molecular.