La respuesta de Akshari Gupta es correcta, sin embargo, si tienes 10s de archivos PDB, no es exactamente el método ideal. Recortar datos de RCSB y escribir un guión Perl / Python funcionaría mejor.
- Obtener datos de RCSB: puede usar Wget si tiene todos los códigos de acceso en un archivo de texto [Acceso rápido a la línea de comandos de PDB / ¿Se puede usar el comando Wget para descargar Pdbs?], De lo contrario, puede descargar todos los archivos no cadenas redundantes del sitio web [RCSB PDB Newsletter]. La mejor manera es obtener todas las secuencias de proteínas en formato FASTA, en lugar de tratar con el formato PDB.
- Aquí hay un ejemplo de un homodimer en formato FASTA.
Usaría personalmente hashmap, asignaría cada número de cadena a un valor y coincidiría (tenga en cuenta que las entradas ya están separadas por “>”). Aquí hay un código de muestra en Perl:
#! / usr / bin / perl
usar estricto;
usa advertencias;
mi% fastaid2seq = ();
my $ fastaid = ”;
my $ file = ‘seq.txt’; #sequence file, debe ser una variable
abrir (F, $ archivo) o morir (“No se pudo abrir el archivo.”);
while () {
chomp;
if ($ _ = ~ / ^> (. +) /) {
$ fastaid = $ 1;
}más{
$ fastaid2seq {$ fastaid}. = $ _;
}
}
cerrar F;
Iteramos el hash, comparamos valores e imprimimos un archivo con la ID y el número correspondiente o la cantidad de oligómeros homo / hetero o la información que necesites. Estoy seguro de que hay formas más inteligentes de hacerlo, pero esto tiene que ser lo más fácil.