¿Cómo puedo calcular las frecuencias de aminoácidos / composiciones para proteínas en un archivo FASTA que contiene varias secuencias de proteínas?

Puede usar COPid: Calcular la composición de una herramienta web de proteínas. Secuencia (s) de aminoácidos dados Este programa calculará la composición de aminoácidos o dipéptidos o las propiedades químicas particulares de los aminoácidos. Y es compatible con múltiples secuencias en un archivo fasta.

Por ejemplo, esta entrada

> A
TTTTTTTA
> B
AAAAATTT

generará esto:

Una ventana de tres aminoácidos que define un triplete en una secuencia lineal grande se desliza conceptualmente una por una a lo largo de la cadena de proteína, de modo que un residuo de aminoácido dado es una parte superpuesta de tres tripletes diferentes a menos que se encuentre en los extremos de La cadena. Por lo tanto, el número total de trillizos existentes en todos los registros de muestra (definidos como Q a continuación) se puede escribir como:

Donde nj es el número de residuos de aminoácidos en una proteína dada j, N es el número de registros de proteínas en la base de datos, y A es el número total de residuos de aminoácidos en la base de datos. Alternativamente, basándose en el recuento de triplete para cada triplete, un kalamor α en la base de datos, Tk • l • mor Tα, el número total de trillizos existentes (Q) se puede expresar de la siguiente manera, considerando que hay 8000 trillizos diferentes:

Por el contrario, a partir de la expresión probabilística del recuento de aminoácidos para cada aminoácido (p, q, o) en la base de datos, Pp, Pq o Pr, el recuento de tripletas esperado, Eα, para cada triplete ap, aq, ar o α se da de la siguiente manera:

La diferencia entre el recuento de triplete E estimado teóricamente y el recuento de triplete real Tα para cada triplete en la base de datos se expresa de la siguiente manera:

Del mismo modo, la diferencia entre el recuento de triplete E estimado teóricamente y el recuento de triplete Rα generado aleatoriamente de la población con la composición de aminoácido idéntica se expresa de la siguiente manera:

Llamamos conteos de triplete D triplete y D aleatorio relativo. Se supone que la distribución de frecuencias de Random muestra fluctuaciones aleatorias del procedimiento de muestreo alrededor de un valor central, lo que da como resultado la curva de error normal. Los histogramas de distribución para D Triplet y D Random se compararon entre sí. Se realizaron operaciones similares al analizar cuartetos y pentates. La expresión general de la ecuación 1 para el número total de combinaciones de n aminoácidos en las bases de datos nr de proteínas se puede escribir como:

Esta ecuación se usó para calcular el número de combinaciones Q

Si puede usar Python o Perl, el paquete Bio lo hará con unas pocas líneas de código. Puede usar, por ejemplo, Bio.SeqUtils.ProtParam count_amino_acids o simplemente definir su propio método.

Prueba este: pufengdu / PseAAC-General

Creo que es una buena solución.