¿Cuáles son algunos tipos de “características” (para ML) que pueden usarse para clasificar proteínas?

Biofísica, estadística, informativa …
Biofísica puede incluir: tamaño, peso molecular, hidrofobicidad, carga neta, PI, longitud, aromaticidad, alifatismo …
por ejemplo: ExPASy – documentación de ProtParam

Estadística: n-grams, frecuencia de aminoácidos, propensiones de AA (secuencia como señal de tiempo) …
Informativo: autocorrelación, entropía, análisis de señal, etc. ‘

Tengo una buena descripción de los métodos que usamos en los artículos ML para proteínas en los artículos mismos (y también puedes ver el código fuente) – NeuroPID y ProFET

Artículo de ProFET: ProFET: la ingeniería de funciones captura funciones de proteínas de alto nivel.
Código fuente de ProFET: https: // github .com / ddofer / ProFET

NeuroPID (Artículo):
Dan Ofer y Michal Linial NeuroPID: un predictor para identificar precursores neuropéptidos de proteomas metazoarios. Bioinformática (2013) doi: 10.1093 / bioinformática / btt725
NeuroPID: un predictor para identificar precursores de neuropéptidos a partir de proteomas metazoarios.

NeuroPID NAR: NeuroPID: un clasificador de precursores de neuropéptidos

En función de la forma / estructura, tamaño, composición, naturaleza.