¿Hay algún trabajo que utilice el aprendizaje automático para resolver problemas de bioinformática, descubrimiento de fármacos o ciencias de la vida?

Esta es esencialmente la pieza clave del trabajo de Daphne Koller que aplica problemas de aprendizaje automático a la bioinformática [1], descubrimiento de fármacos [2] y ciencias de la vida [2].

[1] http://dags.stanford.edu/BioComp…
[2] http://www.ncbi.nlm.nih.gov/pubm…
[3] http://tma.stanford.edu/tma_port…

GAN para generar nuevas drogas

Algunos trabajos intentan generar nuevos medicamentos contra el cáncer, mediante el uso de redes generativas de adversarios. Creo que es asombroso.

GAN puede generar imágenes de nuevos animales, pero también nuevas moléculas

La idea es entrenar un Auto-codificador Adversarial con moléculas conocidas contra el cáncer, y luego generar nuevas moléculas contra el cáncer. Para medir el rendimiento, los autores intentan redescubrir los medicamentos contra el cáncer existentes.

Sugiero mejorar este documento GAN con mejores datos de entrenamiento, mejores características para las moléculas y generalizar el modelo a configuraciones de múltiples fármacos y tareas múltiples.

La arquitectura de la red también se puede mejorar, un autor ya lo discutió en su blog.

Arquitectura de la red generadora de moléculas

Alimentar diferentes conjuntos de datos en el mismo modelo

Aquí hay un ejercicio de calentamiento: en lugar de datos sobre el cáncer, pruebe los datos de la pantalla antiviral del SIDA. Se puede adaptar al modelo con modificaciones menores. Luego prueba con otras enfermedades y conjuntos de datos (enfermedades infecciosas …). Hay una gran cantidad de conjuntos de datos gratuitos, pero están dispersos por la web.

Para los datos de cáncer, el documento utilizó los datos de inhibición del crecimiento NCI-60. Sin embargo, el NCI-60 ha quedado obsoleto a principios de 2016. Es un panel de 60 líneas celulares de cáncer humano cultivadas en cultivo, que tiene poca relevancia para los cánceres reales. El nuevo estándar es ‘Xenoinjertos Derivados del Paciente’ (PDX), muestras de tumores humanos frescos cultivados en ratones.

Los tumores cultivados en ratones son el nuevo estándar

Sin embargo, no encontré un gran conjunto de datos públicos sobre el efecto de los medicamentos contra el cáncer en PDX. Además, muchos datos de PDX permanecen ocultos en las compañías farmacéuticas.

Características: desde huellas digitales hasta mol2vec

Otra forma de mejorar el modelo es tener mejores características. El documento GAN utiliza características hechas a mano, las huellas dactilares moleculares MACCS. Representa una molécula con un vector binario. Es un tipo de codificación única.

En cambio, sería mejor tener una representación densa de moléculas, una especie de mol2vec, que sería análogo a word2vec en NLP: dos vectores de moléculas estarán cerca si sus moléculas correspondientes son químicamente similares.

En esta dirección, hay artículos interesantes sobre las Convoluciones de Gráficos Moleculares (aquí y aquí). La idea es comenzar desde gráficos moleculares:

Luego realice convoluciones en este gráfico, de una manera que generalice las circunvoluciones en las matrices (una matriz 2D estándar es un gráfico de cuadrícula):

Los gráficos moleculares parecen ser el camino a seguir para las representaciones de moléculas. Sin embargo, en la práctica, todavía no superan las huellas digitales moleculares. Entonces se necesita más trabajo.

Además, un documento de seguimiento utiliza nuevamente las Convoluciones de gráficos moleculares, pero esta vez, los autores ni siquiera se molestan en compararlos con las huellas dactilares. Sería genial realizar un punto de referencia. Esto podría ser factible para un principiante, porque los autores también lanzaron una biblioteca de Python construida en la parte superior de Tensorflow, para facilitar este tipo de trabajo: DeepChem.

Más allá de los gráficos moleculares

Para superar las huellas dactilares moleculares, tal vez sea necesario representar moléculas con aún más realismo químico. Aquí hay dos ideas:

  • Las moléculas viven en 3 dimensiones, mientras que las gráficas moleculares están en 2D. Por lo tanto, la estructura molecular 3D podría tenerse en cuenta.

Moléculas viven en 3 dimensiones

  • En los gráficos moleculares, los bordes representan enlaces químicos. Esos enlaces tienen una localización bien definida entre 2 átomos. Sin embargo, esto es solo una aproximación de la realidad, porque desde el punto de vista de la mecánica cuántica, las partículas no son locales. Una partícula se sienta simultáneamente en todas sus ubicaciones posibles.

Esta no localidad puede afectar las propiedades químicas y, por lo tanto, la actividad del fármaco. Por ejemplo, en un anillo aromático, los electrones se deslocalizan entre todos los átomos del anillo. Desde un punto de vista cuántico, no tiene sentido dividir este anillo en bordes.

Formación de un anillo aromático

El papel de Gráfica Molecular utiliza una codificación en caliente para representar si un borde del gráfico molecular es parte de un anillo aromático (tablas 2 y 3, página 7 de este documento). Esto deja espacio para mejorar.

Beyond Growth Inhibition: ensayos clínicos e interactomes

En el documento de GAN, el impacto de un medicamento se mide mediante Inhibición del crecimiento. Esta medida de éxito es muy difícil. En la práctica, hay muchos más parámetros. Por ejemplo, los efectos secundarios deben tenerse en cuenta. Hay una base de datos aquí. También es importante tener en cuenta la recurrencia esperada de la enfermedad. En última instancia, sería interesante ingresar los resultados completos de los ensayos clínicos en el modelo.

Una cosa aún mejor sería anticipar los diversos efectos de un fármaco utilizando redes de interacciones moleculares: los interactomes. Ya hay algo de trabajo alrededor de este tema.

Red de interacciones

Terapia de combinación

Los tratamientos modernos a menudo implican medicamentos múltiples, para minimizar la resistencia a los medicamentos. Como resultado, el modelo GAN debería tomar como entrada múltiples moléculas. Sin embargo, no encontré un conjunto de datos sobre eso.

Los tratamientos modernos implican combinaciones de drogas

Aprendizaje multi-tarea

Finalmente, el modelo GAN de descubrimiento de fármacos debería ser capaz de descubrir fármacos para múltiples enfermedades al mismo tiempo. Este aprendizaje multitarea mejora el rendimiento.

Red neuronal multitarea

Conclusión: ¡muchos desafíos por delante!

En conclusión, el descubrimiento de medicamentos es un campo lleno de desafíos emocionantes e impactantes para las multitudes de Pharma & AI, puedes encontrar ayuda para ellos en Startcrowd, ya seas un estudiante, un científico o un patrocinador.

Sí, muchos de hecho, ¡estoy trabajando en el campo yo mismo!

Un ejemplo es el uso de ML para identificar varias familias de proteínas, funciones o características (Aprendizaje supervisado), identificar interacciones probables y predecir anotaciones para filtrar la significancia (p. Ej. Microarrays, cáncer, etc.).

(Auto promoción desvergonzada):
NeuroPID: un predictor para identificar precursores de neuropéptidos de proteomas metazoarios

Las proteínas cortas parecidas a toxinas atacan la línea de defensa de la inmunidad innata