¿Cuáles son algunas de las formas posibles en que el aprendizaje automático puede utilizarse en el desarrollo farmacéutico?

Identificación del objetivo

Hay literalmente cientos de miles de artículos científicos potencialmente relevantes publicados cada año, nadie tiene la capacidad de leerlos a todos o incluso leer los artículos de revisión que intentan resumirlos. Aquí hay un gráfico que muestra solo la cantidad de artículos publicados en biomedicina a lo largo del tiempo:

(Crédito de la imagen: Retos Terrícolas)

Ya hemos superado la marca de un millón de documentos por año, y la curva parece ser exponencial (incluso si eso no persiste, sigue siendo una cantidad insostenible de información para cualquier ser humano, o incluso grupo de humanos, para profundizar de manera realista. )

Aquí es donde comienza la ciencia básica que conduce al desarrollo de medicamentos. Saber qué objetivo elegir es uno de los componentes más importantes del desarrollo temprano de medicamentos. Eventualmente, todas las empresas las resolverán, pero quien llegue primero tiene una enorme ventaja en términos de ventas totales.

Parece ser un lugar natural para el aprendizaje automático: el procesamiento del lenguaje natural revisa toda la literatura científica, lo ideal es incluso evaluar qué tan buenos son los datos y luego identificar posibles objetivos farmacológicos como resultado. Por lo que sé, nadie está haciendo esto actualmente (Divulgación completa: envié un currículum vitae oculto a Google hace unos años, ofreciéndome para ayudar a encabezar esta capacidad, ya que tengo una base bastante sólida en todas las áreas relevantes y ya tenía desarrollé una aplicación similar para analizar datos de ensayos clínicos. Nunca obtuve una respuesta).

Desarrollo del plomo

Históricamente, las empresas han adoptado diferentes enfoques para desarrollar clientes potenciales. Hubo un enfoque de selección alta, un enfoque de disparo químico donde literalmente se examinaron millones de compuestos a través de dianas farmacológicas potenciales, cualquier cosa “atascada” luego fue evaluada por su capacidad para activar o inhibir fisiológicamente ese objetivo, y luego se utilizó química combinatoria para optimizar esos cables químicos para cosas como toxicidad, biodisponibilidad, farmacocinética óptima, selectividad del objetivo. Este enfoque fue modestamente exitoso, pero dada la gran cantidad de esfuerzo invertido, no sé si estaba justificado.

Un segundo enfoque, completamente diferente, ha sido el denominado “diseño racional de fármacos”, en el que se observaron las estructuras de las proteínas y luego las moléculas se sometieron a ingeniería inversa para unirse a sitios específicos de esas proteínas en función de las interacciones químicas previstas. Una vez más, este enfoque ha sido modestamente exitoso, en gran parte porque existe una gran brecha entre la predicción y el resultado.

(Crédito de la imagen: mutaciones residuales y su impacto en la estructura y función de la proteína: detección de cambios beneficiosos y patogénicos)

Lo anterior es un árbol filogenético de la principal proteína de histocompatibilidad (una especie de señal de IFF para las células) en las aves. El objetivo de la imagen es mostrar cómo las mutaciones individuales en los residuos de aminoácidos pueden dar lugar a grandes cambios en la estructura conformacional 3D.

Es decir, en esencia, el “problema de plegamiento de proteínas”: ¿cómo se puede predecir con precisión la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos? Este ha sido un problema importante en bioquímica desde que se fundó el campo. Se han logrado algunos avances, pero todavía estamos muy lejos de poder predecir uno de otro. Esta es una buena oportunidad para que el aprendizaje automático ayude (las interacciones estructurales en 3D son enormemente difíciles de calcular debido a la gran cantidad de ellas e influencia entre sí, imagínese el problema del vendedor ambulante pero donde cada parada cambió las distancias entre todas las demás ciudades un ejemplo) y ciertamente hay esfuerzos en camino para hacerlo. Mi corazonada es que, al igual que Google translate, un esfuerzo de fuerza bruta podría terminar siendo la respuesta en lugar de una verdadera solución elegante y perfecta. Pero ya veremos.

De todos modos, si podemos mejorar nuestra capacidad de modelar los cambios estructurales de proteínas 3D en presencia de diferentes moléculas de fármacos, entonces será más fácil predecir qué pistas serán más prometedoras antes de tener que ir in vitro y realmente controlarlas.

Toxicología

Creo que este sería en realidad el área más impactante que podríamos abordar de manera realista con el aprendizaje automático en el futuro cercano a mediano plazo (quizás en un futuro más lejano podremos predecir con exactitud cuánto beneficiarán en realidad las drogas a diferentes personas sin dándoselos, ese sería el santo grial, pero creo que todavía estamos bastante lejos de allí.) Es decir, ¿podemos predecir con razonable precisión la probabilidad de que un fármaco cause algún tipo de daño basado en el modelado por computadora? Y, lo que es más importante, ¿pueden extrapolarse esos resultados para ser aplicables a la gran mayoría de las personas con diferentes antecedentes genéticos? Ni siquiera sabría por dónde empezar con el desarrollo de algoritmos de aprendizaje automático para hacer eso, pero la EPA parece estar tratando de lograrlo [1] (o al menos lo es en la actualidad, una vez que la persona encargada de la muerte cerebral de Donald Trump toma todas las apuestas están apagadas.)

Notas a pie de página

[1] Pronóstico de toxicidad

Realmente no puedo hablar con indicaciones fuera de la oncología, pero como usted pregunta específicamente sobre el desarrollo (en lugar de descubrir), limitaré mi respuesta a ese extremo del negocio.

Diría que la mejor aplicación posible del aprendizaje automático reside en identificar la población de pacientes adecuada y la mejor estrategia de cóctel para esa población.

En términos prácticos, el desafío tiene menos que ver con la creación real de modelos predictivos, y más con la recolección de muestras y datos de manera consistente, y la decisión de qué puntos de datos son predictivos de los resultados y por qué. ¿Podemos construir modelos predictivos basados ​​en cfDNA, o datos de CTC solos? ¿Nos daría suficiente comprensión mecánica? ¿Qué hay de los estudios tumorales / normales? ¿O estudios de muestra primarios versus metastásicos?

Sin embargo, una vez que tengas modelos predictivos, querrás obtener algún tipo de entendimiento mecanicista de los modelos. Por ejemplo, si su modelo predice que es probable que una combinación de fármacos X, Y y Z sea efectiva en pacientes con cáncer de mama en estadio III, entre las edades de 50 y 60 años, con un IMC> B, querría comprender que el los pacientes que observa son obesos y posmenopáusicos, y sus tejidos adiposos actúan como reservorios de estrógenos que continúan causando la enfermedad.

Luego, querrá usar ese modelo para hacer otras preguntas como: si los pacientes con un IMC

También querrá ver poblaciones secundarias de pacientes para ver si hay una forma de predecir la enfermedad de seguimiento. Por ejemplo, si tratas con éxito a los pacientes y permanecen sin enfermedad durante 7 años, ¿tendrán una recurrencia de cáncer de mama? ¿Es ese cáncer de mama genómicamente distinto del cáncer original que tenían? Si es así, ¿puedes predecir las mutaciones que luego estarán en juego? ¿Las drogas X e Y predisponen a un paciente a un tipo específico de enfermedad de continuación? Tal vez la leucemia (en lugar de una recurrencia del cáncer de mama)? ¿Necesita tener un programa de vigilancia para ese paciente?

De forma similar, la identificación de similitudes genéticas entre poblaciones de pacientes relacionadas también sería valiosa. Por ejemplo, ¿cuál es la probabilidad de que los hijos de pacientes con cáncer de mama también tengan cáncer? ¿Cuáles son las probabilidades para las parientes femeninas frente a los parientes masculinos? Si el paciente original tuvo mutaciones BRCA1 / 2, ¿cuáles son las probabilidades de que los descendientes masculinos tengan cáncer de próstata? ¿O que sus descendientes femeninos tendrán cáncer de mama, de ovario o de páncreas?

Con este último conjunto de preguntas, es difícil para nosotros construir este tipo de modelos porque no tenemos los datos para poder responder a este tipo de preguntas. HIPAA nos impide conectar los registros de pacientes relacionados, y dado que la revolución de la genómica tiene solo unos 16 años, no tenemos el tipo de datos que necesitaríamos para responder las preguntas.

Dicho esto, hay algunas oportunidades distintas para el aprendizaje automático, solo tendríamos que reconocer el hecho de que estamos viendo datos de poblaciones de pacientes pequeñas y bien definidas.

En los términos más simples, el aprendizaje automático es efectivamente un algoritmo que se entrena para reconocer patrones. El aprendizaje automático se puede utilizar para cualquier desafío que implique la estratificación de grandes conjuntos de datos, de los cuales hay muchos en la industria de la salud. Por ejemplo:

  • Descubrimiento de biomarcadores (ver abajo)
  • Clasificación de la información genética (es decir, secuenciación del ADN)
  • Procesamiento de imágenes (por ejemplo, radiología, dermatología)
  • Ingeniería sintética o de proteínas

La lista sigue y sigue. ¡Las aplicaciones del aprendizaje automático solo están limitadas por la forma en que pensamos en los problemas!

Aquí hay un artículo reciente en Nature Methods sobre cómo se puede aplicar el aprendizaje automático para el descubrimiento de biomarcadores:

Tyanova, Stefka et al. “La plataforma computacional de Perseus para el análisis completo de datos (proteómicos).” Nat Meth 13.9 (2016): 731-740. Web.

More Interesting