¿Hay un cuerpo de textos médicos disponibles para los investigadores? Necesito textos médicos para entrenar mi algoritmo NLP.

No sé si hay algún conjunto de datos conveniente que puedas usar, pero eso no debería detenerte. Se creativo.

¿Estás afiliado a una universidad? Si es así, es posible que pueda raspar revistas médicas para el contenido. Tenga cuidado de cumplir con la letra de todas las licencias, acuerdos y políticas relevantes porque ese tipo de cosas tiende a llamar la atención, como lo demuestra Aaron Swartz.

De lo contrario, busque en diarios de acceso abierto como una fuente de datos. Parece que hay bastantes de ellos en medicina. Algunos enlaces para que comiences:

  1. Revistas de acceso abierto
  2. BMJ Open – BMJ Journals
  3. Revistas médicas gratuitas
  4. Revistas médicas gratuitas | por Amedeo.com

Tu motor de búsqueda favorito debería poder encontrar más.

Si nunca antes ha reunido su propio conjunto de datos, le resultará bastante doloroso, pero probablemente gratificante después del hecho. Simplemente esté contento de que su aplicación probablemente no requiera anotar manualmente los datos de manera sustancial. ¡Buena suerte!

Los corpora adecuados para algunas formas de bioinformática están disponibles para fines de investigación en la actualidad. Recursos como estos son escasos porque los textos nativos de este campo se encuentran principalmente en forma de registros electrónicos de salud (EHR), por lo que la privacidad del paciente y las preocupaciones de confidencialidad limitan el acceso público.

La informática para la integración de la biología y la cabecera (i2b2) es un Centro Nacional de Computación Biomédica financiado por los Institutos Nacionales de Salud. i2b2 ha desarrollado y lanzado varios corpus que han sido sistemáticamente normalizados y desidentificados ( es decir , anonimizados) para proteger la información de salud del paciente. Aunque los EHR difieren de una institución a otra e incluso de un departamento a otro dentro de la misma institución, los diversos corpus i2b2 NLP, desarrollados y distribuidos para investigación desde 2006, han apoyado el desarrollo de muchos sistemas, algunos de los cuales han utilizado creativamente los datos para propósitos fuera del intento original.

Los conjuntos de datos y un acuerdo de uso de datos que permite su uso continuo para la investigación están disponibles en Informática para la integración de la biología y la cabecera.

Puede configurar un rastreador para obtener resúmenes de PubMed o Medline. Tal corpora se usa a menudo para desarrollar sistemas de PNL en el ámbito de la atención médica.

Aparte de eso, puedes descargar el corpus MIMIC después de seguir su curso en línea.

También puede descargar algunos conjuntos de datos disponibles para tareas compartidas de i2b2.

Buena suerte con la tarea!

Algunos consejos: Notas del médico con PHI anotado