¿Hay un cuerpo de textos médicos disponibles para los investigadores? Necesito textos médicos para entrenar mi algoritmo NLP.

No sé si hay algún conjunto de datos conveniente que puedas usar, pero eso no debería detenerte. Se creativo.

¿Estás afiliado a una universidad? Si es así, es posible que pueda raspar revistas médicas para el contenido. Tenga cuidado de cumplir con la letra de todas las licencias, acuerdos y políticas relevantes porque ese tipo de cosas tiende a llamar la atención, como lo demuestra Aaron Swartz.

De lo contrario, busque en diarios de acceso abierto como una fuente de datos. Parece que hay bastantes de ellos en medicina. Algunos enlaces para que comiences:

Revistas de acceso abierto
BMJ Open – BMJ Journals
Revistas médicas gratuitas
Revistas médicas gratuitas | por Amedeo.com

Tu motor de búsqueda favorito debería poder encontrar más.

Si nunca antes ha reunido su propio conjunto de datos, le resultará bastante doloroso, pero probablemente gratificante después del hecho. Simplemente esté contento de que su aplicación probablemente no requiera anotar manualmente los datos de manera sustancial. ¡Buena suerte!

¿Es posible desarrollar dislexia a lo largo de los años?

Procesos industriales: ¿Cuál es la mejor forma de sebo de sebo de bisonte?

Cómo aprender más sobre nutrición y estado físico sin asistir a un ambiente de clase

¿Hay libros (u otros recursos) sobre cómo aumentar la velocidad de lectura, el enfoque y la resistencia (cuando la comprensión puede no ser el principal problema)?

¿Cómo funciona la memoria muscular?

Supreme Content

¿Es posible que una persona que no puede oír y vea aprender a hablar?

¿Cómo aprenden los médicos acerca de un nuevo medicamento? ¿Reciben capacitación o leen diarios / información válida?

¿Qué recursos recomendaría para comenzar a aprender sobre las pruebas clínicas farmacéuticas?

¿Cómo ayuda Vyvanse a una persona con TDAH a mejorar las conexiones de las neuronas y tener un mejor proceso de aprendizaje?

¿Qué es la medicina holística y cómo se practica?

¿Los moduladores selectivos del receptor de andrógenos (SARM) causan hipertrofia ventricular izquierda?

Odio ser esta persona, pero ¿qué sugieren mis síntomas?

Los corpora adecuados para algunas formas de bioinformática están disponibles para fines de investigación en la actualidad. Recursos como estos son escasos porque los textos nativos de este campo se encuentran principalmente en forma de registros electrónicos de salud (EHR), por lo que la privacidad del paciente y las preocupaciones de confidencialidad limitan el acceso público.

La informática para la integración de la biología y la cabecera (i2b2) es un Centro Nacional de Computación Biomédica financiado por los Institutos Nacionales de Salud. i2b2 ha desarrollado y lanzado varios corpus que han sido sistemáticamente normalizados y desidentificados ( es decir , anonimizados) para proteger la información de salud del paciente. Aunque los EHR difieren de una institución a otra e incluso de un departamento a otro dentro de la misma institución, los diversos corpus i2b2 NLP, desarrollados y distribuidos para investigación desde 2006, han apoyado el desarrollo de muchos sistemas, algunos de los cuales han utilizado creativamente los datos para propósitos fuera del intento original.

Los conjuntos de datos y un acuerdo de uso de datos que permite su uso continuo para la investigación están disponibles en Informática para la integración de la biología y la cabecera.

Franck Dernoncourt

Puede configurar un rastreador para obtener resúmenes de PubMed o Medline. Tal corpora se usa a menudo para desarrollar sistemas de PNL en el ámbito de la atención médica.

Aparte de eso, puedes descargar el corpus MIMIC después de seguir su curso en línea.

También puede descargar algunos conjuntos de datos disponibles para tareas compartidas de i2b2.

Buena suerte con la tarea!

Ben Miller-Jacobson

Algunos consejos: Notas del médico con PHI anotado

Ben Miller-Jacobson

More Interesting

Cómo saber si aprender medicina te queda bien

¿Cuáles son los beneficios de aprender sólidos fundamentos en numerosas áreas?

¿Dónde puedo aprender sobre nanotecnología?

¿Cómo se puede desaprender algo?

Cómo comenzar a aprender psiquiatría