Aprendizaje automático: en la programación de diagnóstico asistido por computadora, ¿cuántos datos se requieren para un conjunto de entrenamiento adecuado?

1. “¿Cómo se determina cuánto es suficiente o si un elemento del conjunto de datos / capacitación es más importante que otro?”

La belleza y la utilidad del aprendizaje automático radica en su capacidad para generar una fórmula basada en sus datos de entrenamiento. El aprendizaje automático se usa en situaciones donde (a) existe una relación matemática entre el objetivo (salida) yy la entrada (vector de características) x, y (b) esta relación no puede describirse mediante una fórmula matemática simple. Los algoritmos de aprendizaje automático se dividen generalmente en algoritmos de aprendizaje supervisados ​​y no supervisados, pero en cualquier caso el proceso consiste en optimizar las funciones de error, por ejemplo en el caso de SVM, NN, y regresión logística e incluso K-means. Si supiéramos qué características en el conjunto de datos son más importantes que el resto, ML no sería necesario. El poder de ML radica en la capacidad del practicante para tomar un conjunto de características (lo que describió en su pregunta como ‘artículos’) y hacer que el software determine automáticamente cuáles son importantes y cuáles no; esto se llama ponderación. En muchas aplicaciones de SVM, se utilizan decenas de miles de funciones (¡o más!).

2. “… Promedas, ¿no tendrían que preparar una cierta cantidad de datos para lo que (creo) se llama un” conjunto de entrenamiento “para que la información sea útil para los programadores?”

Correcto. No he usado Promedas, pero parece que tienes que traer tus propios datos. Estos datos consisten en (a) un conjunto de entrenamiento, y (b) un conjunto de prueba (asumiendo el caso de algoritmos de aprendizaje supervisados, en lugar de no supervisados). El conjunto de entrenamiento consiste en vectores de entrada con muchas (o no tantas) características, y para cada vector de entrada también hay un objetivo (salida conocida). Este objetivo puede ser en forma de números continuos (regresión), o puede tener la forma de un número finito de clases (clasificación). El algoritmo ML resuelve problemas de optimización y / o implementa métodos iterativos como el descenso de gradiente para obtener el vector de peso que mejor se ajusta a los datos. Por lo general, el conjunto de capacitación también se utiliza como el conjunto de validación cruzada, ya sea dividiéndolo en el conjunto de capacitación adecuado y el conjunto de validación cruzada, o implementando la validación cruzada en el conjunto de capacitación. El propósito de la validación cruzada es evitar los fenómenos de ajuste excesivo, donde el vector de peso se ajusta al conjunto de entrenamiento de forma tan cercana que no se generalice bien al conjunto de prueba. Tenga en cuenta que el conjunto de prueba puede tener o no valores objetivo.

3. “¿Qué necesitaría el programador del practicante?”

Para aplicar algoritmos de aprendizaje automático, uno de los primeros pasos consiste en formatear los datos correctamente y escalarlos para que puedan ser utilizados por cualquier paquete que esté utilizando. Esta es la intersección de ciencia de datos / minería y aprendizaje automático. Asumiendo que el programador escribirá gran parte del código utilizado para extraer y ordenar los datos, él / ella tendrá que saber del profesional el formato deseado de los datos de entrenamiento / prueba.

Dudo que los médicos necesiten una ayuda de diagnóstico basada en la inteligencia artificial en la mayoría de los casos.