¿Qué método de análisis estadístico puedo usar para encontrar la relación entre una enfermedad (variable única) y factores ambientales (variables múltiples)?

[Descargo de responsabilidad: soy un “estadista punk”, no uno real :-P]

Estás diciendo que puede haber una relación arbitrariamente compleja entre tus variables y el objetivo, y quieres modelar esta relación … generalmente es un problema realmente difícil. Por lo general, la forma en que uno hace esto es suponer que la relación sigue algún modelo paramétrico: por ejemplo, lineal, polinómico, exponencial. Luego puede intentar ajustar el modelo a los datos y ver qué tan bueno es el ajuste. En el caso más simple, probarías una relación lineal y observarías la correlación o puntaje R2, como dijiste. A medida que escoge modelos cada vez más complejos, debe comenzar a preocuparse por el dilema de la varianza sesgada [es decir, su modelo podría tener un ajuste perfecto, pero será apropiado el ruido en los datos de entrenamiento; ver el dilema de Bias-varianza].

La pregunta obvia es: ¿cómo elijo un modelo para encajar? No hay una respuesta fácil aquí, por desgracia. Una forma de hacerlo es simplemente mirar los datos y tener una idea de cómo se verán las posibles relaciones. A continuación, elija el modelo MÁS SENCILLO que crea que puede capturar la relación (consulte nuevamente polarización-varianza). La última prueba es ver qué tan bien su modelo puede predecir el objetivo para puntos de datos nuevos (o retenidos).

Otra opción es adaptarse a un modelo no paramétrico. Estos modelos son excelentes si su objetivo final es hacer predicciones para nuevos puntos de datos (por ejemplo, ¿cuál será la incidencia de la enfermedad si la temperatura aumenta a 45 y la elevación es X?). Podría intentar la regresión aleatoria del bosque [ver 3.2.3.3.2. sklearn.ensemble.RandomForestRegressor], o funciones de base radial [ver Función de base radial]. La principal desventaja de estos tipos de modelos es que, si bien pueden hacer buenas predicciones, no son tan interpretables. Sin embargo, cuando las relaciones son realmente complejas, esta es su mejor opción.

Supreme Content

¿No son las pilas curables con medicamentos?

¿Alguna vez se ha sorprendido a una empresa de biotecnología reteniendo una cura para una enfermedad a favor de generar un beneficio a través del tratamiento?

¿Hay alguna forma de evaluar (y acelerar) el tiempo de recuperación de la neuropatía del nervio radial, también conocida como parálisis del sábado por la noche?

¿Qué piensas del argumento de Peter Hitchens de que la drogadicción no es una enfermedad, sino solo una cuestión de elección?

¿Cuáles son las formas de recuperarse rápidamente de un disco deslizado?

¿Qué tan madura es la industria de la telemedicina de la India? ¿Cuáles son las oportunidades y amenazas que le esperan?

Si un niño muere de una enfermedad prevenible causada por otro niño que no fue vacunado, ¿puede el primer padre demandar por perder el derecho a la vida?

Yo diría: trama. Es la mejor manera de entender cómo funcionan los datos.
Luego puede probar algunas funciones que parecen describir mejor los datos trazados.
Después de eso, aplique el método de mínimos cuadrados para cada función y use la función con la distancia cuadrada más baja.

Y para ser sincero, no hay realmente una forma matemática verdadera de derivar una función de un argumento; después de todo, esto es estadísticas, no matemáticas.

Alok Sharma

More Interesting

¿Las personas que tienen ataques siempre saben lo que sucedió?

Cómo tratar las alergias y el asma

¿Cuál es el virus humano más desagradable?

¿He contraído herpes genital?

Cómo detenerse a sí mismo para no llorar por su propia enfermedad

¿Puede un placebo usarse legalmente para tratar a un paciente que presenta molestias psicológicas?

¿Puede la rinitis ‘crónica’ ser causada por un nervio oftálmico con micrófonos?

¿Por qué a veces el dolor de la artritis en las manos se va?

¿La exposición a la radiación nuclear causa leucemia a veces varias generaciones más adelante?

¿Es contagiosa la meningitis causada por Herpes 1 (HSV1)?