¿Qué método de análisis estadístico puedo usar para encontrar la relación entre una enfermedad (variable única) y factores ambientales (variables múltiples)?

[Descargo de responsabilidad: soy un “estadista punk”, no uno real :-P]

Estás diciendo que puede haber una relación arbitrariamente compleja entre tus variables y el objetivo, y quieres modelar esta relación … generalmente es un problema realmente difícil. Por lo general, la forma en que uno hace esto es suponer que la relación sigue algún modelo paramétrico: por ejemplo, lineal, polinómico, exponencial. Luego puede intentar ajustar el modelo a los datos y ver qué tan bueno es el ajuste. En el caso más simple, probarías una relación lineal y observarías la correlación o puntaje R2, como dijiste. A medida que escoge modelos cada vez más complejos, debe comenzar a preocuparse por el dilema de la varianza sesgada [es decir, su modelo podría tener un ajuste perfecto, pero será apropiado el ruido en los datos de entrenamiento; ver el dilema de Bias-varianza].

La pregunta obvia es: ¿cómo elijo un modelo para encajar? No hay una respuesta fácil aquí, por desgracia. Una forma de hacerlo es simplemente mirar los datos y tener una idea de cómo se verán las posibles relaciones. A continuación, elija el modelo MÁS SENCILLO que crea que puede capturar la relación (consulte nuevamente polarización-varianza). La última prueba es ver qué tan bien su modelo puede predecir el objetivo para puntos de datos nuevos (o retenidos).

Otra opción es adaptarse a un modelo no paramétrico. Estos modelos son excelentes si su objetivo final es hacer predicciones para nuevos puntos de datos (por ejemplo, ¿cuál será la incidencia de la enfermedad si la temperatura aumenta a 45 y la elevación es X?). Podría intentar la regresión aleatoria del bosque [ver 3.2.3.3.2. sklearn.ensemble.RandomForestRegressor], o funciones de base radial [ver Función de base radial]. La principal desventaja de estos tipos de modelos es que, si bien pueden hacer buenas predicciones, no son tan interpretables. Sin embargo, cuando las relaciones son realmente complejas, esta es su mejor opción.

Yo diría: trama. Es la mejor manera de entender cómo funcionan los datos.
Luego puede probar algunas funciones que parecen describir mejor los datos trazados.
Después de eso, aplique el método de mínimos cuadrados para cada función y use la función con la distancia cuadrada más baja.

Y para ser sincero, no hay realmente una forma matemática verdadera de derivar una función de un argumento; después de todo, esto es estadísticas, no matemáticas.