¿Por qué queremos ver propagación en parcelas residuales? ¿No se difunde menos, ya que significa que los valores observados están más cerca de los valores predichos?

No, la dispersión de los residuos no proporciona información acerca de cuán cerca están los valores predichos de los valores observados. Piensa en lo que significa ” difundir” . ¿De qué se extiende? Estás confundiendo spread con ” ubicación “.

Dicho esto, la razón por la que desea ver los residuos es por la suposición que hace cuando modela la regresión lineal. Los errores deben seguir una distribución normal y la varianza de los errores debe ser igual. Estos son asunción de normalidad y asunción de homoscedasticidad, respectivamente.

Los errores no son lo mismo que los residuos, pero los residuos son la realización de errores. Por lo tanto, debe ver los residuos si desea verificar si las suposiciones aún se mantienen. La extensión es para verificar la varianza.

En algunos análisis, la variabilidad es buena, ya que significa que podemos reducirla al incorporar más información. Pero al mismo tiempo, queremos que esté bajo control. En los modelos lineales, si no hay varianza, significa que el ajuste es perfecto. Esto puede parecer agradable, pero no es porque pueda indicar un ajuste excesivo. Los datos que se han recopilado pueden ajustarse perfectamente al modelo, pero a medida que obtenga más datos, es posible que no. Siempre debemos tener en cuenta que la regresión lineal no intenta dibujar una línea que pase todos los puntos. Piensa en por qué y te darás cuenta de que es porque el ajuste excesivo no es realmente deseable. En tal sentido, la variabilidad abre el espacio para que lleguen más datos.

En un modelo de regresión típico, modela una cantidad como teniendo un componente que se debe a una o más variables explicativas y otro componente que es aleatorio. Se supone a menudo que el componente aleatorio sigue una distribución normal con alguna varianza desconocida (pero constante). Los errores de distribución normal conducen a muchas propiedades agradables a medida que analiza su modelo. Según dicho modelo, espera ver residuales que siguen aproximadamente una distribución normal. Si sus residuos se ven drásticamente diferentes, es una indicación de que está utilizando el modelo incorrecto.

Ahora, dicho esto, si tus residuos no tienen spread, significaría que todos son exactamente cero, por lo que el modelo se ajusta perfectamente a los datos. Eso es genial, aunque no muy realista. Si tienen algún margen, entonces, siempre que aparezcan distribuidos normalmente, una dispersión más pequeña significa que los errores en su modelo suelen ser bastante cercanos a cero, y eso es, como usted sugiere, preferible a un amplio margen. Significa que su modelo está haciendo un muy buen trabajo al explicar la variable de respuesta.