Modelos Estadísticos
Regresión lineal
Aleksander Dietrichson, PhD
2025-05-26
Agenda de hoy
Modelos Estadísticos lineales
Modelos de regressión lineal
(Datos de texto)
Presentación de resultados con Quarto
- Reutilizar funciones de visualización
Planificación del proyecto
Revisión de las tares
Modelos estadísticos lineales
Se refiere a una famila de modelos estadísticos que intentan describir la relación entre dos variables con alguna función lineal.
1my_data <- readRDS(here::here("data/usu_individual_T423.rds"))
2my_data <- my_data |> select(NIVEL_ED,P21, CH04) |>
3 filter(P21>0, NIVEL_ED <9) |>
4 mutate(NIVEL_ED = ifelse(NIVEL_ED == 7,0,NIVEL_ED))
- 1
-
Encuesta permanente individual 2023
- 2
-
Selecciono NIVEL_ED = nivel educativo y P21 = ingreso de la actividad principal
- 3
-
Removemos los ingresos 0 y el nivel educativo de 9, que es un código de «sin datos».
- 4
-
7 es el código de «sin instrucción» lo pongo en cero para tener una escala de 0 a 7.
Modelos estadísticos lineales
my_data |>
ggplot(aes(NIVEL_ED,P21))+
geom_point()+
geom_smooth(method = "lm")+
scale_y_log10()
Modelos estadísticos lineales
Vemos que hay una relación entre las dos variables.
Fórmula:
\[
y \sim \beta_0 + \beta_1 + \epsilon
\]
y tiene que ser de ratio, las demás pueden ser de cualquier nivel de medición.
\(\beta_0\) a veces se denomina \(\alpha\) y a veces se omite. Representa el valor de y en el punto que cruza el eje vertical.
\(\beta_1\) en este caso en «nivel educatico»
\(\epsilon\) es el «error» es decir la parte de la varianza que no se explica por las variables que hemos usado.
Modelos estadísticos lineales
Agreguemos una variable
Modelos estadísticos lineales
Ahroa agregamos un término en la fórmula
\[
y \sim \beta_0 + \beta_1 + \beta_2+ \epsilon
\]
- \(\beta_2\) que es «sexo»
Fórmula general: \[
y \sim \beta_0 + \beta_1 + ... +\beta_n + \epsilon
\] Para un módelo con n variables.
Modelos estadísticos lineales
Lo podemos hacer en R con la función lm
(lm = linear model)
my_model <- lm(P21 ~ NIVEL_ED + sexo, data = my_data)
my_model |>
summary()
Call:
lm(formula = P21 ~ NIVEL_ED + sexo, data = my_data)
Residuals:
Min 1Q Median 3Q Max
-340987 -107239 -35048 55078 7742761
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -16322 5385 -3.031 0.00244 **
NIVEL_ED 46874 1113 42.100 < 0.0000000000000002 ***
sexovarón 86065 3148 27.342 < 0.0000000000000002 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 203100 on 17375 degrees of freedom
Multiple R-squared: 0.1108, Adjusted R-squared: 0.1107
F-statistic: 1083 on 2 and 17375 DF, p-value: < 0.00000000000000022