Modelos Estadísticos

Regresión lineal

Aleksander Dietrichson, PhD

2025-05-26

Agenda de hoy

  • Modelos Estadísticos lineales

  • Modelos de regressión lineal

  • (Datos de texto)

  • Presentación de resultados con Quarto

    • Reutilizar funciones de visualización
  • Planificación del proyecto

  • Revisión de las tares

Modelos estadísticos lineales

Se refiere a una famila de modelos estadísticos que intentan describir la relación entre dos variables con alguna función lineal.

1my_data <- readRDS(here::here("data/usu_individual_T423.rds"))
2my_data <- my_data |> select(NIVEL_ED,P21, CH04) |>
3  filter(P21>0, NIVEL_ED <9) |>
4  mutate(NIVEL_ED = ifelse(NIVEL_ED == 7,0,NIVEL_ED))
1
Encuesta permanente individual 2023
2
Selecciono NIVEL_ED = nivel educativo y P21 = ingreso de la actividad principal
3
Removemos los ingresos 0 y el nivel educativo de 9, que es un código de «sin datos».
4
7 es el código de «sin instrucción» lo pongo en cero para tener una escala de 0 a 7.

Modelos estadísticos lineales

my_data |> 
  ggplot(aes(NIVEL_ED,P21))+
  geom_point()+
  geom_smooth(method = "lm")+
  scale_y_log10()

Modelos estadísticos lineales

Vemos que hay una relación entre las dos variables.

Fórmula:

\[ y \sim \beta_0 + \beta_1 + \epsilon \]

  • y tiene que ser de ratio, las demás pueden ser de cualquier nivel de medición.

  • \(\beta_0\) a veces se denomina \(\alpha\) y a veces se omite. Representa el valor de y en el punto que cruza el eje vertical.

  • \(\beta_1\) en este caso en «nivel educatico»

  • \(\epsilon\) es el «error» es decir la parte de la varianza que no se explica por las variables que hemos usado.

Modelos estadí­sticos lineales

Agreguemos una variable

Modelos estadísticos lineales

Ahroa agregamos un término en la fórmula

\[ y \sim \beta_0 + \beta_1 + \beta_2+ \epsilon \]

  • \(\beta_2\) que es «sexo»

Fórmula general: \[ y \sim \beta_0 + \beta_1 + ... +\beta_n + \epsilon \] Para un módelo con n variables.

Modelos estadísticos lineales

Lo podemos hacer en R con la función lm (lm = linear model)

my_model <- lm(P21 ~ NIVEL_ED + sexo, data = my_data)
my_model |> 
  summary()

Call:
lm(formula = P21 ~ NIVEL_ED + sexo, data = my_data)

Residuals:
    Min      1Q  Median      3Q     Max 
-340987 -107239  -35048   55078 7742761 

Coefficients:
            Estimate Std. Error t value             Pr(>|t|)    
(Intercept)   -16322       5385  -3.031              0.00244 ** 
NIVEL_ED       46874       1113  42.100 < 0.0000000000000002 ***
sexovarón      86065       3148  27.342 < 0.0000000000000002 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 203100 on 17375 degrees of freedom
Multiple R-squared:  0.1108,    Adjusted R-squared:  0.1107 
F-statistic:  1083 on 2 and 17375 DF,  p-value: < 0.00000000000000022