Tests de independencia II

Muestras pareadas

Aleksander Dietrichson, PhD

2025-05-19

Agenda de hoy

  • Test the T de Student para muestras pareadas

  • Alternativas no-paramétricas

  • Interpretación de resultados

  • Presentación de resultados con Quarto

    • «decoradores» #|

    • Intercalar código con texto

    • yaml

    • bibliografía

  • Revisión de las tares

Test de T de Student

Si las muestras son dependientes también hay un test de t de student.

  • Compara dos mediciones de la misma variable en dos tiempos distintos pero en el mismo sujeto

  • Ejemplos: antes/despues, con/sin medicación

  • La hipótesis nula siempre es que no hay diferencia entre la media de las dos muestras

Requisitos

Para usar el test de t es necesario que:

  • La variable sea de nivel de medición ratio

  • Las muestras tengan varianza parecida.

  • Las muestras tengan una distribución razonablemente similar a una normal1.

Note

SON LOS MISMOS

¿Qué estamos midiendo?

antes despues diferencia
6 6 0
2 1 -1
6 10 4
7 7 0
6 10 4
5 9 4
1 10 9
10 10 0
  • Nuestra hipótesis nula es que no hay diferencia (\(\Delta = 0\))

  • Si la diferencia (\(\Delta\)) es distinta a cero (\(\Delta\neq0\)) podemos calcular la probabilidad de que eso ocurra al azar.

Ejemplo

Quiero saber si el ingreso total familiar cambió significativamente entre el 4to trimestre del 22 al 4to trimestre del 23.

Conseguí en el sitio del indec los datos del 4to trimestre del 22 y del 23. Los procesé de la misma manera que antes y los guardé en archivos .rds en ./data

usu_hogar_T423 <- readRDS(here::here("data/usu_hogar_T423.rds"))
usu_hogar_T422 <- readRDS(here::here("data/usu_hogar_T422.rds"))

Vemos rápido:

nrow(usu_hogar_T423)
[1] 16462
nrow(usu_hogar_T422)
[1] 16740

Hay alguna discrepancia así que hay que limpiar un poco.

Ejemplo

En ellas, cada registro tiene un número de identicación (CODUSU), que permite
relacionar una vivienda con los hogares...

Solo nos interesan los datos que sean comparables entre los dos conjuntos.

mis_CODUSU <- intersect(usu_hogar_T422$CODUSU,usu_hogar_T423$CODUSU) 
length(mis_CODUSU)
[1] 6999
usu_hogar_T422 <- usu_hogar_T422 |> 
  filter(CODUSU %in% mis_CODUSU) |> 
  arrange(CODUSU)
usu_hogar_T423 <- usu_hogar_T423 |> 
  filter(CODUSU %in% mis_CODUSU) |> 
  arrange(CODUSU)

Ejemplo

Verificamos:

nrow(usu_hogar_T422)
[1] 7062
nrow(usu_hogar_T423)
[1] 7071

¿por qué hay discrepancia?

Ejemplo

Limpiemos un poco más. Como estamos mirando sólo el ITF, podemos eliminar los CODUSU duplicados

usu_hogar_T422 <- usu_hogar_T422 |> filter(!duplicated(CODUSU))
usu_hogar_T423 <- usu_hogar_T423 |> filter(!duplicated(CODUSU))

verificamos:

nrow(usu_hogar_T422)
[1] 6999
nrow(usu_hogar_T423)
[1] 6999

Ejemplo

Ahora podemos hacer el test

1usu_hogar_T422 <- usu_hogar_T422 |> arrange(CODUSU)
usu_hogar_T423 <- usu_hogar_T423 |> arrange(CODUSU)

2t.test(usu_hogar_T423$ITF,usu_hogar_T422$ITF, paired = TRUE)
1
Por las dudas usamos arrange de vuelta para ordenar los datos
2
La única diferencia en sintáxis es paired = TRUE

Ejemplo

Resultados:

t.test(usu_hogar_T423$ITF,usu_hogar_T422$ITF, paired = TRUE)

    Paired t-test

data:  usu_hogar_T423$ITF and usu_hogar_T422$ITF
t = 48.956, df = 6998, p-value < 0.00000000000000022
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 179652.5 194639.9
sample estimates:
mean difference 
       187146.2 

¿cómo lo interpretamos?

Alternativa no paramétrica

  • Si hay pocos datos

  • si no cumplen con los requisitos

Tenemos la alternativa con wilcox.test , igual agregando el parametro paired = TRUE

Ejemplo

wilcox.test(usu_hogar_T423$ITF,usu_hogar_T422$ITF, paired = TRUE)

    Wilcoxon signed rank test with continuity correction

data:  usu_hogar_T423$ITF and usu_hogar_T422$ITF
V = 17722081, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0

Nos da básicamente el mismo resultado, ¿qué diferencias hay?

Student vs Wilcox

T de Student:


    Paired t-test

data:  usu_hogar_T423$ITF and usu_hogar_T422$ITF
t = 48.956, df = 6998, p-value < 0.00000000000000022
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 179652.5 194639.9
sample estimates:
mean difference 
       187146.2 

Wilcox:


    Wilcoxon signed rank test with continuity correction

data:  usu_hogar_T423$ITF and usu_hogar_T422$ITF
V = 17722081, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0

Presentación de resultados con Quarto

Lo hacemos en vivo. Vamos a cubrir:

  • «decoradores» #|

  • Intercalar código con texto

  • yaml

  • bibliografía