Pruebas de independencia

Aleksander Dietrichson, PhD

2025-05-12

Agenda de hoy

  • Test de T de Student

  • Test de U de Mann-Whitney

  • Datos nuevos

  • Revisión de las tareas

Prueba de T de Student

Si las muestras son independientes

  • Compara dos muestras de una variable de nivel de ratio

  • Permite determinar si las dos muestras provinieron de la misma población (estadística) o no.

  • La hipótesis nula siempre es que no hay diferencia entre la media de las dos muestras

Requisitos

Para usar el test de t es necesario que:

  • La variable sea de nivel de medición ratio

  • Las muestras tengan varianza parecida.

  • Las muestras tengan una distribución razonablemente similar a una normal1.

  • otros…

Ejemplo

Quiero saber si el ingreso total familiar es igual en las grandes ciudades que en las pequeñas.

  my_data <- readRDS("/cloud/project/data/datos_indec.rds") 
  my_data <- my_data |> select(ITF,MAS_500) #Seleciono columnas relevantes
my_data |>
  group_by(MAS_500) |> 
  summarize(
    Media = mean(ITF)
  )
# A tibble: 2 × 2
  MAS_500   Media
  <chr>     <dbl>
1 N       258902.
2 S       230669.

Parecería haber una diferencia

¿Tienen la misma varianza?

Tenemos a disposición el test de Fisher

En R: var.test. La hipótesis nula es:
\[ {\sigma²_1\over{\sigma²_2}} = 1 \]

  • Si las varianzas de las dos muestras son iguales su ratio debe ser 1.

¿Tienen la misma varianza?

  # Hacemos dos conjuntos de datos
  grandes <- my_data |> filter(MAS_500=="S")
  peques  <- my_data |> filter(MAS_500 == "N")
  # Aplicamos test
  var.test(grandes$ITF, peques$ITF)

    F test to compare two variances

data:  grandes$ITF and peques$ITF
F = 0.95087, num df = 7840, denom df = 8814, p-value = 0.02187
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.9108474 0.9927140
sample estimates:
ratio of variances 
          0.950874 

Acá NO la tiene. ¿qué más podemos interpretar?

¿Es normal la distribución?

Usando el test de Shapiro-Wilks (para muestras N<5000)

Nuestra hipotesis nula acá es que la distribución se asemeja a normal

\[ H_0: X\sim{\mathcal{N}} \]

Ejemplo

my_data <- readRDS("/cloud/project/data/datos_indec.rds") |> 
  sample_n(1000) #hago una muestra de mil
shapiro.test(my_data$ITF)

    Shapiro-Wilk normality test

data:  my_data$ITF
W = 0.82422, p-value < 0.00000000000000022

Rechazamos la hipotesis nula

Conclusiones

La prueba de T de Student NO es apropriado para comparar los ingresos de estas dos poblaciones.

Opciones:

  • Transformar los datos (p.e. con log)

  • Eliminar observaciones extremas (outliers)

  • Usar un test no paramétrico

Prueba U de Mann-Whitney

  • Compara dos muestras de una variable de nivel de ratio, ordinal o intervalo

  • Permite determinar si las dos muestras provinieron de la misma población (estadística) o no, comparando la mediana.

  • La hipótesis nula siempre es que no hay diferencia entre las dos muestras.

  • También se conoce como Wilcox y de ahí proviene la nombre de la función en R.

Algoritmo

Se ordenan las observaciones por magnitud (Se rankean?). Si no hay diferencia (\(H_0\)) entre las dos muestras deberían aparecer intercaladamente. Si hay diferencia una de las dos muestras va a predominar uno en el lado inferior y otra en el lado superior.

Ej: beberían aparecer GPGPGPGPGPGPGPG…. (\(H_0\))

Ejemplo

  my_data <- readRDS("/cloud/project/data/datos_indec.rds") 
  my_data <- my_data |> select(ITF,MAS_500) #Seleciono columnas relevantes
  grandes <- my_data |> filter(MAS_500=="S")
  peques  <- my_data |> filter(MAS_500 == "N")
wilcox.test(grandes$ITF,peques$ITF)

    Wilcoxon rank sum test with continuity correction

data:  grandes$ITF and peques$ITF
W = 31347014, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0

Rechazamos la hipótesis nula y nos quedamos con la hipotesis alternativa de una diferencia.

Si R tira una warning la vamos a ignorar por ahora (hay otro paquete que podemos usar más adelante para tener un valor p exacto).

Datos nuevos del INDEC

Hay datos «frescos» del indec. Son del cuarto trimestre de 2024.

Incorporaron nuevas variables sobre:

  • informalidad laboral

  • estrategias del hogar

  • ingresos no laborales