La prueba de \(\chi^2\)

Aleksander Dietrichson, PhD

2025-04-28

Agenda de hoy

  • Revisión de las tares

  • La prueba de \(\chi^2\)

  • Formulación de hipótesis sobre los datos del Indec

Formula

\[ \chi²=\sum{(O_i-E_i)\over{E_i}} \]

O = valor observado

E = valor esperado

i=indice

\(\sum\) = «suma de»

¿Para qué se usa?

  • Determinar si una asimetría en una tabla de observaciones es significativa o no

  • Nos permite poner nuestras hipótesis a prueba

  • Se usa cuando las variables son de nivel nominal

Ejemplo

  • Tengo la intuición o impresión de que los uruguayos toman más mate que los argentinos.

  • Decido hacer una encuesta y pregunto a 100 personas (50 argentinos y 50 uruguayos) si prefieren café o mate (sin otras opciones)

  • Recopilo los datos y cuento

Escenario 1

Tengo una distribución perfectamente simétrica

Café Mate suma
Arg 25 25 50
ROU 25 25 50
suma 50 50 100

Escenario 2

Encontré solo 20 Uruguayos para mí estúdio

Café Mate suma
Arg 50
ROU 20
suma 35 35 70

¿cuál es el valor esperado de cada celda?

Calcular los valores esperados

Café Mate suma
Arg C
ROU ? D
suma A B

\[ A\times D \over{A+B+C+D} \]

Calcular los valores esperados

Café Mate suma
Arg 50
ROU 20
suma 35 35 70
  • Arge café: \({50\times35\over{70}}=25\)

  • Arg mate: \({50\times35\over{70}}=25\)

  • ROU café: \({20\times35\over{70}}=10\)

  • ROU mate: \({20\times35\over{70}}=10\)

Calcular los valores esperados

Café Mate suma
Arg 25 25 50
ROU 10 10 20
suma 35 35 70

Valores observados

Vamos, preguntamos y armamos la misma tabla

   Pais pref
1   Arg Cafe
2   Arg Cafe
3   Arg Cafe
4   Arg Cafe
5   Arg Mate
6   Arg Mate
7   Arg Cafe
8   Arg Cafe
9   Arg Mate
10  Arg Mate

Llegar a la tabla

# Simulamos resultados
my_data <- data.frame(
  Pais = c(rep("Arg",50),rep("ROU",20)),
  pref = sample(c("Cafe","Mate"),size = 70, replace = TRUE)
  ) 

Generamos la tabla con table

table(my_data$Pais, my_data$pref)
     
      Cafe Mate
  Arg   24   26
  ROU    6   14
  • Los datos no son exactamente simétricos porque los simulé con sample.

Llegar a la tabla

# Lo mismo en dplyr
my_data |>
  group_by(Pais,pref) |> 
  count() |> 
  pivot_wider(values_from = c(n),names_from = c(pref))
# A tibble: 2 × 3
# Groups:   Pais [2]
  Pais   Cafe  Mate
  <chr> <int> <int>
1 Arg      24    26
2 ROU       6    14

Formular hipótesis

\(H_0\) : El café y el mate gustan por igual en ambos países

\(H_1\) : El mate gusta más en Uruguay

Usar la \(\chi²\) para probarla

table(my_data$Pais,my_data$pref) |> 
  chisq.test()

    Pearson's Chi-squared test with Yates' continuity correction

data:  table(my_data$Pais, my_data$pref)
X-squared = 1.2265, df = 1, p-value = 0.2681

Con estos datos NO logramos refutar la hipótesis nula.