<- readRDS("/cloud/project/data/datos_indec.rds")
my_data <- my_data |> select(ITF,MAS_500) #Seleciono columnas relevantes my_data
2025-05-12
Test de T de Student
Test de U de Mann-Whitney
Datos nuevos
Revisión de las tareas
Si las muestras son independientes
Compara dos muestras de una variable de nivel de ratio
Permite determinar si las dos muestras provinieron de la misma población (estadística) o no.
La hipótesis nula siempre es que no hay diferencia entre la media de las dos muestras
Para usar el test de t es necesario que:
La variable sea de nivel de medición ratio
Las muestras tengan varianza parecida.
Las muestras tengan una distribución razonablemente similar a una normal1.
otros…
Quiero saber si el ingreso total familiar es igual en las grandes ciudades que en las pequeñas.
# A tibble: 2 × 2
MAS_500 Media
<chr> <dbl>
1 N 258902.
2 S 230669.
Parecería haber una diferencia
Tenemos a disposición el test de Fisher
En R: var.test
. La hipótesis nula es:
\[
{\sigma²_1\over{\sigma²_2}} = 1
\]
# Hacemos dos conjuntos de datos
grandes <- my_data |> filter(MAS_500=="S")
peques <- my_data |> filter(MAS_500 == "N")
# Aplicamos test
var.test(grandes$ITF, peques$ITF)
F test to compare two variances
data: grandes$ITF and peques$ITF
F = 0.95087, num df = 7840, denom df = 8814, p-value = 0.02187
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.9108474 0.9927140
sample estimates:
ratio of variances
0.950874
Acá NO la tiene. ¿qué más podemos interpretar?
Usando el test de Shapiro-Wilks (para muestras N<5000)
Nuestra hipotesis nula acá es que la distribución se asemeja a normal
\[ H_0: X\sim{\mathcal{N}} \]
my_data <- readRDS("/cloud/project/data/datos_indec.rds") |>
sample_n(1000) #hago una muestra de mil
shapiro.test(my_data$ITF)
Shapiro-Wilk normality test
data: my_data$ITF
W = 0.82422, p-value < 0.00000000000000022
Rechazamos la hipotesis nula
La prueba de T de Student NO es apropriado para comparar los ingresos de estas dos poblaciones.
Transformar los datos (p.e. con log)
Eliminar observaciones extremas (outliers)
Usar un test no paramétrico
Compara dos muestras de una variable de nivel de ratio, ordinal o intervalo
Permite determinar si las dos muestras provinieron de la misma población (estadística) o no, comparando la mediana.
La hipótesis nula siempre es que no hay diferencia entre las dos muestras.
También se conoce como Wilcox y de ahí proviene la nombre de la función en R.
Se ordenan las observaciones por magnitud (Se rankean?). Si no hay diferencia (\(H_0\)) entre las dos muestras deberían aparecer intercaladamente. Si hay diferencia una de las dos muestras va a predominar uno en el lado inferior y otra en el lado superior.
Ej: beberían aparecer GPGPGPGPGPGPGPG…. (\(H_0\))
Wilcoxon rank sum test with continuity correction
data: grandes$ITF and peques$ITF
W = 31347014, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0
Rechazamos la hipótesis nula y nos quedamos con la hipotesis alternativa de una diferencia.
Si R tira una warning
la vamos a ignorar por ahora (hay otro paquete que podemos usar más adelante para tener un valor p exacto).
Hay datos «frescos» del indec. Son del cuarto trimestre de 2024.
Incorporaron nuevas variables sobre:
informalidad laboral
estrategias del hogar
ingresos no laborales