Revisión de la teoría

Aleksander Dietrichson, PhD

Agenda de hoy

  • El concepto de variable

    • en estadística (y otras disciplinas)

    • en lenguajes de programación

  • Centralización y Dispersión

  • Instalar y acceder al tidyverse

  • Aplicar conceptos a los datos del Indec

Variables: Estadística

  • Nominal

    • Ej: Sexo (M/F), nombre, DNI (¿podés sumarlos?)
  • Ordinal

    • Ej: «star-rating»
  • Intervalo

    • Temperatura
  • Razón (Ratio o racional)

    • Ej: Edad, ingreso, numero de hijos

Variables nominales en R

Se expresan con vectores de tipo character (eventualmente factor)

sexo <- c("M","F","M","F")
nombre <- c("Jorge","Marìa","Jorge","Cecilia")

Se pueden armar tablas de frecuencias con table

table(sexo)
sexo
F M 
2 2 
table(nombre)
nombre
Cecilia   Jorge   Marìa 
      1       2       1 

Variables nominales en R

Se pueden visualizar con p.ej. barplot

barplot(table(sexo))

barplot(table(nombre))

Variables ordinales en R

Se pueden expresar como vectores de characteres con niveles asignados.

ratings <- c("muy bueno","muy  bueno","muy  bueno","bueno","regular",
             "regular","malo","malo","muy malo")

Para saber qué es mejor/peor se arma una variable de tipo factor con los niveles y ordered = TRUE

rating_con_niveles <- 
  factor(ratings, 
         levels = c("muy bueno","bueno", "regular", "malo", "muy malo"), #en orden acá
         ordered = TRUE)

Variables ordinales en R

y visualizar

barplot(table(rating_con_niveles))

A veces se expresan con números (rating 1 a 5) lo cual puede resultar confuso. La clasificación es conceptual.

Variables de intervalo en R

Se expresan generalmente con numeric

temperatura_en_buenos_aires <- sample(20:30, size = 20, replace = 2)

Y se pueden visualizar como histograma

hist(temperatura_en_buenos_aires)

Por qué el de intervalo?

Variables de ratio en R

Se expresan con numérico en R.

cociente_de_intelligencia <- rnorm(1000,100,15)
head(cociente_de_intelligencia)
[1] 107.2808  98.6992 110.8966 103.1560 135.5813 111.3178

Variables de ratio en R

Y se visualizan con histograma

hist(cociente_de_intelligencia)

Centralización

Contesta a la pregunta: ¿cuál es el valor más típico del conjunto?

Las principales son:

  • La media

  • La mediana

  • La moda

Centralización

Contesta a la pregunta: ¿cuál es el valor más típico del conjunto?

Las principales son:

  • La media: Intervalo y ratio

  • La mediana: Intervalo y ratio

  • La moda: Nominales y ordinales

Dispersión

Contesta a la pregunta: ¿cuán típico es el valor más típico?

  • La desviación estándar

  • Desviación mediana absoluta (mad)

  • Rango

  • Rango intercuartílico

  • y muchos otros…

Tidyverse

Es un conjunto de packetes que vamos a usar para análisis de datos

se instala con:

install.packages("tidyverse")

desde la consola.

Datos del indec

Revisamos la tarea a ver qué variables vamos a analizar.

  • ¿Como llamarlos?

  • ¿Hay que transformar alguna?

  • ¿Qué preguntas podemos hacer?