6  Diseño de proyectos y test de hipótesis

Our knowledge can only be finite, while our ignorance must necessarily be infinite.

—Karl Popper

6.1 El método científico

El filósofo de ciencias Karl Popper es considerado por muchos como el padre de la teoría científica moderna. Sostiene que la ciencia avanza proponiendo teorías e ideas que sean empíricamente refutables. Cuando una teoría es refutada por investigaciones empíricas surgen otras teorías que toman en cuenta las refutaciones de las anteriores y son sometidos al mismo proceso. Este tipo de pensamiento se conoce también como pensamiento «deductivo» y es fundamental para las ciencias empíricas. Deductivo, en este caso es contrario a «inductivo» toma como confirmatorias toda observación que sostiene una teoría, sea esta falseable o no.

Por ejemplo, podemos proponer la teoría de que «en la Ciudad de Buenos Aires nunca cae nieve». Durante la segunda mitad del siglo pasado podíamos corroborar nuestra teoría día tras día al medir el nivel de nieve –que era cero–, pero bastó con una sola nevada, que ocurrió el nueve de julio del 2007, para que nuestra teoría quedara refutada.

Para que una teoría sea científica tiene que ser posible demostrar su falsedad empíricamente, es decir tenemos que poder obtener datos, por experimentos u observaciones, capaces de comprobar que la teoría no es correcta. Esto se llama el principio de falsabilidad,1 falsación o refutabilidad.

Nuestra teoría de la falta de nieve en la ciudad de Buenos Aires es científica, ya la podemos hacer medidas para refutarla. El hecho de que la teoría resultó incorrecta no implica que no sea científica.

Cabe mencionar que existen ciencias: las ciencias «formales» como las matemáticas, la lógica formal etcétera; cuyas teorías no dependen de observación empírica ya que se concentran en el estudio abstracto de cantidades, estructuras y cambio.

6.2 El diseño de una investigación

Estudios experimentales y observacionales

Podemos distinguir entre dos tipos de investigación científica en las ciencias empíricas. Los estudios experimentales son estudios donde nosotros manipulamos alguna variable para darnos cuenta qué efecto tiene. En nuestro ejemplo de dos cursos con metodologías distintas, nosotros hemos manipulado la variable metodología. Como hemos mencionado antes en la sección 1.5 esta es la variable independiente. Los estudios experimentales son muy frecuentes en las ciencias naturales y también se aplican a las ciencias humanas.

En las ciencias humanas, sin embargo, a menudo nos encontramos con datos en los que no podemos manipular la variable independiente. En el caso de los datos lingüísticos de la figura 2.2, no podemos cambiar el largo de las palabras. Nos tenemos que limitar a recoger los datos e intentar discernir alguna relación entre ellas. Igual tenemos una variable dependiente «largo de palabra» y una independiente «frecuencia», solo que no controlamos la variable independiente. Este tipo de estudios son observacionales y a veces se habla de estudios correlacionales.

Fuentes de ruido en los datos

Cuando estamos haciendo un estudio experimental controlamos no solo la variable independiente, sino también podemos diseñar el experimento para minimizar el efecto de otras variables que puedan influir en la variable dependiente. La meta es de minimizar los efectos provenientes de de factores que no son relevantes para nuestro estudio a fin de poder afirmar con más confianza que los efectos observados en realidad tienen que ver con la variable independiente. En el caso de los dos grupos con metodologías distintos podemos, por ejemplo, asegurarnos de que los dos cursos tengan el mismo profesor, se dicte en horarios similares y que los de estudiantes que reciben el curso tengan características similares en cuanto a edad, género, promedio de notas en otras materias etcétera. En el caso de un estudio observacional no tenemos este nivel de control, lo que sí podemos hacer es intentar estimar el efecto de interferencia de otras variables y tomarlo en cuenta en nuestros análisis.

Incluso en el caso de un estudio experimental, no es realista esperar que podemos remover totalmente el efecto de variables irrelevantes. A lo que podemos aspirar y debemos intentar, sin embargo, es de remover la mayor cantidad posible de variación sistemática. Si en el caso del las notas de los grupos de estudiantes pusimos todos los hombres en un grupo y todas las mujeres en otro, no podemos saber si la diferencia que observamos se debe la diferencia de metodología didáctica o si es una diferencia de género. Por ello es preciso hacer lo posible para que las variables que son irrelevantes para nuestra investigación operen de manera aleatoria en nuestras muestras y, de ser posible, minimizar su efecto. Si no operan de manera aleatoria corremos el riesgo de en realidad medir otra variable –género en lugar de metodología– de la que queremos investigar, y si su efecto genera mucha varianza va a bajar la confianza que podemos tener el las conclusiones obtenidas.

6.3 Tests de hipótesis

Vimos en la sección 5.2 que podemos estimar los valores de la población en base a muestras y que podemos calcular un margen de error y niveles de confianza de estas estimaciones. Podemos valernos de los mismos conceptos para concluir algo sobre la relación entre variables: independiente y dependiente por ejemplo.

6.3.1 Tests estadísticos de significanza

En el caso de nuestros dos grupos de estudiantes (véase: 6.3.6) ya vimos que existe una diferencia entre los dos grupos en la media de la nota obtenida. De la figura 2.1 vimos que igual las dos distribuciones de solapan en gran medida. Por tanto no podemos afirmar con absoluta certeza que las diferencias observadas son el efecto de la metodología pedagógica aplicada o si son producto de la inherente variabilidad de las muestras.

El objetivo de un test estadístico de significanza es determinar si las diferencias observadas el resultado de variación aleatoria o si pueden razonablemente ser atribuidos a la variable independiente.

6.3.2 La hipótesis nula y alternativa

Para testear una hipótesis el primer paso es establecer una hipótesis nula. Esta hipótesis afirma que no existe el efecto que estamos investigando. Siguiendo los lineamientos del método científico, ahora nuestra labor es, a través de mediciones u observaciones, refutar esta hipótesis, con lo cual podemos proponer otra, llamada hipótesis alternativa. Una hipótesis nula se formula como una afirmación precisa y empíricamente refutable. En el ejemplo de los dos grupos de estudiantes la hipótesis nula podría expresarse como: «No existe diferencia entre la media de notas entre los dos grupos».

También debemos formular una o dos hipótesis alternativas. Si formulamos dos, una va a afirmar que la media de notas del grupo A es superior a la del grupo B y la otra que la media de notas del grupo B es mayor a la media de notas del grupo A. Si usamos una sola hipótesis alternativa esta simplemente plantea que la media notas de los dos grupos es desigual.

Notación formal

En notación formal, muy frecuente en textos académicos, se usa la letra H (mayúscula) para significar una hipótesis y tiene subíndice «0» o «null». Las hipótesis alternativas reciben subíndice numérica (1 y 2 etcétera). En el caso descrito en la sección anterior se podría expresar así:

\(H_0: \text{No hay diferencia entre los grupos}\)

\(H_1: \text{Hay diferencia}\)

o, includo más formal:

\(H_0: \mu_A=\mu_B\)

\(H_1: \mu_A\neq\mu_B\).

La estrategia del test de hipótesis acumular evidencia empírica que nos permita refutar la hipótesis nula y no intentar fomentar cualquiera de las alternativas directamente. Lo que tenemos que hacer es aplicar un test estadístico y calcular la probabilidad de obtener las observaciones que hemos obtenido y si esa probabilidad es muy baja, refutamos \(H_0\) a favor de una de las alternativas.

Es preciso aclarar que nunca podemos estar absolutamente seguros de estar justificados en refutar \(H_0\). Siempre existe la posibilidad de que las diferencias observadas de deban a la aleatoriedad de las muestras. Lo que sí podemos mostrar es que la probabilidad de que así sea es muy baja.

6.3.3 Niveles de significanza

Dado que siempre existe la posibilidad de refutar injustificadamente nuestra \(H_0\), tenemos que determinar un nivel debajo del cual estamos dispuestos a equivocarnos en nuestra afirmación. Este se llama el nivel de significanza, también se describe con la letra griega \(\alpha\) y se llama nivel-\(\alpha\) (nivel alfa). El nivel de significanza está conceptual y matemáticamente ligado con los [intervalos de confianza] que vimos en el capítulo 5.

Si estamos dispuestos a rechazar \(H_0\) si la probabilidad (p) de hacerlo injustificadamente es igual o menor a 0,05, elegimos un nivel de significanza de 0,05, también llamado «nivel de 5%». Su notación a menudo se encuentra como: \(p\leqslant0,05\). Este nivel es bastante común en las ciencias humanas, en cambio en otras disciplinas de las ciencias exactas y médicas por ejemplo, a veces se opera con \(p\leqslant0,01\) o \(p\leqslant0,001\), lo que significa que se acepta rechazar injustificadamente \(H_0\) una vez en cien o una vez en mil respectivamente.

Para cada test estadístico y cada nivel de significanza elegido existirá un valor crítico o un rango crítico dentro del cual el valor del cálculo estadístico tiene que encontrarse para que las diferencias observadas en las muestras se consideren estadísticamente significativos. Si el valor del test estadístico no cae en ese rango no podemos rechazar \(H_0\) sobre la base este conjunto específico de observaciones, pero es posible que debamos repetir el estudio con muestras más grandes.

6.3.4 Tipos de error

Cuando tomamos la decisión de rechazar o aceptar la hipótesis nula hay dos errores que podemos cometer. Podemos rechazar \(H_0\) cuando \(H_0\) es correcta, o podemos aceptar \(H_0\), cuando es falsa. En el primer caso estamos hablando de un error de tipo I, también denominado error de tipo \(\alpha\) o falso positivo. En el segundo caso hablamos de un error de tipo II, error de tipo \(\beta\) (beta) o falso negativo.

6.3.5 Tests direccionales y no direccionales

En la sección 6.3.2 propusimos una hipótesis nula y su alternativa:

Ejemplo 6.1 (Hipótesis nula y una alternativa)

\(H_0: \mu_A=\mu_B\)

\(H_1: \mu_A\neq\mu_B\).

\(H_1\) se leería: «la media de A es desigual a la media de B». Este ejemplo 6.1 es de una predicción no direccional. Es decir que no hemos tomado una posición a priori sobre si esperamos que las diferencias que observemos sean positivos o negativos.

A veces tenemos razones bien fundadas en creer que las diferencias, si las observamos, van a darse en una dirección u otra. Si por ejemplo estamos midiendo la estaturas de muestras aleatorias de argentinas y argentinos podemos suponer de antemano que los hombres van a ser más altos que las mujeres ya que está comprobado que es así en otros países, hay razones biológicas etcétera. En ese caso podríamos formular una predicción direccional, lo cual significa que nuestra hipótesis alternativa es una sola y va en una dirección específica:

Ejemplo 6.2 (Hipótesis nula y una alternativa direccional)

\(H_0: \mu_M=\mu_F\)

\(H_1: \mu_M > \mu_F\).

La diferencia entre usar un test direccional o no direccional influye en los valores críticos de los diferentes tests. Si usamos un test direccional –y está justificado su uso, claro– disminuye el riesgo de cometer un error de tipo II. Está ilustrado en la figura 6.1: para un test no-direccional necesitamos un 2,5% en cada extremo de la curva para que sume 5%, en el test direccional «gastamos» todo el lado positivo.

Figura 6.1: Tests no direccionales y direccionales

Ejemplo 6.3 (¿cara o cruz?)
Para desarrollar un poco más el concepto de test de hipótesis vamos a imaginarnos que estamos jugando a cara o cruz. Si tiramos una moneda hay un 50 y 50 de que salga cruz o cara. Tiramos la moneda y sale cara. La tiramos dos veces y sale dos veces cara. Tres veces – tres caras… y seguimos perdiendo.

¿En qué momento empezamos a sospechar que la moneda tiene dos caras?

Aún sin conocimientos matemáticos o de la teoría de la probabilidad empieza a obrar nuestra intuición –basada en nuestra experiencia que por su naturaleza es empírica.

Podemos formalizar el problema de la siguiente manera:

\(H_0\): La moneda es honesta

\(H_1\): La moneda tiene dos caras.

Podemos también calcular las probabilidades de lo que está pasando. La probabilidad de que salga cara es 0,5 (50%) y de que salga cara dos veces es, por tanto, \(0,5\times0,5=0,25\). Podemos calcular las probabilidades de varios casos más:

3 caras: \(0,5\times0,5\times0,5=0,125\)

4 caras: \(0,5\times0,5\times0,\times0,55=0,0625\)

5 caras: \(0,5\times0,5\times0,\times0,55=0,03125\),

y vemos que si sale cara cinco veces de cinco ya podemos rechazar nuestra \(H_0\) con un nivel de significanza de 0,05 (\(p\leqslant0,05\)).

6.3.6 ¿Qué test usar?

En los capítulos que siguen vamos a desarrollar algunos tests de significanza estadística: el test de z, el test de t de Student, Mann-Whitney U, \(\chi^2\), Wilcoxon y sign-test. La elección de cuál de ellos usar en un caso específico dependerá de:

  1. Escala de medición de las variables
  2. Las características de su distribución
  3. Si las muestras son correlacionadas o no,

y los iremos detallando en cada caso.

6.3.7 Procedimiento

El diseño de una investigación cuantitativa se puede resumir en estos cuatro pasos:

  1. Formular hipotesis nula y alternativa(s)
  2. Decidir el nivel de significanza estadística
  3. Eligir un test estadístico a utilizarse
  4. Aplicar la estadística y decidir si rechazamos \(H_0\) o no.

6.4 Glosario

Error tipo I
El error de rechazar \(H_0\) cuando esta es correcta. Equivalente en inglés: «Type I error».
Error tipo II
El error de no rechazar \(H_0\) cuando esta es incorrecta. Equivalente en inglés: «Type II error».
Falsabilidad
El hecho de que sea posible refutar una hipótesis, por medio de métodos empíricos. Equivalente en inglés: «Falsifiability».
Hipotesis alternativa
Hipótesis a la que recurrimos si logramos refutar \(H_0\). Fórmula: \(H_1\) Equivalente en inglés: «Alternative hypothesis.».
Hipotesis núla
La hipótesis que plantea que el patrón que estamos buscando no existe. A través de un estudio empírico intentaremos refutar esta hipótesis. Fórmula: \(H_0\) Equivalente en inglés: «Null hypothesis (\(H_0\))».
Método científico
Metodología basada en la observación, medición y experimentación; y la formulación, análisis y modificación de hipótesis. Equivalente en inglés: «Scientific method».
Nivel de significanza
La probabilidad de rechazar \(H_0\) cuando esta es correcta. Fórmula: \(\alpha\) Equivalente en inglés: «Alpha-level».
Test direccional
Test estadístico en la que hypótesis alternativa de expresa en una dirección u otra. Equivalente en inglés: «Directional test».
Test no direccional
Test estadístico en la que hypótesis alternativa de expresa sin dirección especificar dirección. Equivalente en inglés: «Non-directional test».

  1. posiblemente por su cognado en ingles:«falsifiabilidy»↩︎