sábado, 2 de septiembre de 2017

Determinación de la normalidad: cuatro aproximaciones.

Introducción


Durante los años 2014, 2015 y 2016 se consumió en la República de Guatemala una gran cantidad de gasolina regular. Los datos mensuales de estos tres años se tabulan en la siguiente tabla:


Tabla 1. Consumo de Productos derivados del petroleo.

Se procederá a determinar la normalidad de esta serie de datos mediante cuatro métodos: dos visuales (campana de Gauss y Q-Q Plot) y dos analíticos (prueba de Shapiro-Wilk y la prueba de Smirnov-Kolmogorov).


Campana de Gauss


Para determinar la normalidad de la serie de datos de la tabla 1, se procede a estandarizar los mismos utilizando la definición de la variable estandar Z:
Los datos estandarizados se plotean utilizando un plano cartesiano con un eje horizontal donde se establece la variable estándar Z y en el eje vertical se encuentra la densidad de probabilidad. Se puede observar que la serie estandarizada se ajusta a la campana de Gauss y puede inferirse por este método grafico que esta serie es normal. Naturalmente el área bajo esta curva o campana de Gauss entre dos valores de Z es la probabilidad para un evento de esta variable aleatoria.


Prueba de Shapiro-Wilk



Se determinará la normalidad utilizando un método analítico llamado la prueba de Shapiro-Wilk.

Como primer paso, se plantea la hipótesis nula y la hipótesis alterna

Realizando la prueba de Shapiro Wilk, a una significancia del 5%, se obtiene el valor "p" de la variable "barriles de gasolina regular"

p= 0.0050.

Para esta prueba se determina

0.0050 < 0.05

y por lo tanto se rechaza la hipótesis nula. Según la prueba de Shapiro-Wilk, los datos del consumo de gasolina regular durante los años 2014, 2015 y 2016 no están normalmente distribuidos.


Q-Q Plot


Ahora se procede a realizar otra prueba (visual) de normalidad y se utiliza un grafico llamada "Q-Q Plot". La particularidad de este grafico es que en el eje horizontal están los datos estandarizados de la variable "barriles de gasolina regular", es decir, sus valores asociados de Z; y en el eje vertical están los datos originales de la misma variable. En otras palabras se plotean los datos estandarizados vs. los datos originales. Para que la serie de datos (puntos azules) sea normal debe estar lo más cerca de la recta de color rojo. Se observa que para esta recta su coeficiente de determinación es 0.9387, es decir, que bajo el punto de vista de este parámetro la serie de datos puede considerarse normal por tener dicho coeficiente cerca del número uno.




Prueba de Kolmogorov-Smirnov



Se determinará la si la serie de datos "gasolina_regular" está distribuida normalmente utilizando la prueba de Kolmogorov-Smirnov. Se plantea la hipótesis nula y la hipótesis alterna:
El resultado de la prueba es un valor para p

p= 0.3580,

comparando este resultado con el nivel de significancia 0.05

0.3580  > 0.05

se acepta la hipótesis nula. La serie de datos si está distribuida normalmente.

Conclusiones


Se tienen las siguientes conclusiones:

1. Para la prueba de la campana de Gauss: los datos estandarizados muestran un ajuste a la campana.

2. Para la prueba de Shapiro-Wilk: utilizando esta prueba no paramétrica, es decir que no necesita de parámetros como el promedio o la varianza, determina que la función empírica y la función de distribución acumulada tiene un alto error entre sí.


No hay comentarios.:

Publicar un comentario