lunes, 27 de agosto de 2012

ESTADISTICA DESCRIPTIVA 91-92


ESTADISTICA DESCRIPTIVA
Cálculo de las medidas de dispersión
El número de preguntas acertadas por 100 alumnos en un test que constaba de 30 preguntas se presenta en la tabla siguiente.

Preguntas acertadas
Histogramafi
[0, 5)
3
[5, 10)
10
[10, 15)
25
[15, 20)
38
[20, 25)
16
[25, 30)
8
Total
100



  1. 1. o Ampliamos la tabla añadiendo las columnas que nos facilitarán el cálculo de las medidas de dispersión.
xi
fi · xi
f i · x i 2
f i · | x i - x ¯ |
2,5
7,5
18,75
41,7
7,5
75
562,5
89
12,5
312,5
3.906,25
97,5
17,5
665
11.637,5
41,8
22,5
360
8.100
97,6
27,5
220
6.050
88,8

1.640
30.275
456,4
  1. 2. o Calculamos las medidas de dispersión. Hallamos la media:                                                                             x ¯ = 1.640 100 = 16 , 40 preguntas
    • Rango: R = máximo - mínimo = 30 - 0 = 30 preguntas.
    • Desviación media: D M = ∑ f i · | x i - x ¯ | N = 456 , 4 100 = 4 , 564 preguntas .
    • Varianza: σ 2 = ∑ f i · x i 2 N - x ¯ 2 = 30.275 100 - 16 , 4 2 = 33 , 79 preguntas 2 .
    • Desviación típica: σ = σ 2 = 33 , 79 = 5 , 81 preguntas .
Comparándola con el valor de la media, representa aproximadamente la tercera parte y, por tanto, observamos que los datos no están demasiado agrupados.
    • Coeficiente de variación: C V = σ x ¯ = 5 , 81 16 , 4 = 0 , 35 .
Esta cantidad se suele expresar en tanto por ciento, en este caso el 35% de desviación, un porcentaje moderadamente elevado.
  1. 3. o Interpretamos los datos obtenidos.
La conclusión es que los datos presentan una agrupación relativamente pequeña respecto de las medidas centrales, como se puede apreciar en el histograma. Esto significa que las medidas de centralización no resumen claramente la información de la muestra.

Rango (estadística)

En estadística descriptiva se denomina rango estadístico (R) o recorrido estadístico al intervalo de menor tamaño que contiene a los datos; es igual a la diferencia entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.

Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es la estatura medida en centímetros, tendríamos:
x_1=185, x_2=165, x_3=170, x_4=182, x_5=155
x_{(1)}=155, x_{(2)}=165, x_{(3)}=170, x_{(4)}=182, x_{(5)}=185
Donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
R=x_{(k)}-x_{(1)}

Varianza y desviación estándar

La desviación sólo significa qué tan lejos de lo normal

Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos.
La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"

Varianza

la varianza (que es el cuadrado de la desviación estándar: σ2) se define así:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (
¿Por qué al cuadrado?)

Ejemplo

Tú y tus amigos habéis medido las alturas de vuestros perros (en milímetros):
http://www.disfrutalasmatematicas.com/datos/images/statistics-dogs-graph.gif
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviación estándar.

Respuesta:

Media =  
600 + 470 + 170 + 430 + 300
  =  
1970
  = 394
http://www.disfrutalasmatematicas.com/images/b.gif
http://www.disfrutalasmatematicas.com/images/b.gif
5
5
Así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:
http://www.disfrutalasmatematicas.com/datos/images/statistics-dogs-mean.gif
Ahora calculamos la diferencia de cada altura con la media:
http://www.disfrutalasmatematicas.com/datos/images/statistics-dogs-deviation.gif
Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:
Varianza: ó2 =  
2062 + 762 + (-224)2 + 362 + (-94)2
  =  
108,520
  = 21,704
http://www.disfrutalasmatematicas.com/images/b.gif
http://www.disfrutalasmatematicas.com/images/b.gif
5
5
Así que la varianza es 21,704.
Y la desviación estándar es la raíz de la varianza, así que:
Desviación estándar: σ = √21,704 = 147
y lo bueno de la desviación estándar es que es útil: ahora veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media:
http://www.disfrutalasmatematicas.com/datos/images/statistics-standard-deviation.gif
Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño.
Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... ¡pero que no se enteren!

*Nota: ¿por qué al cuadrado?

Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza)
Y también hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es mucho más grande que 502=2,500.
Pero elevarlas al cuadrado hace que la respuesta sea muy grande, así que lo deshacemos (con la raíz cuadrada) y así la desviación estándar es mucho más útil.



Medidas de posición

Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de individuos. Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.La medidas de posición son:

Cuartiles: Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

Cálculo de los cuartiles

1 Ordenamos los datos de menor a mayor.    2. Buscamos el lugar que ocupa cada cuartil mediante la expresiónCálculo de los cuartiles.

Número impar de datos

2, 5, 3, 6, 7, 4, 9
cuartiles

Número par de datos

2, 5, 3, 4, 6, 7, 1, 9
cuartiles

 

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentraCálculo de los cuartiles, en la tabla de las frecuencias acumuladas.
fórmula de los cuartiles
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.                                                                                                                                        Ejercicio de cuartiles
Calcular los cuartiles de la distribución de la tabla:

fi
Fi
[50, 60)
8
8
[60, 70)
10
18
[70, 80)
16
34
[80, 90)
14
48
[90, 100)
10
58
[100, 110)
5
63
[110, 120)
2
65

65

Cálculo del primer cuartil


primer cuartil
cuartiles

Cálculo del segundo cuartil


cuartiles
cuartiles

Cálculo del tercer cuartil


cuartiles
cuartiles

 



Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%.. D5 coincide con la mediana. Cálculo de los deciles En primer lugar buscamos la clase donde se encuentra Cálculo de los cuartiles, en la tabla de las frecuencias acumuladas.
fórmula de los cuartiles
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de deciles
Calcular los deciles de la distribución de la tabla:

fi
Fi
[50, 60)
8
8
[60, 70)
10
18
[70, 80)
16
34
[80, 90)
14
48
[90, 100)
10
58
[100, 110)
5
63
[110, 120)
2
65

65

Cálculo del primer decil




Cálculo del segundo decil


deciles
deciles

Cálculo del tercer decil


deciles
deciles

Cálculo del cuarto decil


deciles
deciles

Cálculo del quinto decil


deciles
deciles

Cálculo del sexto decil


deciles
deciles

Cálculo del séptimo decil


deciles
deciles

Cálculo del octavo decil


deciles
deciles

Cálculo del noveno decil


deciles
deciles

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.

Cálculo de los percentiles

En primer lugar buscamos la clase donde se encuentra Cálculo de los cuartiles, en la tabla de las frecuencias acumuladas.
fórmula de los cuartiles
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.

Ejercicio de percentiles

Calcular el percentil 35 y 60 de la distribución de la tabla:

fi
Fi
[50, 60)
8
8
[60, 70)
10
18
[70, 80)
16
34
[80, 90)
14
48
[90, 100)
10
58
[100, 110)
5
63
[110, 120)
2
65

65

Percentil 35


percentiles
percentiles

Percentil 60


percentiles
percentiles


CURTOSIS

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

Estados de la Curtosis - Medidas de Distribucion
Figura 5-2
 
Para calcular el coeficiente de Curtosis se utiliza la ecuación:

Ecuacion de la Curtosis Corregida para SPSS (-3) - Medidas de Distribucion
Ecuacion 5-10
 
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, (http://www.spssfree.com/spss/curso/5-C2-1.gif) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:

  • (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil  encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).
  • (g2 > 0) la distribución es Leptocúrtica
  • (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.

http://www.spssfree.com/spss/curso/5-21.gif
Figura 5-3

Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de los conceptos estadísticos.

Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). No necesariamente tienes que guiarte por estos libros ya que en las librerías encontraras una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta ciencia.


No hay comentarios:

Publicar un comentario