ESTADISTICA DESCRIPTIVA
Cálculo de las medidas de dispersión
El número de preguntas acertadas por 100 alumnos en
un test que constaba de 30 preguntas se presenta en la tabla siguiente.
Preguntas acertadas
|
|
[0,
5)
|
3
|
[5,
10)
|
10
|
[10,
15)
|
25
|
[15,
20)
|
38
|
[20,
25)
|
16
|
[25,
30)
|
8
|
Total
|
100
|
|
|
- 1. o
Ampliamos la tabla añadiendo las columnas que nos facilitarán el cálculo
de las medidas de dispersión.
xi
|
fi · xi
|
f i · x i 2
|
f i · | x i - x ¯ |
|
2,5
|
7,5
|
18,75
|
41,7
|
7,5
|
75
|
562,5
|
89
|
12,5
|
312,5
|
3.906,25
|
97,5
|
17,5
|
665
|
11.637,5
|
41,8
|
22,5
|
360
|
8.100
|
97,6
|
27,5
|
220
|
6.050
|
88,8
|
|
1.640
|
30.275
|
456,4
|
- 2. o
Calculamos las medidas de dispersión. Hallamos la media: x
¯ = 1.640 100 = 16 , 40 preguntas
- Rango: R
= máximo - mínimo = 30 - 0 = 30 preguntas.
- Desviación
media: D M = ∑ f i · | x i - x ¯ | N = 456 , 4 100 = 4 , 564 preguntas .
- Varianza:
σ 2 = ∑ f i · x i 2 N - x ¯ 2 = 30.275 100 - 16 , 4 2 = 33 , 79 preguntas
2 .
- Desviación
típica: σ = σ 2 = 33 , 79 = 5 , 81 preguntas .
Comparándola con el valor de la media, representa aproximadamente
la tercera parte y, por tanto, observamos que los datos no están demasiado
agrupados.
- Coeficiente
de variación: C V = σ x ¯ = 5 , 81 16 , 4 = 0 , 35 .
Esta cantidad se suele expresar en tanto por
ciento, en este caso el 35% de desviación, un porcentaje moderadamente elevado.
- 3. o
Interpretamos los datos obtenidos.
La conclusión es que los datos presentan una
agrupación relativamente pequeña respecto de las medidas centrales, como se
puede apreciar en el histograma. Esto significa que las medidas de
centralización no resumen claramente la información de la muestra.
Rango (estadística)
En estadística
descriptiva se denomina rango estadístico (R) o recorrido
estadístico al intervalo de menor tamaño que contiene a los datos; es igual a la diferencia entre el
valor máximo y el valor mínimo; por ello, comparte unidades con los
datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos
están los datos de un conjunto.
Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es
la estatura medida en centímetros, tendríamos:
Varianza
y desviación estándar
La desviación sólo significa qué tan lejos
de lo normal
Desviación estándar
La
desviación estándar (σ) mide cuánto se separan los datos. La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"
Varianza
la
varianza (que es el cuadrado de la desviación estándar: σ2)
se define así:
Es la media de las
diferencias con la media elevadas al cuadrado.
En
otras palabras, sigue estos pasos:1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)
Ejemplo
Tú y
tus amigos habéis medido las alturas de vuestros perros (en milímetros):Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviación estándar.
Respuesta:
Media =
|
600 +
470 + 170 + 430 + 300
|
=
|
1970
|
= 394
|
|
|
|||
5
|
5
|
Ahora calculamos la diferencia de cada altura con la media:
Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:
Varianza: ó2 =
|
2062
+ 762 + (-224)2 + 362 + (-94)2
|
=
|
108,520
|
= 21,704
|
|
|
|||
5
|
5
|
Y la desviación estándar es la raíz de la varianza, así que:
Desviación estándar: σ = √21,704 = 147
y lo bueno de la desviación estándar es que es útil: ahora veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media:
Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño.
Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... ¡pero que no se enteren!
*Nota: ¿por qué al cuadrado?
Elevar
cada diferencia al cuadrado hace que todos los números sean positivos (para
evitar que los números negativos reduzcan la varianza) Y también hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es mucho más grande que 502=2,500.
Pero elevarlas al cuadrado hace que la respuesta sea muy grande, así que lo deshacemos (con la raíz cuadrada) y así la desviación estándar es mucho más útil.
Medidas de posición
Las medidas
de posición dividen un conjunto de datos en grupos con el mismo
número de individuos. Para calcular las medidas
de posición es necesario que los datos estén ordenados de menor a mayor.La medidas de posición son:
Cuartiles:
Los cuartiles
son los tres valores
de la variable que dividen
a un conjunto
de datos ordenados
en cuatro partes iguales.
Q1, Q2 y Q3 determinan los
valores correspondientes al 25%,
al 50% y al 75% de los datos.
Q2
coincide con la mediana.
Cálculo
de los cuartiles
1 Ordenamos los datos de menor a mayor. 2. Buscamos el lugar que ocupa cada cuartil mediante la
expresión.
Número impar de datos
2, 5, 3, 6, 7, 4, 9
Número par de datos
2, 5, 3, 4, 6, 7, 1, 9
Cálculo
de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias acumuladas.
Li es el límite inferior de
la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada
anterior a la clase mediana.
ai es la amplitud de la
clase.
Ejercicio de cuartiles
Calcular los cuartiles de la distribución
de la tabla:
|
fi
|
Fi
|
[50,
60)
|
8
|
8
|
[60,
70)
|
10
|
18
|
[70,
80)
|
16
|
34
|
[80,
90)
|
14
|
48
|
[90,
100)
|
10
|
58
|
[100,
110)
|
5
|
63
|
[110,
120)
|
2
|
65
|
|
65
|
|
Cálculo del primer cuartil
Cálculo del segundo cuartil
Cálculo del tercer cuartil
Deciles
Los deciles
son los nueve valores
que dividen
la serie de datos
en diez partes iguales.
Los deciles
dan los valores correspondientes al 10%, al 20%.. D5 coincide con la mediana. Cálculo
de los deciles En primer lugar buscamos la clase donde se encuentra , en la tabla
de las frecuencias acumuladas.
Li es el límite inferior de
la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada
anterior a la clase mediana.
ai es la amplitud de la
clase.
Ejercicio de deciles
Calcular los deciles de la
distribución de la tabla:
|
fi
|
Fi
|
[50,
60)
|
8
|
8
|
[60,
70)
|
10
|
18
|
[70,
80)
|
16
|
34
|
[80,
90)
|
14
|
48
|
[90,
100)
|
10
|
58
|
[100,
110)
|
5
|
63
|
[110,
120)
|
2
|
65
|
|
65
|
|
Cálculo del primer decil
Cálculo del segundo decil
Cálculo del tercer decil
Cálculo del cuarto decil
Cálculo del quinto decil
Cálculo del sexto decil
Cálculo del séptimo decil
Cálculo del octavo decil
Cálculo del noveno decil
Percentiles
Los percentiles
son los 99 valores
que dividen
la serie de datos en
100 partes iguales.
Los percentiles
dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Cálculo
de los percentiles
En primer lugar buscamos la clase donde se encuentra , en la tabla
de las frecuencias acumuladas.
Li es el límite inferior de
la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada
anterior a la clase mediana.
ai es la amplitud de la
clase.
Ejercicio de percentiles
Calcular el percentil 35 y 60 de la
distribución de la tabla:
|
fi
|
Fi
|
[50,
60)
|
8
|
8
|
[60,
70)
|
10
|
18
|
[70,
80)
|
16
|
34
|
[80,
90)
|
14
|
48
|
[90,
100)
|
10
|
58
|
[100,
110)
|
5
|
63
|
[110,
120)
|
2
|
65
|
|
65
|
|
Percentil 35
Percentil 60
CURTOSIS
Esta
medida determina el grado de concentración que presentan los valores en la
región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica),
una concentración normal (Mesocúrtica)
ó una baja concentración (Platicúrtica).
Figura
5-2
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
Ecuacion 5-10
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, () la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:
- (g2 = 0) la distribución es Mesocúrtica: Al igual que en la
asimetría es bastante difícil encontrar un coeficiente de Curtosis
de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5
aprox.).
- (g2 > 0) la distribución es Leptocúrtica
- (g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.
Figura
5-3
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de los conceptos estadísticos.
Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). No necesariamente tienes que guiarte por estos libros ya que en las librerías encontraras una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta ciencia.
No hay comentarios:
Publicar un comentario