Diagrama de Caja y
Bigotes
Los
diagramas de Caja-Bigotes (boxplots o box and whiskers) son una
presentación visual que describe varias características importantes, al mismo
tiempo, tales como la dispersión y simetría.Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Construcción:
Una
gráfica de este tipo consiste en una caja
rectangular, donde los lados más largos muestran el recorrido intercuartílico.
Este rectángulo está dividido por un segmento vertical que indica donde se
posiciona la mediana y por lo tanto su relación con los cuartiles primero y
tercero(recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
Ejemplo distribución
de edades
Utilizamos
la ya usada distribución de frecuencias (en tallos y hojas), que representan la
edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Ordenar los datosPara calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Calculo de Cuartiles
Q1, el cuartil
Primero es el valor mayor que el 25% de los valores de la distribución. Como N
= 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho
valor y el siguiente:
Q1=(24
+ 25) / 2 = 24,5
Q2, el Segundo
Cuartil es, evidentemente, la mediana de la distribución, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2
=10 ; la mediana es la media aritmética de dicho valor y el siguiente:
me=
Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer
Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15, resulta
Q2=(39
+ 39) / 2 = 39
Dibujar la Caja y los
Bigotes
El bigote de la izquierda
representa al colectivo de edades (
Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
Información del
diagrama
Podemos
obtener abundante información de una distribución a partir de estas
representaciones. Veamos alguna:
- La parte izquierda de la
caja es mayor que la de la derecha; ello quiere decir que las edades
comprendidas entre el 25% y el 50% de la población está más dispersa que
entre el 50% y el 75%.
- El bigote de la izquierda
(Xmím, Q1) es más corto que el de la derecha; por ello el 25%
de los más jóvenes están más concentrados que el 25% de los mayores.
- El rango intercuartílico = Q3
- Q1 = 14,5; es decir, el 50% de la población está comprendido
en 14,5 años.
Comparar
distribuciones
La
mayor utilidad de los diagramas caja-bigotes es para comparar dos o más
conjuntos de datos.- Comparación distribución de edades
- Comparación entrenamientos de un
corredor
- Comparación clasificación liga
Comparación
distribución de edades
Análogamente
a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos
diagramas, esta distribución con la del otro
ejemplo de distribución de edades. 35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
A
partir de dicha comparación puede obtenerse bastante información de ambas
distribuciones.
Comparación
entrenamientos de un corredor
Un
corredor entrena para una determinada carrera y se toman los tiempos que
necesita para recorrer los 100m, durante 10 días consecutivos (cada día se
toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo)Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la diferencia intercuartílica.
RECOPILACION DE DATOS
Para el especialista, la información
necesaria para toda investigación está constituida por datos. A fin de que un
análisis estadístico resulte útil en la toma de decisiones, los datos deben ser
apropiados. Hay, por lo menos, tres maneras de obtener datos: i) utilizar los
datos publicados por fuentes gubernamentales, industriales o particulares; ii)
a través de la experimentación; iii) realizando encuestas.
8.2.1 Tipos de datos
En una investigación estadística, se
manejan diversas características, a las que se denomina variables. Los datos
son los resultados que se observan para estas variables.
Básicamente existen dos tipos de variables,
que producen dos tipos de datos: cualitativos
y cuantitativos. Las primeras
variables producen respuestas categóricas,
en tanto que las segundas producen respuestas numéricas. Por otra parte, los
datos cuantitativos pueden ser discretos o continuos. Los datos cuantitativos
discretos son respuestas numéricas que surgen de un proceso de conteo, mientras
que los continuos son los que surgen de un proceso de medición.
Tipos de datos Tipos de
preguntas Respuestas
Cualitativos ¿Posee
vivienda propia? Sí ---
No ---
Discretos ¿Cuántos baños posee? -------
Cuantitativos
Continuos ¿Cuál es la superficie cubierta? -------
8.2.2 Tipos de escalas de medición
Todos los datos son en última instancia
resultado de un proceso de medición (hasta los datos discretos pueden
considerarse resultado de una medición mediante conteo). Podemos distinguir
cuatro niveles de medición: escala nominal, escala ordinal, escala de
intervalo, escala de razón.
8.2.2.1 Escala nominal: corresponde a los
datos cualitativos, cuando se clasifican en categorías que no implican
orden.
¿Es propietario de automóvil? Sí No
¿Cuál es su afiliación política?
8.2.2.2 Escala ordinal: cuando los datos
cualitativos se clasifican en categorías distintas en las que existe algún
orden.
Rango docente Titular Asociado
Adjunto JTP
Auxiliar
8.2.2.3 Escala de intervalo: es una escala
ordenada en la cual la diferencia entre las mediciones es una cantidad que
tiene significado preciso. Por ejemplo, si una persona mide 1,65 m, entonces
tiene 5 cm más que otra que mide 1,70 m. Estos 5 cm representan la misma
diferencia entre una persona que mide 1,82 m y otra que mide 1,77m.
8.2.2.4 Escala de razón: En este caso,
además de que las diferencias son significativas e iguales en todos los puntos
de la escala, existe un cero real, de modo que se pueden considerar cocientes
de mediciones. Por ejemplo, una persona que mide 180 cm tiene el doble de
altura de otra que mide 90 cm, mientras que una temperatura de 80ºC no significa precisamente el doble de
otra de 40ºC.
Temperatura (en grados C) de
intervalo
Temperatura (en grados K) de
razón
Edad
de razón
Sueldo
de razón
8.3 LOS
DATOS EN BIOLOGÍA
Haremos ahora referencia a ciertos aspectos
específicos de la Bioestadística, donde podremos encontrar algunas diferencias
con los conceptos generales antes estudiados. Lo que sigue es, por lo tanto, la
adaptación, según la mayoría de los autores, de los conceptos antes estudiados.
8.3.1 Muestras y poblaciones
La Estadística trabaja con datos. En
bioestadística, los datos se basan en observaciones individuales, es decir en
medidas tomadas de la mínima unidad de muestreo. La propiedad medida por las
observaciones individuales es el
carácter o variable. En estadística se usa frecuentemente el término
variable, pero en bioestadística es más común carácter. En cada unidad de
muestreo puede medirse más de un carácter. Así en un grupo de 10 ratones
podemos medir el pH de la sangre y el número de células rojas. De esta manera
obtendríamos dos muestras de 10 observaciones o una única muestra bivariada de
10 observaciones.
La totalidad de observaciones individuales
sobre las cuales se hacen inferencias se denomina población en Estadística, y a
veces universo. Por ejemplo, las longitudes de la cola de todos los ratones
blancos del mundo; los recuentos de leucocitos de todos los varones chinos de 20 años, o puede
referirse a resultados de experimentos,
como las
frecuencias de los latidos cardíacos producidos en ratone por inyecciones de adrenalina.
frecuencias de los latidos cardíacos producidos en ratone por inyecciones de adrenalina.
En los primeros ejemplos, la población es
finita, aunque sería imposible analizar cada uno
de sus elementos. En el último ejemplo, al
menos en teoría, podríamos repetir el experimento un número ilimitado de veces.
Aunque la mayoría de las veces las
poblaciones son finitas, son tan superiores a las muestras extraídas de ellas
que de hecho pueden ser consideradas infinitas.
8.3.2 Variables
Variable es una propiedad con respecto a la
cual los individuos de una muestra difieren de algún modo verificable. Las
variables biológicas pueden dividirse en:
Variables medibles
Variables continuas
Variables discontinuas
Variables clasificables en rangos
Atributos
8.3.2.1 Variables medibles: son aquellas
cuyos diferentes valores pueden expresar de forma numéricamente ordenada.
Pueden ser continuas: las que al menos en teoría pueden tomar infinitos valores
entre dos determinados, o discontinuas -también llamadas discretas o
merísticas-: son las que tienen valores numéricos fijos, sin posibles valores
intermedios. En el primer caso, tenemos por ejemplo, longitudes, áreas, pesos, temperaturas, períodos de tiempo,
velocidades. En el segundo, el número de crías, el número de colonias de
microorganismos, el número de plantas en un cuadrado determinado.
8.3.2.2 Variables clasificables por rangos:
son las que no pueden medirse, pero si pueden ordenarse por su magnitud.
8.3.2.3 Atributos: son las variables que no
pueden expresarse cuantitativamente sino cualitativamente. Son propiedades como
grávida e ingrávida, muerto o vivo, macho o hembra.
8.3.3 Observación sobre las variables
continúas
La mayoría de las variables continuas son
aproximadas. El valor exacto de la medida individual es desconocido. Por
ejemplo, al decir que una medida es de 12,4 mm
queremos dar a entender que la verdadera longitud está comprendida entre
12,35 mm y 12,45 mm. Si hubiésemos podido obtener una medida de 12,43 mm, esto
significaría quela verdadera medida está entre 12,435 mm y 12,435 mm. En
general, la última cifra de un número aproximado debería ser siempre
significativa: debería implicar que la verdadera medida está en un intervalo
desde media unidad del último orden por debajo hasta media unidad por encima de
la medida registrada. Esto se aplica también al cero.
No hay comentarios:
Publicar un comentario