lunes, 27 de agosto de 2012

ESTADISTICA DESCRIPTIVA 91-92


Diagrama de Caja y Bigotes

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

http://www.estadisticaparatodos.es/i/subir2.gifConstrucción:

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente

Ejemplo distribución de edades
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas.
                                              36  25  37  24  39  20  36  45  31  31



                                              39  24  29  23  41  40  33  24  34  40
Ordenar los datos
Para calcular los parámetros estadístico, lo primero es ordenar la distribución
               20  23  24  24  24  25  29  31  31  33  34  36  36  37  39  39  40  40  41  45
Calculo de Cuartiles
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
Dibujar la Caja y los Bigotes

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
Información del diagrama
Podemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna:
  • La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.
  • El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores.
  • El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años.
Seguro que tú podrás obtener más información (¡Utiliza la mediana!)

http://www.estadisticaparatodos.es/i/subir2.gifComparar distribuciones

La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos.
Comparación distribución de edades
Análogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos diagramas, esta distribución con la del otro ejemplo de distribución de edades.
                                              35  38  32  28  30  29  27  19  48  40



                                              39  24  24  34  26  41  29  48  28  22

A partir de dicha comparación puede obtenerse bastante información de ambas distribuciones.
Comparación entrenamientos de un corredor
Un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100m, durante 10 días consecutivos (cada día se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo)





Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la diferencia intercuartílica.



RECOPILACION DE DATOS
Para el especialista, la información necesaria para toda investigación está constituida por datos. A fin de que un análisis estadístico resulte útil en la toma de decisiones, los datos deben ser apropiados. Hay, por lo menos, tres maneras de obtener datos: i) utilizar los datos publicados por fuentes gubernamentales, industriales o particulares; ii) a través de la experimentación; iii) realizando encuestas.
8.2.1 Tipos de datos
En una investigación estadística, se manejan diversas características, a las que se denomina variables. Los datos son los resultados que se observan para estas variables.
Básicamente existen dos tipos de variables, que producen dos tipos de datos: cualitativos  y  cuantitativos. Las primeras variables producen respuestas  categóricas, en tanto que las segundas producen respuestas numéricas. Por otra parte, los datos cuantitativos pueden ser discretos o continuos. Los datos cuantitativos discretos son respuestas numéricas que surgen de un proceso de conteo, mientras que los continuos son los que surgen de un proceso de medición.
Tipos de datos                            Tipos de preguntas                     Respuestas
Cualitativos                                  ¿Posee vivienda propia?           Sí ---  
                No ---
                           Discretos          ¿Cuántos baños posee?                   -------
Cuantitativos
                           Continuos          ¿Cuál es la superficie cubierta?     -------
8.2.2 Tipos de escalas de medición
Todos los datos son en última instancia resultado de un proceso de medición (hasta los datos discretos pueden considerarse resultado de una medición mediante conteo). Podemos distinguir cuatro niveles de medición: escala nominal, escala ordinal, escala de intervalo, escala de razón.
8.2.2.1 Escala nominal: corresponde a los datos cualitativos, cuando se clasifican en categorías que no implican orden. 
¿Es propietario de automóvil?                    Sí                        No
¿Cuál es su afiliación política?
8.2.2.2 Escala ordinal: cuando los datos cualitativos se clasifican en categorías distintas en las que existe algún orden.
Rango docente                                 Titular     Asociado    Adjunto     JTP   
Auxiliar
8.2.2.3 Escala de intervalo: es una escala ordenada en la cual la diferencia entre las mediciones es una cantidad que tiene significado preciso. Por ejemplo, si una persona mide 1,65 m, entonces tiene 5 cm más que otra que mide 1,70 m. Estos 5 cm representan la misma diferencia entre una persona que mide 1,82 m y otra que mide 1,77m.
8.2.2.4 Escala de razón: En este caso, además de que las diferencias son significativas e iguales en todos los puntos de la escala, existe un cero real, de modo que se pueden considerar cocientes de mediciones. Por ejemplo, una persona que mide 180 cm tiene el doble de altura de otra que mide 90 cm, mientras que una temperatura de  80ºC no significa precisamente el doble de otra de 40ºC.
Temperatura (en grados C)                                           de intervalo
Temperatura (en grados K)                                           de razón
Edad                                                                              de razón
Sueldo                                                                           de razón 
8.3  LOS DATOS EN BIOLOGÍA
Haremos ahora referencia a ciertos aspectos específicos de la Bioestadística, donde podremos encontrar algunas diferencias con los conceptos generales antes estudiados. Lo que sigue es, por lo tanto, la adaptación, según la mayoría de los autores, de los conceptos antes estudiados.
8.3.1 Muestras y poblaciones
La Estadística trabaja con datos. En bioestadística, los datos se basan en observaciones individuales, es decir en medidas tomadas de la mínima unidad de muestreo. La propiedad medida por las observaciones individuales es el  carácter o variable. En estadística se usa frecuentemente el término variable, pero en bioestadística es más común carácter. En cada unidad de muestreo puede medirse más de un carácter. Así en un grupo de 10 ratones podemos medir el pH de la sangre y el número de células rojas. De esta manera obtendríamos dos muestras de 10 observaciones o una única muestra bivariada de 10 observaciones.
La totalidad de observaciones individuales sobre las cuales se hacen inferencias se denomina población en Estadística, y a veces universo. Por ejemplo, las longitudes de la cola de todos los ratones blancos del mundo; los recuentos de leucocitos de  todos los varones chinos de 20 años, o puede referirse a resultados de experimentos,  como las

frecuencias de los latidos cardíacos producidos en ratone por inyecciones de adrenalina.
En los primeros ejemplos, la población es finita, aunque sería imposible analizar cada uno
de sus elementos. En el último ejemplo, al menos en teoría, podríamos repetir el experimento un número ilimitado de veces.
Aunque la mayoría de las veces las poblaciones son finitas, son tan superiores a las muestras extraídas de ellas que de hecho pueden ser consideradas infinitas.
8.3.2 Variables
Variable es una propiedad con respecto a la cual los individuos de una muestra difieren de algún modo verificable. Las variables biológicas pueden dividirse en: 
  Variables medibles
   Variables continuas
   Variables discontinuas
 Variables clasificables en rangos
  Atributos
8.3.2.1 Variables medibles: son aquellas cuyos diferentes valores pueden expresar de forma numéricamente ordenada. Pueden ser continuas: las que al menos en teoría pueden tomar infinitos valores entre dos determinados, o discontinuas -también llamadas discretas o merísticas-: son las que tienen valores numéricos fijos, sin posibles valores intermedios. En el primer caso, tenemos por ejemplo, longitudes, áreas,  pesos, temperaturas, períodos de tiempo, velocidades. En el segundo, el número de crías, el número de colonias de microorganismos, el número de plantas en un cuadrado determinado.
8.3.2.2 Variables clasificables por rangos: son las que no pueden medirse, pero si pueden ordenarse por su magnitud. 
8.3.2.3 Atributos: son las variables que no pueden expresarse cuantitativamente sino cualitativamente. Son propiedades como grávida e ingrávida, muerto o vivo, macho o hembra. 
8.3.3 Observación sobre las variables continúas
La mayoría de las variables continuas son aproximadas. El valor exacto de la medida individual es desconocido. Por ejemplo, al decir que una medida es de 12,4 mm  queremos dar a entender que la verdadera longitud está comprendida entre 12,35 mm y 12,45 mm. Si hubiésemos podido obtener una medida de 12,43 mm, esto significaría quela verdadera medida está entre 12,435 mm y 12,435 mm. En general, la última cifra de un número aproximado debería ser siempre significativa: debería implicar que la verdadera medida está en un intervalo desde media unidad del último orden por debajo hasta media unidad por encima de la medida registrada. Esto se aplica también al cero.  

No hay comentarios:

Publicar un comentario