domingo, 26 de agosto de 2012

Estadistica Descriptiva 1.3.3 - 1.5.2


1.3.3 Aplicación de los métodos de tabulación: simple y cruzada.

Tabulación cruzada

La tabulación cruzada es el proceso de creación de una tabla de contingencia desde la distribución de frecuencias multivariada de las variables estadísticas. Muy utilizada en la investigación de encuestas, la tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por una sería de paquetes estadísticos, entre ellos algunos que se especializan en la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. Las tablas sin ponderar se pueden producir fácilmente por algunas hojas de cálculo y otras herramientas de inteligencia empresarial, conocidas comúnmente como tablas pivote (también conocidas como tablas dinámicas).

Definición y ejemplo

Definición:
Una pantalla de la matriz de las categorías de dos variables de escala nominal, que contiene recuentos de frecuencia del número de sujetos en cada categoría bivariada se llama tabla de tabulación cruzada o tabla de contingencia. En la tabla siguiente se muestran los géneros y el uso de las manos de una muestra poblacional de 12 individuos:
Muestra #
Género
Uso de las manos
1
Mujer
Diestra/o
2
Varón
Zurda/o
3
Varón
Diestra/o
4
Mujer
Diestra/o
5
Mujer
Diestra/o
6
Varón
Diestra/o
7
Varón
Zurda/o
8
Varón
Diestra/o
9
Mujer
Diestra/o
10
Mujer
Zurda/o
11
Varón
Diestra/o
12
Mujer
Diestra/o
La tabulación cruzada conduce hacia la siguiente tabla de contingencia:

Diestra/o
Zurda/o
Total
Mujeres
5
1
6
Varones
4
2
6
Total
9
3
12

1.4.1 Elaboración de tablas y cuadros para la presentación de resultados estadísticos.
A partir de este momento nos vamos a ocupar de las estadísticas de una sola variable, "Estadísticas Unidimensionales".
Las tablas estadísticas según el número de observaciones y según el recorrido de la variable estadística, así tenemos los siguientes tipos de tablas estadísticas:
Tablas tipo I:
Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45
Tablas tipo II:
Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:
Personas Activas en 50 familias
2
1
2
2
1
2
4
2
1
1
2
3
2
1
1
1
3
4
2
2
2
2
1
2
1
1
1
3
2
2
3
2
3
1
2
4
2
1
4
1
1
3
4
3
2
2
2
1
3
3
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
Personas Activas
Número de Familias
1
16
2
20
3
9
4
5
Total
50

Tablas tipo III:
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:

450
1152
250
300
175
80
25
2680
605
785
1595
2300
5000
1200
100
5
180
200
675
500
375
1500
205
985
185
125
315
425
560
1100

Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 pesetas, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos queremos?. Normalmente se suele trabajar con no más de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
Tomar pocos intervalos implica que la "pérdida de información" sea mayor.
Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li )
Frecuencia
[ 0,500)
16
[ 500, 1000)
6
[ 1000,1500)
3
[ 1500, 2000)
2
[ 2000, 2500)
1
[ 2500, 3000)
1
[ 3000, 3500)
0
[ 3500, 4000)
0
[ 4000, 4500)
0
[ 4500, 5000)
0
[ 5000,5500)
1









1.4.2 Elaboración de gráficas: circular, barras, burbuja, columnas, lineales, xy, entre otras.

¿Quién no ha utilizado un gráfico de barras para apoyar una presentación o para estudiar como han ido las ventas del último trimestre?. Todos parecemos ser muy familiares con este tipo de gráfico. Sin embargo no siempre conocemos todas sus posibilidades ni sus limitaciones.
¿Qué es?
Barras.gif (12884 bytes)
Columnas.gif (13778 bytes)
Gráfico de Barras
Grafico de columnas
Denominados genéricamente "Gráficos de Barras"
Un gráfico de barras es aquella representación gráfica bidimensional en que los objetos gráficos elementales son un conjunto de rectángulos dispuestos paralelamente de manera que la extensión de los mismos es proporcional a la magnitud que se quiere representar.
Los rectángulos o barras pueden estar colocados horizontal o verticalmente. En éste último caso reciben también el nombre de gráficos de columnas.
En lo siguiente hablaremos indistintamente de ellos como "gráficos de barras"
Utilización.
Típicamente se utilizan para
·        comparar magnitudes entre varias categorías o
·        la evolución en el tiempo (el cambio) de una determinada magnitud.
·        la comparación de la evolución en el tiempo de varias categorías, esto es, se suelen usar también para la mezcla de las dos utilidades anteriores.
Tipos de Datos
Como sabemos hay tres tipos de datos
  • Categóricos, también llamados Nominales (pájaros, mamíferos, altos, bajos, verdes o azules)
  • Ordinales o Secuenciales (el abecedario, los meses del año)
  • Cuantitativos o Numéricos (cualquier cosa que se pueda representar con números)
Las variables de datos principalmente usadas en los gráficos de barras son las de tipo categórico y las ordinales (especialmente las temporales).
Este tipo de representación no es muy apropiada para representar datos cuya variable sea cuantitativa.
Componentes
Un gráfico de barras consta al menos de:
Componentes de un gráfico de barras o columnas
EjeCuantiFuerte.gif (16034 bytes)
EjeCategFuerte.gif (17844 bytes)
RectangulosBl.gif (13822 bytes)
Eje cuantitativo
Un eje cuantitativo con una escala lineal que sirve de referencia a la magnitud de la variable en cuestión. En un gráfico de columnas éste es el eje de ordenadas [Y] y en uno de barras es el eje de abscisas [X]). Este eje puede contener valores negativos
Eje categórico u Ordinal
Un eje categórico u ordinal en el que se disponen las categorías o los elementos de la secuencia (el eje de abscisas [X] en un gráfico de columnas o el de ordenadas [Y] en un gráfico de barras). Este eje es perpendicular al cuantitativo.
Conjunto de rectángulos
Un conjunto de rectángulos cuya extensión paralela al eje cuantitativo es proporcional a la magnitud de la categoría o secuencia representada en el eje
Tipos principales de gráficos de barras.
Existen muchos tipos y variantes de los mismos, discutiremos aqui algunos de los más relevantes.
  • Sencillo
    Contiene solamente una serie de datos (por ejemplo, las ventas en distintos meses en un mismo país)
  • Agrupados
    Contiene varias series de datos, por ejemplo las ventas mensuales en varios países. En este caso el eje secuencial contendría los meses y el cuantitativo la cifra de ventas. Cada serie de datos se representa mediante un conjunto de rectángulos que comparten color o textura.

    En cada categoría o secuencia los rectángulos suelen estar juntos, formando un grupo, mientras que entre grupos se deja un espacio. Así en el ejemplo de las ventas, los resultados obtenidos por Francia, Inglaterra e Italia en el mes de noviembre se representarían como tres rectángulos de alturas proporcionales a su valor colocados lado a lado en el espacio dejado en el eje secuencial para el mes de noviembre.
    • Solapado.
      Es un gráfico de barras agrupado en el que los elementos de un grupo en vez de yacer adosados se solapan parcialmente. Si el solapamiento es del 100% pueden fácilmente confundirse con los gráficos de barras apilados.
Sencillo.gif (9588 bytes)
Agrupado.gif (14012 bytes)
Solapado.gif (14554 bytes)
Sencillo
Agrupado
Solapado
  • Apilados
    También llamado segmentado o extendido, es similar al agrupado pero cada uno de los segmentos en que está dividida la barra pertenece a una serie de datos diferente. Muestra de qué forma una entidad total está subdividida en partes. Si el eje no cuantitativo es temporal permite mostrar cómo cambian estas proporciones con el tiempo. Por ejemplo se puede hacer un gráfico apilado con las ventas mensuales de cada país, una encima de otra, de forma que la altura de la barra representa las ventas totales y las proporciones de los segmentos dan idea de su participación en el todo.*
    • Enlazado o conectado
      Si se añaden líneas que enlazan los lugares donde se cambia de segmento se llama apilado enlazado o conectado.
    • Cien por cien.
      Es un grafico apilado en el que la altura del total cubre todo el eje cuantitativo de forma que lo que muestran los segmentos es el porcentaje con que contribuyen al total, que representa el 100%.
Apilado.gif (12481 bytes)
Enlazado.gif (14548 bytes)
Apilado100.gif (15684 bytes)
Apilado
Apilado Enlazado
Apilado Cien por cien
  • Flotantes, bi-direccionales o aparejados.
    En este caso la línea de valor cero actúa como separador de dos gráficos de barra que comparten el 0 como línea de base pero en el que cada uno muestra su barra en dirección contraria. Un caso típico son los gráficos de la pirámide demográfica, en el que hacia la derecha del 0 se representa la cantidad de personas de un sexo supervivientes a una edad determinada y hacia la izquierda el equivalente del sexo opuesto.
  • Pictóricos.
    Se denominan así cuando las barras están constituidas por la repetición de una serie de símbolos que típicamente representan la naturaleza de los datos. Por ejemplo una serie de motocicletas o coches uno detrás de otro para representar las ventas comparativas de motos y coches. Los símbolos pueden ser todos del mismo tamaño o estar distorsionados para ajustarse a la longitud requerida de la barra.
  • de Rangos
    En este tipo de gráficos la extensión máxima y mínima de las barras indica los rangos superior e inferior de validez de los datos considerados. En ocasiones se designan valores internos al rango, aparte del máximo y el mínimo, con una línea que cruza la barra, que puede corresponder a conceptos estadísticos como la media, la mediana o la moda.
Bidireccional.gif (13118 bytes)
Pictorico.gif (16485 bytes)
Rangos.gif (11216 bytes)
Aparejados o bidireccionales
Pictóricos
de Rangos
Existen muchas variaciones y combinaciones de los tipos anteriores en las que no tenemos espacio para entrar. En el próximo artículo revisaremos las mejores prácticas para construir adecuadamente este tipo de gráficos.
Grafica sectorial o circular:
Para este gráfico, debes tener los datos en % y luego hallar los grados que corresponden a cada uno.


Si tienes que pasarlos a %, haces como en este ejemplo
De $ 500 se gastan
$150 diversión
(150*100)/500= 30%
$100 estudios
(100*100)/500= 20%
$250 comida
(250*100)/500= 50%
-en grados (para graficarlos), utilizas regla de tres:
100%
360º
30%
x, x= (360*30)/100, x= 108º

100%
x
20%
x, x= (360*20)/100, x= 72º

100%
x
50%
x, x=(360*50)/100, x = 180ª
-ahora graficas en el círculo los 3 ángulos (sectores) con su correspondiente denominación y %:




Diversión 30%
Estudios 20%
Comida 50%






1.4.3 Elaboración de diagramas: tallo y hoja, pareto y árbol de problemas.

Diagrama de árbol

Un diagrama de árbol es una herramienta que se utiliza para determinar todos los posibles resultados de un experimento aleatorio. En el cálculo de la probabilidad se requiere conocer el número de objetos que forman parte del espacio muestral, estos se pueden determinar con la construcción de un diagrama de árbol.
El diagrama de árbol es una representación gráfica de los posibles resultados del experimento, el cual consta una serie de pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo. Se utiliza en los problemas de conteo y probabilidad.
Para la construcción de un diagrama en árbol se partirá poniendo una rama para cada una de las posibilidades, acompañada de su probabilidad. Cada una de esta ramas se conoce como rama de primera generación.
En el final de cada rama de primera generación se constituye a su vez, un nudo del cual parten nuevas ramas conocidas como ramas de segunda generación, según las posibilidades del siguiente paso, salvo si el nudo representa un posible final del experimento (nudo final).
Hay que tener en cuenta que la construcción de un árbol no depende de tener el mismo número de ramas de segunda generación que salen de cada rama de primera generación y que la suma de probabilidades de las ramas de cada nudo ha de dar 1.
Existe un principio sencillo de los diagramas de árbol que hace que éstos sean mucho más útiles para los cálculos rápidos de probabilidad: multiplicamos las probabilidades si se trata de ramas adyacentes (contiguas), el ejemplo de alumna de la primera facultad, o bien las sumamos si se trata de ramas separadas que emergen de un mismo punto, el ejemplo de encontrar un alumno.
Ejemplos
Una universidad está formada por tres facultades:
·        La 1ª con el 50% de estudiantes.
·        La 2ª con el 25% de estudiantes.
·        La 3ª con el 25% de estudiantes.
Las mujeres están repartidas uniformemente, siendo un 60% del total en cada facultad.
Árbol con el planteamiento del problema.
¿Probabilidad de encontrar una alumna de la primera facultad?
Árbol con la probabilidad de encontrar una mujer en la primera facultad.

P(alumna \ de \ la \ 1^a \ facultad) = 0,5 \cdot 0,6 = 0,3


¿Probabilidad de encontrar un alumno varón?

Árbol con la probabilidad de encontrar un varón en la universidad.

P(alumno \ var\acute{o}n) = 0,5 \cdot 0,4 + 0,25 \cdot 0,4 + 0,25 \cdot 0,4= 0,4pero también podría ser lo contrario.

Relación con probabilidad condicionada

Esta herramienta esta fundamentada en el cálculo de probabilidades condicionadas.
  • Por ejemplo podemos identificar el 0,6 que encotramos en la rama que va de 1ª facultad a mujer como la siguiente probabilidad condicionada:
P(mujer \mid 1^a \ facultad)=0.6
También esta herramienta se relaciona con algunos teoremas de la probabilidad condicionada
Dado que las tres facultades forman una partición del espacio muestral podemos indicar este cálculo como:
\scriptstyle P(alumno \ var\acute{o}n)=P(var\acute{o}n \mid 1^a \ facultad) \cdot P(1^a \ facultad)+P(var\acute{o}n \mid 2^a \ facultad) \cdot P(2^a \ facultad)+P(var\acute{o}n \mid 3^a \ facultad) \cdot P(3^a \ facultad)
P(alumno \ var\acute{o}n)=0.5 \cdot 0.4+0.25 \cdot 0.4+0.25 \cdot 0.4=0.4





1.4.4 Construcción de histogramas para frecuencia simple y frecuencia acumulada.

Histograma

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.
Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Tipos de histograma

  • Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa.
  • Diagramas de barras compuesta
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.
  • Diagramas de barras agrupadas
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.
  • Polígono de frecuencias
Es un gráfico de líneas que de las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.
  • Ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias.
En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer miembro un corchete y en el segundo un paréntesis, por ejemplo: [10-20)

Construcción de un histograma

  • Paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.
  • Paso 2
Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.
  • Paso 3
Establecer la longitud de clase: es igual al rango dividido por el número de clases.
  • Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales.
  • Paso 5
Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.

El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las técnicas de modificación del histograma de una imagen son útiles para aumentar el contraste de imágenes con histogramas muy concentrados.

Sea u una imagen de tamaño NxN, la función de distribución del histograma es: Fu(l)=(Numero de pixels (i,j) tales que u(i,j)<=l)/N^2

Ejemplos de otros tipos de representaciones gráficas: Hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).
A veces es más útil representar las frecuencias acumuladas.
O representar simultáneamente los histogramas de una variable en dos situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas.
En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.
























1.5.1 Selección de los procedimientos adecuados para la resolución de diferentes problemas estadísticos.
Introducción
Podemos decir que en estos tiempos en el entorno empresarial cubano se hace muy poco uso y quizás nulo de las técnicas y métodos estadísticos que resultan de vital importancia en la solución de disímiles problemas que se dan a diario en nuestras empresas, mientras el mundo de la informática se desarrolla cada vez más y son muchos los programas que han surgido entre los que se encuentran varios de análisis estadísticos.
Nuestro trabajo se desarrolló con el fin de conocer la situación del peso de las gallinas pertenecientes a la Unidad Económica Básica "Frank País" de Moa en función de la cantidad de pienzo y agua que consumen, así como la influencia de los alimentos que ingerimos a diario y los distintos horarios del día en los valores de presión arterial.

2. Desarrollo
Regresión Lineal Simple Y Múltiple
Problema 1.
En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso promedio que alcanzarán las gallinas en el próximo trimestre. A final de cada trimestre estas gallinas son distribuidas a la población y se inicia nuevamente el ciclo de crecimiento.
Se conoce la cantidad de pienzo y agua consumida por estas juega un papel determinante en el peso de las mismas.
En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35 gallinas. (Ver anexo 1). (Los datos recopilados no son reales).

Análisis de la Regresión Simple.
Variables:

  • Variable dependiente: Y. Peso de las gallinas en libras (lb.).
  • Variable independiente: X. Cantidad de pienzo consumida en kilogramos (Kg.)
Dócima de la pendiente.
Planteamiento de las hipótesis:



Si se acepta H0 : la variable no es significativa.(No existe relación lineal entre Y y X ).
Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X ).
F. variación
S.C
G.L
C.M
F
P
Regresión
153,198
1
153,198
90,58
0,0000
Residuos
55,815
33
1,69136


Total
209,013
34




El coeficiente de correlación = 0,856131(las variables se encuentran relacionadas linealmente en un 85,6131%).
R2 = 73,2959 (Se ha eliminado un 73,2959 % de los errores con la regresión).
El error estándar = 1,30052
Como el valor de probabilidad es 0,0000<0,05 se RH0 lo que quiere decir que el pienzo es determinante en el peso de las gallinas.

La ecuación determinada para esta estimación es:
Dócima de la falta de ajuste.
(El modelo lineal proporciona un buen ajuste).
(El modelo lineal no proporciona un buen ajuste).

El modelo que mejor ajusta es el Square Root-X
F. variación
S.C
G.L
C.M
F
P
F.A
36,1583
24
1,5066
0,69
0,7771
E.P
19,6567
9
2,18407


Como el valor de probabilidad 0,7771>0,10 se AH0 por lo que el modelo proporciona un buen ajuste.
Análisis de la Regresión múltiple:
Variables:

  • Variable dependiente: Y. Peso de las gallinas en libras (lb.).
  • Variable independiente: X1 .cantidad de pienzo consumida en kilogramos (Kg.).
  • Variable independiente: X2 .cantidad de agua consumida en litros (L.).
Dócima de la pendiente
F. variación
S.C
G.L
C.M
F
P
Regresión
177,586
2
88,7929
90,41
0,0000
Residuos
31,4272
32
0,982099


Total
209,013
34



R2 = 84,964 %
R2 ajustada =84,0243 %
Error estándar =0,991009
Error medio absoluto = 0,742858
Estadístico de Durbin Watson = 1,76054.
Como la probabilidad es menor que 0,05 entonces se RH0, lo que indica que algunas de estas variables son útiles para hacer estimaciones del peso de las gallinas (Y).

Método paso a paso.(paso alante )
Con este método podemos determinar cuáles variables del modelo son significativas.
Estadígrafo para entrar = 4,14911
Estadígrafo para remover = 4,14911
En el paso número cero tenemos cero variables en el modelo con 34 G.L para el error y un coeficiente de determinación de 0,00 %.
En el paso número uno adicionamos la variable X1 con un estadígrafo para entrar de 87,4949 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 33 G.L para el error y un coeficiente de determinación de 72,61 %.
En el paso número dos adicionamos la variable X2 con un estadígrafo para entrar de 26,2859 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 32 G.L para el error y un coeficiente de determinación de 84,96 %.
Como podemos observar, tanto el pienzo como el agua que consumen las gallinas son significativas en el peso de las mismas.

El modelo tiene la siguiente ecuación:

Verificación de supuestos:
Normalidad:
Si aproximadamente el 95 % de los residuos están en el intervalo de , entonces no hay razón para rechazar el supuesto de normalidad.



El intervalo es (-1,982018; 1,982018)
Se cumple el supuesto de normalidad ya que el 94,29 % de los errores aleatorios se encuentran dentro del intervalo indicado.

Homocedasticidad:
(Hay Homocedasticidad)
Algún difiere (No hay Homocedasticidad)
n =35
c = 3
p =3
S.C Residual G.1 = 22, 2067
S.C Residual G.2 = 24,306


F = 1, 0945345


1,0945345<2,57693
Se acepta H0 por lo que se cumple el supuesto de Homocedasticidad.
No autocorrelación:

(No hay autocorrelación).
(Hay autocorrelación)
n =35


dl =1,343
dv =1,584
RH0 AH0 RH0
0 1,343 1,584 2,416 2,657 4
d =1,76054.
Se encuentra en la región de aceptación por lo que se cumple este supuesto.
No multicolinialidad:

(No hay multicolinialidad)
(Si hay multicolinialidad)
R.C:
R.C:


> 4,13927
Se RH0 por lo no se cumple el supuesto de no multicolinialidad.
Haciendo un pronóstico del peso que debería alcanzar una gallina para un consumo de pienzo de 10,6 Kg. y 9 L de agua obtuvimos un valor de 10,5669 con un error estándar 1,04204.

3. Diseño de experimento
Problema 2.
En un estudio realizado por el ministerio de salud pública se obtuvo que la mayor parte de la población cubana que padece de Hipertensión Arterial se concentra en las provincias orientales. Según criterios médicos una de las causas fundamentales de tal enfermedad es el régimen alimenticio que llevan las personas. Se pudo observar además que los alimentos que se consumen no provocan el mismo efecto en la presión para los distintos horarios del día.
Es interés de todos conocer cuáles son los alimento que podemos consumir en mayor o menor medida, los horarios en que son menores y mayores los valores de tensión arterial, así como la mejor y la peor combinación de estos factores.
Para darle respuestas a estas interrogantes se tomaron muestras de valores de presión por 6 días en diferentes horarios del día de una persona. (Ver anexo 2).

Análisis de varianza para datos tipo III
F. variación
S.C
G.L
C.M
F
P
P. Efectos





A: Factor A.
1733,33
2
866,667
39,00
0,0024
B: Factor H.
1200,0
2
600
27,00
0,0048
C: Réplic.
5,55556
1
5,55556
0,25
0,6433
Interacción





AB
266,667
4
66,6667
3,00
0,1562
AC
311,111
2
155,556
7,00
0,0494
BC
44,4444
2
22,2222
1,00
0,4444
Residuos
88,8889
4
22,2222


Total
3650,0
17



Analizando el P-value del factor A. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los alimentos que se consumen, por lo que la variable es significativa en la inestabilidad de la presión.
Haciendo el mismo análisis para el factor H. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los horarios del día en que se toma la presión, por lo que la variable es significativa en la inestabilidad de la presión.
Haciendo el análisis para las réplicas se obtuvo que para se acepta H0 lo que significa que la variable no es significativa en la inestabilidad de la presión.
En las interacciones tenemos que solo es significativa la interacción del factor A con las réplicas.
Para obtener en cuáles horarios y en cuáles alimentos están estas diferencias significativas se uso del método de Duncan obteniéndose:
Pruebas de rangos múltiples para los datos por el Factor A.

Método de Duncan con 95 %
Factor A.
Conteo
Media LS
Grupos Homogéneos
Verduras
Harina
Sal
6
6
6
118,333
135,0
141,667
X
X
X
Contraste Diferencia
Harina-sal
Harina-verduras
Sal-verduras
-6,66667
*16,6667
*23,3333
De aquí se deduce que existe homogeneidad entre los alimentos harina y sal y existen diferencias significativas entre harina-verduras y sal-verduras.
Pruebas de rangos múltiples para los datos por el Factor H.
Método de Duncan con 95 %
Factor H.
Conteo
Media LS
Grupos Homogéneos
Meridiano
Noche
mañana
6
6
6
121,667
131,667
141,667
X
X
X
Contraste Diferencia
Mañana-meridiano
Mañana-noche
Meridiano-noche
*20,0
*10,0
*-10,0
De aquí se obtiene que existen diferencias significativas entre los tres horarios.
Para el Factor A.
Chequeo de varianza.
Prueba C. de Cochran`s: 0,565217 P-value = 0,279372
Prueba de Bartlett`s: 1,15598 P-value = 0,368475
En la prueba de Cochran`s P-value > 0,05
En la prueba de Bartlett`s P-value > 0,05
Se cumple el supuesto de igualdad de varianza.

Para el Factor H.
Chequeo de varianza
Prueba C. de Cochran`s: 0,442177 P-value = 0,749976
Prueba de Bartlett`s: 1,17879 P-value = 0,322074
En la prueba de Cochran`s P-value > 0,05
En la prueba de Bartlett`s P-value > 0,05
Se cumple el supuesto de igualdad de varianza.

Para el Factor Combi.
Pruebas de rangos múltiples para los datos por el Facto Combi.

Método de Duncan con 95 %
Factor Combi.
Conteo
Media
Grupos Homogéneos
8
9
7
5
2
6
3
4
1
2
2
2
2
2
2
2
2
2
115,0
115,0
125,0
125,0
125,0
135,0
145,0
145,0
155,0
X
X
XX
XX
XX
XX
XX
XX
X
Con el experimento anterior llegamos a la conclusión de que los alimentos que debemos consumir en mayor proporción son las verduras y los que menos debemos consumir son aquellos que contengan alto contenido de sal. El horario del día en que la presión alcanza menores valores es el meridiano y mayores valores por la mañana. La mejor combinación es verduras-meridiano y la peor sal-mañana.
4. Series Cronológicas
Analizando el problema anterior pero con datos correspondientes a cuatro semanas se desea analizar el comportamiento de la presión en cada semana así podría comportarse en los próximos días. (Ver anexo 3).
1.    Tt = B0
Media: 139,6429 Varianza: 153,4439 Modelo híbrido.
  1. Serie de tendencia constante estacional con período 7.

B0 =139,643 p = 7 n = 28
E (1) =1,074 E (2) = 0,967 E (3) = 1,074 E (4) = 0,967
E (5) = 0,859 E (6) = 0,985 E (7) = 1,074
Varianza: 63,7500 Desv. Típica: 7,9844
  1. Estimación y chequeo.
  2. Diseño de pronóstico.
Horizonte (K): 2 N = 28 m = 28 n = 14
Función de pronóstico:


E (1) = 1,060 E (2) = 0,971 E (3) = 1,065 E (4) = 0,975
E (5) = 0,851 E (6) = 0,953 E (7) = 1,094

Media de los errores: - 5,361
Suma de cuadrados: 980,298 Cuadrado Medio: 75,405
Raíz del Cuadrado Medio: 8,683752

Cálculo del intervalo de confianza para un nivel de confianza de 95 %.
Pronóstico para T = 30: 132,7373
Intervalo de confianza para el pronóstico (115,09; 150,38)
Desviación Estándar (1,25 DAP):9,0026
Valor del DAP: 7,20
Coeficiente de alisamiento del DPA: 0,250

5. Conclusiones
Consideramos que en dicho trabajo hemos cumplido con los objetivos propuestos debido a que se puso en práctica los conocimientos adquiridos en clases, con la aplicación de métodos estadísticos en la resolución de problemas, con el uso de paquetes de programas profesionales. Obtuvimos como resultados que en el peso de las gallinas juega un papel importante la cantidad de pienzo y agua consumida; que los alimentos que ingerimos a diario, los diferentes horarios del día y la combinación de estos factores influyen significativamente en los valores de presión arterial.
Recomendaciones
Exhortamos que se continúen realizando estos trabajos investigativos debido a que nos permite elevar nuestros conocimientos y llevarlos a la práctica, logrando formar profesionales más integrales, los cuales en futuro pueden rescatar aquellas técnicas estadísticas que se han perdido.
Recomendamos además que la hora de seleccionar los alimentos a ingerir tengamos presentes, cuáles son aquellos más beneficiosos y los que resulten más perjudiciales; que preferentemente predominen en nuestras mesas las verduras y que en aquellos horarios tiende a alcanzar mayores valores evitemos consumir alimento que contribuyen a elevar la misma.

6. Bibliografía
  • García Francis, Ramón y Coautores: Problemas Resueltos y Propuestos de Estadística Matemática II. Editorial Pueblo y Educación. La Habana, 1986.
  • Guyon Dalmau, Luis y Coautores: Estadística Matemática II. Ediciones Avenida del Bosque Nr. 168. La Habana, 1986 (Dos tomos).
  • López Planes, Reinaldo: Diseño Estadístico de experimento.
  • Probabilidades y Estadística para Ingenieros. Segunda parte. Cuarta Edición
Anexo 1.
Datos del problema 1.
N.
Y
(Peso en lb.)
X1
(Cant. Pienzo en Kg.)
X2
(Cant. Agua en L.)
1
5
8
6
2
8
9,5
7,4
3
10
11
8,4
4
9
10
7,9
5
12
13
8
6
5,6
8,5
7
7
7,3
8
8
8
6,2
7
6
9
5,5
9
4
10
3
6
5
11
8,5
7
7
12
7
6,5
6
13
4
6,2
5
14
4,5
7
5,6
15
5,8
9
6,2
16
7,6
8
6,9
17
3,9
5,7
3,8
18
9,2
11
7,5
19
10,6
11,5
8,3
20
8,8
8,4
6,9
21
7,9
9
5,8
22
9,6
10
8,5
23
6,8
8,k9
5,9
24
4,7
7,2
5,2
25
8,6
9
8
26
13,5
15
9
27
3,5
6,9
6
28
4,29
6,82
5,76
29
8,54
7,89
7,28
30
9,08
8,76
8,45
31
10,22
9,56
8,98
32
5,63
7,31
5,82
33
6,58
8,02
7,21
34
7,91
7,79
6,88
35
8,33
9,01
8,32
Anexo 2.
Datos del problema 2. para diseño de experimento.
Factor A.
(Alimentos)
Factor H.
(Horarios)
Valores de presión máxima.
Réplica 1.
Réplica 2.
Sal
Mañana
160
150
Sal
Meridano
130
120
Sal
Noche
150
140
Harina
Mañana
140
150
Harina
Meridiano
120
130
Harina
Noche
130
140
Verduras
Mañana
120
130
Verduras
Meridiano
110
120
Verduras
Noche
120
110
Anexo 3.
Datos del problema 2. para series cronológicas.
Nr. de días.
Semana 1.
Semana 2.
Semana 3.
Semana 4.
1
150
160
150
140
2
140
130
140
130
3
160
150
150
140
4
130
140
140
130
5
120
130
120
110
6
140
150
130
130
7
150
160
140
150

Resumen
El presente trabajo se ha realizado con el objetivo de poner en práctica los conocimientos adquiridos en la asignatura de estadística ii, en vista a seleccionar problemas existentes en las empresas y otros que se dan en nuestra sociedad. Para darle cumplimiento a estos objetivos hemos utilizados los métodos y técnicas estadísticas ya estudiados, como son: regresión simple, regresión múltiple, método paso a paso, análisis de varianza, diseño de experimento, análisis de series, entre otros.





















1.5.2 Cálculo de medidas de tendencia central y rango medio, en distribuciones de datos no agrupados y agrupados.

Medidas de tendencia central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas. Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.
Entre las medidas de tendencia central tenemos:

La media aritmética (o simplemente media)

La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.

Por ejemplo, las notas de 5 alumnos en una prueba:

niño     nota
 1       6,0    ·Primero, se suman las notas:
 2       5,4        6,0+5,4+3,1+7,0+6,1 = 27,6
 3       3,1    ·Luego el total se divide entre la cantidad de alumnos:
 4       7,0         27,6/5=5,52
 5       6,1    
· La media aritmética en este ejemplo es 5,52
La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media.

Definición formal

Dado un conjunto numérico de datos, x1, x2, ..., xn, se define su media aritmética como
 \overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{\sum_{i=1}^n x_i}{n}
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos.

PROPIEDADES

Las principales propiedades de la media aritmética son:3
  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
  • Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
 \frac{\sum_{i=1}^n (x_i-\overline{x})}{n} = \frac{\sum_{i=1}^n x_i}{n} - \frac{\sum_{i=1}^n \overline{x}}{n} = \overline{x} - \overline{x} = 0
  • Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de  \frac{\sum_{i=1}^n (x_i-k)^2}{n}es mínimo cuando k = \overline{x}. Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
x_i' = ax_i+bentonces \overline{x'} = a \overline{x} + b, donde \overline{x'}es la media aritmética de los x_i', para i = 1, ..., n y a y b números reales.

Inconvenientes de su uso

Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:
  • Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
  • Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.
  • En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.
  • No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Media aritmética ponderada

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.
Si x_{1},x_{2},..., x_{n}son nuestros datos y w_{1},w_{2},..., w_{n}son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:
\frac{x_{1}w_{1}+x_{2}w_{2}+ ...+x_{n}w_{n}}{w_{1}+w_{2}+ ...+w_{n}}

Media muestral

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la población objeto de estudio.
La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.

Moda

La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i}la frecuencia absoluta del intervalo modal y n_{i-1}y n_{i+1}las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
8
9
3
4
2

Propiedades

Sus principales propiedades son:
  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".6

Inconvenientes

  • Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.
  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los anteriores:
      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < Ni = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Ejemplo (N par)
Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
6
9
4
4
2
xi
fi
Fi
1
2
2
2
2
4
3
4
8
4
5
13
5
6
19 = 19
6
9
28
7
4
32
8
4
36
9
2
38
Calculemos la Mediana:
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo)
con lo que Me = (5+6)/2 = 5,5 puntos.

Propiedades e inconvenientes

Las principales propiedades de la mediana son:8
  • Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.
  • Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.
  • No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética.

No hay comentarios:

Publicar un comentario