1.3.3 Aplicación
de los métodos de tabulación: simple y cruzada.
Tabulación cruzada
La tabulación cruzada es el proceso de creación de una tabla de contingencia desde la distribución de frecuencias multivariada de las variables estadísticas. Muy utilizada en la investigación de encuestas, la tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por una sería de paquetes estadísticos, entre ellos algunos que se especializan en la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. Las tablas sin ponderar se pueden producir fácilmente por algunas hojas de cálculo y otras herramientas de inteligencia empresarial, conocidas comúnmente como tablas pivote (también conocidas como tablas dinámicas).Definición y ejemplo
Definición:Una pantalla de la matriz de las categorías de dos variables de escala nominal, que contiene recuentos de frecuencia del número de sujetos en cada categoría bivariada se llama tabla de tabulación cruzada o tabla de contingencia. En la tabla siguiente se muestran los géneros y el uso de las manos de una muestra poblacional de 12 individuos:
Muestra #
|
Género
|
Uso de las manos
|
1
|
Mujer
|
Diestra/o
|
2
|
Varón
|
Zurda/o
|
3
|
Varón
|
Diestra/o
|
4
|
Mujer
|
Diestra/o
|
5
|
Mujer
|
Diestra/o
|
6
|
Varón
|
Diestra/o
|
7
|
Varón
|
Zurda/o
|
8
|
Varón
|
Diestra/o
|
9
|
Mujer
|
Diestra/o
|
10
|
Mujer
|
Zurda/o
|
11
|
Varón
|
Diestra/o
|
12
|
Mujer
|
Diestra/o
|
|
Diestra/o
|
Zurda/o
|
Total
|
Mujeres
|
5
|
1
|
6
|
Varones
|
4
|
2
|
6
|
Total
|
9
|
3
|
12
|
1.4.1
Elaboración de tablas y cuadros para la presentación de resultados
estadísticos.
A partir de este momento nos vamos a
ocupar de las estadísticas de una sola variable, "Estadísticas
Unidimensionales". Las tablas estadísticas según el número de observaciones y según el recorrido de la variable estadística, así tenemos los siguientes tipos de tablas estadísticas:
Tablas tipo I:
Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45
Tablas tipo II:
Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:
Personas
Activas en 50 familias
2
|
1
|
2
|
2
|
1
|
2
|
4
|
2
|
1
|
1
|
2
|
3
|
2
|
1
|
1
|
1
|
3
|
4
|
2
|
2
|
2
|
2
|
1
|
2
|
1
|
1
|
1
|
3
|
2
|
2
|
3
|
2
|
3
|
1
|
2
|
4
|
2
|
1
|
4
|
1
|
1
|
3
|
4
|
3
|
2
|
2
|
2
|
1
|
3
|
3
|
Personas
Activas
|
Número
de Familias
|
1
|
16
|
2
|
20
|
3
|
9
|
4
|
5
|
Total
|
50
|
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:
450
|
1152
|
250
|
300
|
175
|
80
|
25
|
2680
|
605
|
785
|
1595
|
2300
|
5000
|
1200
|
100
|
5
|
180
|
200
|
675
|
500
|
375
|
1500
|
205
|
985
|
185
|
125
|
315
|
425
|
560
|
1100
|
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
Tomar pocos intervalos implica que la "pérdida de información" sea mayor.
Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li ) |
Frecuencia |
[ 0,500) |
16 |
[ 500, 1000) |
6 |
[ 1000,1500) |
3 |
[ 1500, 2000) |
2 |
[ 2000, 2500) |
1 |
[ 2500, 3000) |
1 |
[ 3000, 3500) |
0 |
[ 3500, 4000) |
0 |
[ 4000, 4500) |
0 |
[ 4500, 5000) |
0 |
[ 5000,5500) |
1 |
1.4.2
Elaboración de gráficas: circular, barras, burbuja, columnas, lineales, xy,
entre otras.
¿Qué es?
Gráfico de Barras
|
Grafico de columnas
|
Denominados genéricamente "Gráficos de
Barras"
|
Los rectángulos o barras pueden estar colocados horizontal o verticalmente. En éste último caso reciben también el nombre de gráficos de columnas.
En lo siguiente hablaremos indistintamente de ellos como "gráficos de barras"
Utilización.
Típicamente se utilizan para
·
comparar
magnitudes entre varias categorías o
·
la
evolución en el tiempo (el cambio) de una determinada magnitud.
·
la
comparación de la evolución en el tiempo de varias categorías, esto es, se suelen usar también para la mezcla de
las dos utilidades anteriores.
Tipos de Datos Como sabemos hay tres tipos de datos
- Categóricos, también llamados Nominales (pájaros, mamíferos, altos, bajos, verdes o azules)
- Ordinales o Secuenciales (el abecedario, los meses del año)
- Cuantitativos o Numéricos (cualquier cosa que se pueda representar con números)
Este tipo de representación no es muy apropiada para representar datos cuya variable sea cuantitativa.
Componentes
Un gráfico de barras consta al menos de:
Componentes de un gráfico de barras o columnas
|
||
Eje cuantitativo
Un eje cuantitativo con una
escala lineal que sirve de
referencia a la magnitud de la variable en cuestión. En un gráfico de
columnas éste es el eje de ordenadas [Y]
y en uno de barras es el eje de abscisas [X]). Este eje puede contener valores negativos |
Eje categórico u Ordinal
Un eje categórico u ordinal en el que se disponen las categorías o los
elementos de la secuencia (el eje de abscisas [X] en un gráfico de columnas o el
de ordenadas [Y] en
un gráfico de barras). Este eje es perpendicular al cuantitativo. |
Conjunto de rectángulos
Un conjunto de rectángulos cuya extensión paralela al eje cuantitativo es
proporcional a la magnitud de la categoría o secuencia representada en el eje
|
Existen muchos tipos y variantes de los mismos, discutiremos aqui algunos de los más relevantes.
- Sencillo
Contiene solamente una serie de datos (por ejemplo, las ventas en distintos meses en un mismo país) - Agrupados
Contiene varias series de datos, por ejemplo las ventas mensuales en varios países. En este caso el eje secuencial contendría los meses y el cuantitativo la cifra de ventas. Cada serie de datos se representa mediante un conjunto de rectángulos que comparten color o textura.
En cada categoría o secuencia los rectángulos suelen estar juntos, formando un grupo, mientras que entre grupos se deja un espacio. Así en el ejemplo de las ventas, los resultados obtenidos por Francia, Inglaterra e Italia en el mes de noviembre se representarían como tres rectángulos de alturas proporcionales a su valor colocados lado a lado en el espacio dejado en el eje secuencial para el mes de noviembre. - Solapado.
Es un gráfico de barras agrupado en el que los elementos de un grupo en vez de yacer adosados se solapan parcialmente. Si el solapamiento es del 100% pueden fácilmente confundirse con los gráficos de barras apilados.
- Apilados
También llamado segmentado o extendido, es similar al agrupado pero cada uno de los segmentos en que está dividida la barra pertenece a una serie de datos diferente. Muestra de qué forma una entidad total está subdividida en partes. Si el eje no cuantitativo es temporal permite mostrar cómo cambian estas proporciones con el tiempo. Por ejemplo se puede hacer un gráfico apilado con las ventas mensuales de cada país, una encima de otra, de forma que la altura de la barra representa las ventas totales y las proporciones de los segmentos dan idea de su participación en el todo.* - Enlazado o conectado
Si se añaden líneas que enlazan los lugares donde se cambia de segmento se llama apilado enlazado o conectado. - Cien por cien.
Es un grafico apilado en el que la altura del total cubre todo el eje cuantitativo de forma que lo que muestran los segmentos es el porcentaje con que contribuyen al total, que representa el 100%.
- Flotantes, bi-direccionales o aparejados.
En este caso la línea de valor cero actúa como separador de dos gráficos de barra que comparten el 0 como línea de base pero en el que cada uno muestra su barra en dirección contraria. Un caso típico son los gráficos de la pirámide demográfica, en el que hacia la derecha del 0 se representa la cantidad de personas de un sexo supervivientes a una edad determinada y hacia la izquierda el equivalente del sexo opuesto. - Pictóricos.
Se denominan así cuando las barras están constituidas por la repetición de una serie de símbolos que típicamente representan la naturaleza de los datos. Por ejemplo una serie de motocicletas o coches uno detrás de otro para representar las ventas comparativas de motos y coches. Los símbolos pueden ser todos del mismo tamaño o estar distorsionados para ajustarse a la longitud requerida de la barra. - de Rangos
En este tipo de gráficos la extensión máxima y mínima de las barras indica los rangos superior e inferior de validez de los datos considerados. En ocasiones se designan valores internos al rango, aparte del máximo y el mínimo, con una línea que cruza la barra, que puede corresponder a conceptos estadísticos como la media, la mediana o la moda.
Grafica sectorial o circular:
Para este gráfico, debes tener los datos en % y luego hallar los grados que corresponden a cada uno.
Si tienes que pasarlos a %, haces como en este ejemplo
De $ 500 se gastan
$150 diversión → (150*100)/500= 30%
$100 estudios → (100*100)/500= 20%
$250 comida → (250*100)/500= 50%
-en grados (para graficarlos), utilizas regla de tres:
100% → 360º
30% →x, x= (360*30)/100, x= 108º
100% → x
20% →x, x= (360*20)/100, x= 72º
100% → x
50% → x, x=(360*50)/100, x = 180ª
-ahora graficas en el círculo los 3 ángulos (sectores) con su correspondiente denominación y %:
Diversión 30%
Estudios 20%
Comida 50%
1.4.3 Elaboración
de diagramas: tallo y hoja, pareto y árbol de problemas.
Diagrama de árbol
Un diagrama de árbol es una herramienta que se utiliza para determinar todos los posibles resultados de un experimento aleatorio. En el cálculo de la probabilidad se requiere conocer el número de objetos que forman parte del espacio muestral, estos se pueden determinar con la construcción de un diagrama de árbol.El diagrama de árbol es una representación gráfica de los posibles resultados del experimento, el cual consta una serie de pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo. Se utiliza en los problemas de conteo y probabilidad.
Para la construcción de un diagrama en árbol se partirá poniendo una rama para cada una de las posibilidades, acompañada de su probabilidad. Cada una de esta ramas se conoce como rama de primera generación.
En el final de cada rama de primera generación se constituye a su vez, un nudo del cual parten nuevas ramas conocidas como ramas de segunda generación, según las posibilidades del siguiente paso, salvo si el nudo representa un posible final del experimento (nudo final).
Hay que tener en cuenta que la construcción de un árbol no depende de tener el mismo número de ramas de segunda generación que salen de cada rama de primera generación y que la suma de probabilidades de las ramas de cada nudo ha de dar 1.
Existe un principio sencillo de los diagramas de árbol que hace que éstos sean mucho más útiles para los cálculos rápidos de probabilidad: multiplicamos las probabilidades si se trata de ramas adyacentes (contiguas), el ejemplo de alumna de la primera facultad, o bien las sumamos si se trata de ramas separadas que emergen de un mismo punto, el ejemplo de encontrar un alumno.
Ejemplos
Una
universidad está formada por tres facultades:
·
La 1ª con el 50% de estudiantes.
·
La 2ª con el 25% de estudiantes.
·
La 3ª con el 25% de estudiantes.
Las mujeres
están repartidas uniformemente, siendo un 60% del total en cada facultad.¿Probabilidad de encontrar una alumna de la primera facultad?
¿Probabilidad de encontrar un alumno varón?
pero también podría ser lo contrario.
Relación con probabilidad condicionada
Esta herramienta esta fundamentada en el cálculo de probabilidades condicionadas.- Por ejemplo podemos identificar el 0,6 que encotramos en la rama que va de 1ª facultad a mujer como la siguiente probabilidad condicionada:
- El segundo cálculo que hemos realizado, se corresponde con la aplicación del teorema de la Probabilidad Total
Dado que las tres facultades forman una partición
del espacio muestral podemos indicar este cálculo como:
1.4.4 Construcción
de histogramas para frecuencia simple y frecuencia acumulada.
Histograma
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.
Tipos de histograma
- Diagramas de barras simples
Representa la frecuencia simple (absoluta o
relativa) mediante la altura de la barra la cual es proporcional a la
frecuencia simple de la categoría que representa.
- Diagramas de barras compuesta
Se usa para representar la información de una tabla de doble entrada o
sea a partir de dos variables, las cuales se representan así; la altura de la
barra representa la frecuencia simple de las modalidades o categorías de la
variable y esta altura es proporcional a la frecuencia simple de cada
modalidad.
- Diagramas de barras agrupadas
Se usa para representar la información de una
tabla de doble entrada o sea a partir de dos variables, el cual es representado
mediante un conjunto de barras como se clasifican respecto a las diferentes
modalidades.
- Polígono de frecuencias
Es un gráfico de líneas que de las frecuencias
absolutas de los valores de una distribución en el cual la altura del punto
asociado a un valor de las variables es proporcional a la frecuencia de dicho
valor.
- Ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil
cuando se quiere representar el rango porcentual de cada valor en una distribución
de frecuencias.
En los
gráficos las barras se encuentran juntas y en la tabla los números poseen en el
primer miembro un corchete y en el segundo un paréntesis, por ejemplo: [10-20)Construcción de un histograma
- Paso 1
- Paso 2
- Paso 3
- Paso 4
- Paso 5
El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las técnicas de modificación del histograma de una imagen son útiles para aumentar el contraste de imágenes con histogramas muy concentrados.
Sea u una imagen de tamaño NxN, la función de distribución del histograma es:
Ejemplos de otros tipos de representaciones gráficas: Hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).
A veces es más útil representar las frecuencias acumuladas.
O representar simultáneamente los histogramas de una variable en dos situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas.
En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.
1.5.1 Selección
de los procedimientos adecuados para la resolución de diferentes problemas
estadísticos.
IntroducciónPodemos decir que en estos tiempos en el entorno empresarial cubano se hace muy poco uso y quizás nulo de las técnicas y métodos estadísticos que resultan de vital importancia en la solución de disímiles problemas que se dan a diario en nuestras empresas, mientras el mundo de la informática se desarrolla cada vez más y son muchos los programas que han surgido entre los que se encuentran varios de análisis estadísticos.
Nuestro trabajo se desarrolló con el fin de conocer la situación del peso de las gallinas pertenecientes a la Unidad Económica Básica "Frank País" de Moa en función de la cantidad de pienzo y agua que consumen, así como la influencia de los alimentos que ingerimos a diario y los distintos horarios del día en los valores de presión arterial.
2. Desarrollo
Regresión Lineal Simple Y Múltiple
Problema 1.
En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso promedio que alcanzarán las gallinas en el próximo trimestre. A final de cada trimestre estas gallinas son distribuidas a la población y se inicia nuevamente el ciclo de crecimiento.
Se conoce la cantidad de pienzo y agua consumida por estas juega un papel determinante en el peso de las mismas.
En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35 gallinas. (Ver anexo 1). (Los datos recopilados no son reales).
Análisis de la Regresión Simple.
Variables:
- Variable dependiente: Y. Peso de las gallinas en libras (lb.).
- Variable independiente: X. Cantidad de pienzo consumida en kilogramos (Kg.)
Planteamiento de las hipótesis:
Si se acepta H0 : la variable no es significativa.(No existe relación lineal entre Y y X ).
Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X ).
F. variación |
S.C |
G.L |
C.M |
F |
P |
Regresión |
153,198 |
1 |
153,198 |
90,58 |
0,0000 |
Residuos |
55,815 |
33 |
1,69136 |
|
|
Total |
209,013 |
34 |
|
|
|
El coeficiente de correlación = 0,856131(las variables se encuentran relacionadas linealmente en un 85,6131%).
R2 = 73,2959 (Se ha eliminado un 73,2959 % de los errores con la regresión).
El error estándar = 1,30052
Como el valor de probabilidad es 0,0000<0,05 se RH0 lo que quiere decir que el pienzo es determinante en el peso de las gallinas.
La ecuación determinada para esta estimación es:
Dócima de la falta de ajuste.
(El modelo lineal proporciona un buen ajuste).
(El modelo lineal no proporciona un buen ajuste).
El modelo que mejor ajusta es el Square Root-X
F. variación |
S.C |
G.L |
C.M |
F |
P |
F.A |
36,1583 |
24 |
1,5066 |
0,69 |
0,7771 |
E.P |
19,6567 |
9 |
2,18407 |
|
|
Análisis de la Regresión múltiple:
Variables:
- Variable dependiente: Y. Peso de las gallinas en libras (lb.).
- Variable independiente: X1 .cantidad de pienzo consumida en kilogramos (Kg.).
- Variable independiente: X2 .cantidad de agua consumida en litros (L.).
F. variación |
S.C |
G.L |
C.M |
F |
P |
Regresión |
177,586 |
2 |
88,7929 |
90,41 |
0,0000 |
Residuos |
31,4272 |
32 |
0,982099 |
|
|
Total |
209,013 |
34 |
|
|
|
R2 ajustada =84,0243 %
Error estándar =0,991009
Error medio absoluto = 0,742858
Estadístico de Durbin Watson = 1,76054.
Como la probabilidad es menor que 0,05 entonces se RH0, lo que indica que algunas de estas variables son útiles para hacer estimaciones del peso de las gallinas (Y).
Método paso a paso.(paso alante )
Con este método podemos determinar cuáles variables del modelo son significativas.
Estadígrafo para entrar = 4,14911
Estadígrafo para remover = 4,14911
En el paso número cero tenemos cero variables en el modelo con 34 G.L para el error y un coeficiente de determinación de 0,00 %.
En el paso número uno adicionamos la variable X1 con un estadígrafo para entrar de 87,4949 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 33 G.L para el error y un coeficiente de determinación de 72,61 %.
En el paso número dos adicionamos la variable X2 con un estadígrafo para entrar de 26,2859 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 32 G.L para el error y un coeficiente de determinación de 84,96 %.
Como podemos observar, tanto el pienzo como el agua que consumen las gallinas son significativas en el peso de las mismas.
El modelo tiene la siguiente ecuación:
Verificación de supuestos:
Normalidad:
Si aproximadamente el 95 % de los residuos están en el intervalo de , entonces no hay razón para rechazar el supuesto de normalidad.
El intervalo es (-1,982018; 1,982018)
Se cumple el supuesto de normalidad ya que el 94,29 % de los errores aleatorios se encuentran dentro del intervalo indicado.
Homocedasticidad:
(Hay Homocedasticidad)
Algún difiere (No hay Homocedasticidad)
n =35
c = 3
p =3
S.C Residual G.1 = 22, 2067
S.C Residual G.2 = 24,306
F = 1, 0945345
1,0945345<2,57693
Se acepta H0 por lo que se cumple el supuesto de Homocedasticidad.
No autocorrelación:
(No hay autocorrelación).
(Hay autocorrelación)
n =35
dl =1,343
dv =1,584
RH0 AH0 RH0
0 1,343 1,584 2,416 2,657 4
d =1,76054. Se encuentra en la región de aceptación por lo que se cumple este supuesto.
No multicolinialidad:
(No hay multicolinialidad)
(Si hay multicolinialidad)
R.C:
R.C:
> 4,13927
Se RH0 por lo no se cumple el supuesto de no multicolinialidad.
Haciendo un pronóstico del peso que debería alcanzar una gallina para un consumo de pienzo de 10,6 Kg. y 9 L de agua obtuvimos un valor de 10,5669 con un error estándar 1,04204.
3. Diseño de experimento
Problema 2.
En un estudio realizado por el ministerio de salud pública se obtuvo que la mayor parte de la población cubana que padece de Hipertensión Arterial se concentra en las provincias orientales. Según criterios médicos una de las causas fundamentales de tal enfermedad es el régimen alimenticio que llevan las personas. Se pudo observar además que los alimentos que se consumen no provocan el mismo efecto en la presión para los distintos horarios del día.
Es interés de todos conocer cuáles son los alimento que podemos consumir en mayor o menor medida, los horarios en que son menores y mayores los valores de tensión arterial, así como la mejor y la peor combinación de estos factores.
Para darle respuestas a estas interrogantes se tomaron muestras de valores de presión por 6 días en diferentes horarios del día de una persona. (Ver anexo 2).
Análisis de varianza para datos tipo III
F. variación |
S.C |
G.L |
C.M |
F |
P |
P. Efectos |
|
|
|
|
|
A: Factor A. |
1733,33 |
2 |
866,667 |
39,00 |
0,0024 |
B: Factor H. |
1200,0 |
2 |
600 |
27,00 |
0,0048 |
C: Réplic. |
5,55556 |
1 |
5,55556 |
0,25 |
0,6433 |
Interacción |
|
|
|
|
|
AB |
266,667 |
4 |
66,6667 |
3,00 |
0,1562 |
AC |
311,111 |
2 |
155,556 |
7,00 |
0,0494 |
BC |
44,4444 |
2 |
22,2222 |
1,00 |
0,4444 |
Residuos |
88,8889 |
4 |
22,2222 |
|
|
Total |
3650,0 |
17 |
|
|
|
Haciendo el mismo análisis para el factor H. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los horarios del día en que se toma la presión, por lo que la variable es significativa en la inestabilidad de la presión.
Haciendo el análisis para las réplicas se obtuvo que para se acepta H0 lo que significa que la variable no es significativa en la inestabilidad de la presión.
En las interacciones tenemos que solo es significativa la interacción del factor A con las réplicas.
Para obtener en cuáles horarios y en cuáles alimentos están estas diferencias significativas se uso del método de Duncan obteniéndose:
Pruebas de rangos múltiples para los datos por el Factor A.
Método de Duncan con 95 % |
|||
Factor A. |
Conteo |
Media LS |
Grupos Homogéneos |
Verduras Harina Sal |
6 6 6 |
118,333 135,0 141,667 |
X X X |
Contraste Diferencia |
|||
Harina-sal Harina-verduras Sal-verduras |
-6,66667 *16,6667 *23,3333 |
Pruebas de rangos múltiples para los datos por el Factor H.
Método de Duncan con 95 % |
|||
Factor H. |
Conteo |
Media LS |
Grupos Homogéneos |
Meridiano Noche mañana |
6 6 6 |
121,667 131,667 141,667 |
X X X |
Contraste Diferencia |
|||
Mañana-meridiano Mañana-noche Meridiano-noche |
*20,0 *10,0 *-10,0 |
Para el Factor A.
Chequeo de varianza.
Prueba C. de Cochran`s: 0,565217 P-value = 0,279372
Prueba de Bartlett`s: 1,15598 P-value = 0,368475
En la prueba de Cochran`s P-value > 0,05
En la prueba de Bartlett`s P-value > 0,05
Se cumple el supuesto de igualdad de varianza.
Para el Factor H.
Chequeo de varianza
Prueba C. de Cochran`s: 0,442177 P-value = 0,749976
Prueba de Bartlett`s: 1,17879 P-value = 0,322074
En la prueba de Cochran`s P-value > 0,05
En la prueba de Bartlett`s P-value > 0,05
Se cumple el supuesto de igualdad de varianza.
Para el Factor Combi.
Pruebas de rangos múltiples para los datos por el Facto Combi.
Método de Duncan con 95 % |
|||
Factor Combi. |
Conteo |
Media |
Grupos Homogéneos |
8 9 7 5 2 6 3 4 1 |
2 2 2 2 2 2 2 2 2 |
115,0 115,0 125,0 125,0 125,0 135,0 145,0 145,0 155,0 |
X X XX XX XX XX XX XX X |
4. Series Cronológicas
Analizando el problema anterior pero con datos correspondientes a cuatro semanas se desea analizar el comportamiento de la presión en cada semana así podría comportarse en los próximos días. (Ver anexo 3).
1.
Tt = B0
Media: 139,6429 Varianza: 153,4439 Modelo híbrido.
Media: 139,6429 Varianza: 153,4439 Modelo híbrido.
- Serie de tendencia constante estacional con período 7.
B0 =139,643 p = 7 n = 28
E (1) =1,074 E (2) = 0,967 E (3) = 1,074 E (4) = 0,967
E (5) = 0,859 E (6) = 0,985 E (7) = 1,074
Varianza: 63,7500 Desv. Típica: 7,9844
- Estimación y chequeo.
- Diseño de pronóstico.
Función de pronóstico:
E (1) = 1,060 E (2) = 0,971 E (3) = 1,065 E (4) = 0,975
E (5) = 0,851 E (6) = 0,953 E (7) = 1,094
Media de los errores: - 5,361
Suma de cuadrados: 980,298 Cuadrado Medio: 75,405
Raíz del Cuadrado Medio: 8,683752
Cálculo del intervalo de confianza para un nivel de confianza de 95 %.
Pronóstico para T = 30: 132,7373
Intervalo de confianza para el pronóstico (115,09; 150,38)
Desviación Estándar (1,25 DAP):9,0026
Valor del DAP: 7,20
Coeficiente de alisamiento del DPA: 0,250
5. Conclusiones
Consideramos que en dicho trabajo hemos cumplido con los objetivos propuestos debido a que se puso en práctica los conocimientos adquiridos en clases, con la aplicación de métodos estadísticos en la resolución de problemas, con el uso de paquetes de programas profesionales. Obtuvimos como resultados que en el peso de las gallinas juega un papel importante la cantidad de pienzo y agua consumida; que los alimentos que ingerimos a diario, los diferentes horarios del día y la combinación de estos factores influyen significativamente en los valores de presión arterial.
Recomendaciones
Exhortamos que se continúen realizando estos trabajos investigativos debido a que nos permite elevar nuestros conocimientos y llevarlos a la práctica, logrando formar profesionales más integrales, los cuales en futuro pueden rescatar aquellas técnicas estadísticas que se han perdido.
Recomendamos además que la hora de seleccionar los alimentos a ingerir tengamos presentes, cuáles son aquellos más beneficiosos y los que resulten más perjudiciales; que preferentemente predominen en nuestras mesas las verduras y que en aquellos horarios tiende a alcanzar mayores valores evitemos consumir alimento que contribuyen a elevar la misma.
6. Bibliografía
- García Francis, Ramón y Coautores: Problemas Resueltos y Propuestos de Estadística Matemática II. Editorial Pueblo y Educación. La Habana, 1986.
- Guyon Dalmau, Luis y Coautores: Estadística Matemática II. Ediciones Avenida del Bosque Nr. 168. La Habana, 1986 (Dos tomos).
- López Planes, Reinaldo: Diseño Estadístico de experimento.
- Probabilidades y Estadística para Ingenieros. Segunda parte. Cuarta Edición
Datos del problema 1.
N. |
Y (Peso en lb.) |
X1 (Cant. Pienzo en Kg.) |
X2 (Cant. Agua en L.) |
1 |
5 |
8 |
6 |
2 |
8 |
9,5 |
7,4 |
3 |
10 |
11 |
8,4 |
4 |
9 |
10 |
7,9 |
5 |
12 |
13 |
8 |
6 |
5,6 |
8,5 |
7 |
7 |
7,3 |
8 |
8 |
8 |
6,2 |
7 |
6 |
9 |
5,5 |
9 |
4 |
10 |
3 |
6 |
5 |
11 |
8,5 |
7 |
7 |
12 |
7 |
6,5 |
6 |
13 |
4 |
6,2 |
5 |
14 |
4,5 |
7 |
5,6 |
15 |
5,8 |
9 |
6,2 |
16 |
7,6 |
8 |
6,9 |
17 |
3,9 |
5,7 |
3,8 |
18 |
9,2 |
11 |
7,5 |
19 |
10,6 |
11,5 |
8,3 |
20 |
8,8 |
8,4 |
6,9 |
21 |
7,9 |
9 |
5,8 |
22 |
9,6 |
10 |
8,5 |
23 |
6,8 |
8,k9 |
5,9 |
24 |
4,7 |
7,2 |
5,2 |
25 |
8,6 |
9 |
8 |
26 |
13,5 |
15 |
9 |
27 |
3,5 |
6,9 |
6 |
28 |
4,29 |
6,82 |
5,76 |
29 |
8,54 |
7,89 |
7,28 |
30 |
9,08 |
8,76 |
8,45 |
31 |
10,22 |
9,56 |
8,98 |
32 |
5,63 |
7,31 |
5,82 |
33 |
6,58 |
8,02 |
7,21 |
34 |
7,91 |
7,79 |
6,88 |
35 |
8,33 |
9,01 |
8,32 |
Anexo
2.
Datos del problema 2. para diseño de
experimento.
Factor A. (Alimentos) |
Factor H. (Horarios) |
Valores de presión máxima. |
|
Réplica
1.
|
Réplica
2.
|
||
Sal |
Mañana |
160 |
150 |
Sal |
Meridano |
130 |
120 |
Sal |
Noche |
150 |
140 |
Harina |
Mañana |
140 |
150 |
Harina |
Meridiano |
120 |
130 |
Harina |
Noche |
130 |
140 |
Verduras |
Mañana |
120 |
130 |
Verduras |
Meridiano |
110 |
120 |
Verduras |
Noche |
120 |
110 |
Datos del problema 2. para series cronológicas.
Nr. de días. |
Semana 1. |
Semana 2. |
Semana 3. |
Semana 4. |
1 |
150 |
160 |
150 |
140 |
2 |
140 |
130 |
140 |
130 |
3 |
160 |
150 |
150 |
140 |
4 |
130 |
140 |
140 |
130 |
5 |
120 |
130 |
120 |
110 |
6 |
140 |
150 |
130 |
130 |
7 |
150 |
160 |
140 |
150 |
Resumen
El presente trabajo se ha realizado con el objetivo de poner en práctica los conocimientos adquiridos en la asignatura de estadística ii, en vista a seleccionar problemas existentes en las empresas y otros que se dan en nuestra sociedad. Para darle cumplimiento a estos objetivos hemos utilizados los métodos y técnicas estadísticas ya estudiados, como son: regresión simple, regresión múltiple, método paso a paso, análisis de varianza, diseño de experimento, análisis de series, entre otros.
1.5.2 Cálculo
de medidas de tendencia central y rango medio, en distribuciones de datos no
agrupados y agrupados.
Medidas de tendencia central
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas. Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.Entre las medidas de tendencia central tenemos:
La media aritmética (o simplemente media)
La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.Por ejemplo, las notas de 5 alumnos en una prueba:
niño nota
1 6,0 ·Primero, se suman las notas:
2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6
3 3,1 ·Luego el total se divide entre la cantidad de alumnos:
4 7,0 27,6/5=5,52
5 6,1
· La media
aritmética en este ejemplo es 5,52La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media.
Definición formal
Dado un conjunto numérico de datos, x1, x2, ..., xn, se define su media aritmética comoPROPIEDADES
Las principales propiedades de la media aritmética son:3- Su cálculo es muy sencillo y en él intervienen todos los datos.
- Su valor es único para una serie de datos dada.
- Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
- Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
- Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de es mínimo cuando . Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
- Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si
entonces ,
donde es la media aritmética de
los , para i = 1, ..., n
y a y b números reales.
- Es poco sensible a fluctuaciones muestrales, por lo que es un parámetro muy útil en inferencia estadística.
Inconvenientes de su uso
Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:- Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
La estatura media como resumen de una población homogénea (abajo) o
heterogénea (arriba).
- Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.
- En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de € tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.
- No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.
Media aritmética ponderada
A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.Si son nuestros datos y son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:
Media muestral
Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la población objeto de estudio.La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.
Moda
La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
Siendo la frecuencia absoluta del intervalo modal y y las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
Número de alumnos
|
2
|
2
|
4
|
5
|
8
|
9
|
3
|
4
|
2
|
Propiedades
Sus principales propiedades son:- Cálculo sencillo.
- Interpretación muy clara.
- Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".6
Inconvenientes
- Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.
- Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
- No siempre se sitúa hacia el centro de la distribución.
- Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).
Mediana
La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.
Cálculo de la mediana para datos agrupados
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).Así, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < Ni = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Ejemplo (N par)
Las
calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene
dada por la siguiente tabla (debajo):
Calificaciones
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
Número de alumnos
|
2
|
2
|
4
|
5
|
6
|
9
|
4
|
4
|
2
|
xi
|
fi
|
Fi
|
1
|
2
|
2
|
2
|
2
|
4
|
3
|
4
|
8
|
4
|
5
|
13
|
5
|
6
|
19 = 19
|
6
|
9
|
28
|
7
|
4
|
32
|
8
|
4
|
36
|
9
|
2
|
38
|
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo)
con lo que Me = (5+6)/2 = 5,5 puntos.
Propiedades e inconvenientes
Las principales propiedades de la mediana son:8- Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.
- Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.
- No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.
No hay comentarios:
Publicar un comentario