ANALISIS
DE RESULTADOS ESTADISTICA DESCRIPTIVA
8.4.1
Propiedades de los datos cuantitativos
Ya
vimos que el material con que cuenta el estadístico es un conjunto de datos.
Pero la recolección de datos es sólo uno de los aspectos de la estadística descriptiva
¿cómo se pueden utilizar esos datos?
A
veces los datos estadísticos obtenidos de muestras, experimentos o cualquier
colección de mediciones, son tan numerosos que carecen de utilidad a menos que
sean condensados. Veremos tres propiedades de los datos cuantitativos que
permiten una mejor comprensión de la información por ellos aportada.
Estas
propiedades pueden ser expresadas por diversas medidas, que agrupamos de la siguiente
manera:
1.
de tendencia central
2.
de dispersión
3.
de forma
Cuando
se calculan a partir de los datos muestrales, reciben el nombre de estadísticos y si se los calcula a
partir de la población, se denominan parámetros.
8.4.2
Medidas de tendencia central
Con
este nombre nos referimos a valores promedios que describen todo un conjunto de
datos. Se utilizan cuatro promedios, frecuentemente, como medidas de tendencia
central o de posición: la media aritmética, la mediana, la moda y el rango medio.
8.4.2.1
Media aritmética: es la medida de posición
utilizada con más frecuencia. Si X1… Xn constituyen
una muestra de n observaciones, la media aritmética se define de la siguiente
manera:
Si
bien es una de las medidas más utilizadas posee la desventaja de ser muy
afectada por los valores extremos, pues en su cálculo se utilizan todas las
observaciones. Puede entonces dar una imagen distorsionada de la información
contenida en los datos, por lo que no siempre es la mejor medida de posición.
8.4.2.2
Mediana: Es el valor que ocupa la posición central
en un conjunto de datos, ordenados en forma creciente o decreciente. Así
definida, la mitad de las observaciones es menor que la mediana, mientras que
la otra mitad es mayor que la mediana. Resulta apropiada cuando el conjunto de
datos posee observaciones extremas.
Para
calcular la mediana, primero se deben ordenar los datos. Luego se debe
determinar el dato que ocupa la posición (cuando n es impar)
o
la semisuma de los valores numéricos correspondientes a las dos observaciones
centrales (cuando n es par). Por ejemplo, si los datos son: 25 12 23 28 17 15,
se obtiene el arreglo ordenado 12 15 17 23 25 28, y la mediana se obtiene
promediando los valores 17 y 23, resultando igual a 20. El cálculo de la
mediana se ve afectado por el número de observaciones, y no por la magnitud de
los valores extremos.
8.4.2.3
Moda: es el valor de un conjunto de datos que aparece
con mayor frecuencia.
Tampoco
depende de los valores extremos, pero es más variable que las otras medidas de
posición para las distintas muestras.
Cuando
no hay ningún valor con frecuencia mayor, la distribución carece de moda.
También
se puede dar el caso de una distribución con más de una moda.
8.4.2.4
Rango medio: Es la media de las
observaciones mayor y menor. Como intervienen solamente estas observaciones, si
hay valores extremos, se distorsiona como medida de posición, pero
frecuentemente ofrece un valor adecuado rápido y sencillo para resumir un
conjunto de datos (cuando puede suponerse que no existen valores extremos).
8.4.3
Medidas de dispersión o de variabilidad
Las
medidas de dispersión permiten conocer la variabilidad de un conjunto de datos.
Estudiaremos
las siguientes: rango,
varianza,
desviación estándar y coeficiente de variación.
8.4.3.1
Rango: Es la diferencia entre las observaciones
mayor y menor. Si bien es una medida de dispersión simple, posee el
inconveniente de que no toma en consideración la forma en que se distribuyen
los datos entre los valores más pequeños y más grandes.
8.4.3.2
Varianza y desviación estándar: Una medida
de variabilidad podría obtenerse a partir de la dispersión de cada una de las
observaciones con respecto a algún valor particular, por ejemplo la media.
Pero, como es fácil de comprobar, la suma de los desvíos de cada valor respecto
a la media es siempre cero, es decir
Por
eso consideraremos una medida obtenida "promediando" los cuadrados de
los desvíos, la varianza muestral:
El
desvío estándar muestral es la raíz cuadrada de la varianza:
A
partir de la fórmula puede observarse que ni la varianza ni el desvío estándar,
pueden ser negativos, y hay un único caso en que pueden ser nulos: cuando todos
los valores de la muestra son iguales.
La
varianza y el desvío estándar miden la dispersión "promedio" en torno
a la media, es decir cómo fluctúan las observaciones mayores por encima de la
media y cómo se distribuyen las observaciones menores por debajo de ella.
A
pesar de que la varianza posee ciertas propiedades matemáticas útiles, está
expresado en unidades cuadradas (dólares cuadrados, etc.) lo que le hace perder
significado. El desvío estándar no posee este inconveniente, y está expresado
en las unidades originales.
8.4.3.3
Coeficiente de variación: Es una cantidad que
mide la dispersión de los datos con respecto a la media:
El
coeficiente de variación es una medida relativa. No se expresa en término de
las unidades utilizadas, sino como porcentaje. Es útil cuando se compara la
variabilidad de dos conjuntos de datos, o más, expresados en diferentes
unidades. También es útil cuando se comparan dos o más distribuciones de datos
expresados en la misma unidad, pero que difieren en tal forma que una
comparación directa de los desvíos estándar no resulta útil.
8.4.4
Forma
Las
medidas de forma describen
la manera en que se distribuyen los datos. Una distribución de datos puede ser simétrica o no. Cuando no lo
es, se denomina asimétrica o sesgada.
Para
indicar la forma se comparan la media y la mediana de la distribución. Si las
medidas son iguales se considera que los datos son simétricos, o que la
distribución tiene sesgo cero. Cuando la media es mayor que la mediana, el
sesgo es positivo o la asimetría es a la derecha, en cambio cuando la media es
menor que la mediana, se dice que la distribución tiene sesgo negativo o
asimetría a la izquierda.
El
sesgo positivo ocurre cuando la media se ve aumentada por algunos valores
extraordinariamente grandes; el sesgo negativo se da cuando la media se ve
afectada por algunos valores extremadamente pequeños.
-----------------------------------------------------------------------------------------------------------------------------------
La
razón de utilizar (n - 1) en lugar de n se comprenderá más adelante, aunque si
el tamaño de la muestra es grande, el uso de n
o (n
- 1) no produce diferencias significativas. En
general, utilizaremos el denominador (n
- 1) cuando se trata de la varianza muestral, y n para la varianza de la población
-----------------------------------------------------------------------------------------------------------------------------------
El
siguiente gráfico muestra lo que ocurre en cada situación: en cada una de las
tres escalas se describe la distribución de un grupo de alumnos según las notas
obtenidas (entre 40 y 100 puntos)
El primero de lo gráficos corresponde a un
conjunto sesgado a la izquierda, donde la media es menor que la mediana, ya que
hay pocas calificaciones bajas. En el segundo, los datos están sesgados a la
derecha. La media es mayor que la mediana, ya que hay pocas calificaciones
altas. El último gráfico muestra una distribución simétrica, con un desempeño
que podríamos catalogar como "normal". La media y la mediana son
iguales, al igual que la moda y el rango medio. Cuantitativamente, la asimetría
puede determinarse por medio de la siguiente ecuación:
8.5.2
Gráficas de las distribuciones de frecuencias
8.5.2.1
Histogramas
Representar
una distribución de frecuencias hace más evidente sus propiedades. La forma más
común de representar una distribución de frecuencias es el histograma, que se construye
con rectángulos adyacentes de alturas proporcionales a las frecuencias y cuyas
bases se extienden entre las fronteras de clases sucesivas.
Para
los datos anteriores, obtenemos el siguiente histograma:
Otras
gráficas similares a los histogramas son los diagramas
de barras, donde las alturas de los rectángulos
representan las frecuencias, pero no se pretende fijar una escala horizontal
continua.
8.5.2.2
Polígono de frecuencias
Una
forma optativa de representar las distribuciones de frecuencias es el polígono de frecuencias.
En él las frecuencias de cada clase son graficadas en sobre la marca de clase,
y
los puntos sucesivos se unen mediante segmentos de recta, después de haber
agregado clases con frecuencia cero en los extremos de la distribución.
8.5.2.3
Distribuciones acumuladas
Existen
formas alternativas de agrupar los datos: son las distribuciones acumuladas "menor que" y "mayor que".
Para
ello podríamos convertir la distribución de modo que muestre cuántas
observaciones son menores que 4.95, menor que 8.95, etc.
En
lugar de "menos de 4.95", podríamos haber utilizado "menos de
5.0" o "menos de
4.9",
etc.
Las
distribuciones del tipo "mayor que" se construyen de la misma forma,
pero en la práctica la más utilizada es la anterior. Con el fin de comparar
distribuciones de frecuencias puede ser ventajoso convertirlas en
distribuciones porcentuales. Puede hacerse lo mismo con las distribuciones
acumuladas, obteniendo las distribuciones
porcentuales acumuladas.
Las
distribuciones acumuladas se presentan por lo general en forma de ojivas, las cuales son
similares a los polígonos de frecuencias, excepto en que graficamos las
frecuencias sobre las fronteras en lugar de graficarlas sobre la marca de
clase. Los puntos obtenidos se unen mediante segmentos de recta, obteniendo la
gráfica de la distribución "menor que".
8.5.3
Cálculo de las medidas descriptivas para una distribución de frecuencias
Cuando
los datos se presentan por medio de una distribución de frecuencias, perdemos
la información acerca del valor de cada uno de ellos, ya que se encuentran
reunidos en clases. En este caso sustituimos cada uno de los valores de un
intervalo por la marca de clase.
Si
llamamos Xi al punto medio
de cada intervalo, y fi a la frecuencia del intervalo, obtenemos las siguientes fórmulas
para el cálculo de las diversas medidas descriptivas:
(En estas fórmulas, k representa el número de
intervalos o clases de la distribución)
Si
bien es posible obtener expresiones para las demás medidas, sólo nos ocuparemos
de las dos mencionadas más arriba.
En
el caso de la mediana, su obtención puede hacerse en forma aproximada a partir
del gráfico de la distribución acumulada, obteniendo del mismo el valor de la
variable que corresponde a una frecuencia acumulada de
·
Interpretación de medidas de asimetría: sesgo
de una distribución, a la derecha y a la izquierda.
La parte de cómo
interpretar el resultado es:
El
valor de tu coeficiente de asimetría tiene esta interpretación, vamos a
llamarlo por "C"
Si C < 0, tu distribución tiene asimetría negativa o a la izquierda, es decir, sesgo negativo.
Si C = 0, tu distribución es simétrica.
Si C > 0 tu distribución tiene asimetría positiva o a la derecha, es decir, tiene sesgo positivo.
Y cuanto mayor sea el valor, tanto positiva como negativamente, mayor es el grado de asimetría.
Entonces, tu valor 2,49 es mayor que cero, por lo tanto tu distribución tiene sesgo positivo. Además, comento que cuanto mayor sea el valor mayor será el sesgo, por ejemplo, si te hubiera salido 1,5, ese sesgo es menor que el de 2,49, pero si hubiera salido 50,5 sería mucho mayor que el tuyo.
Así la interpretación del sesgo es que tu distribución tiene asimetría positiva.
Si C < 0, tu distribución tiene asimetría negativa o a la izquierda, es decir, sesgo negativo.
Si C = 0, tu distribución es simétrica.
Si C > 0 tu distribución tiene asimetría positiva o a la derecha, es decir, tiene sesgo positivo.
Y cuanto mayor sea el valor, tanto positiva como negativamente, mayor es el grado de asimetría.
Entonces, tu valor 2,49 es mayor que cero, por lo tanto tu distribución tiene sesgo positivo. Además, comento que cuanto mayor sea el valor mayor será el sesgo, por ejemplo, si te hubiera salido 1,5, ese sesgo es menor que el de 2,49, pero si hubiera salido 50,5 sería mucho mayor que el tuyo.
Así la interpretación del sesgo es que tu distribución tiene asimetría positiva.
Lectura
de cuadros
Son
las columnas insertadas en la parte superior del cuadro y que, generalmente,
aparecen en uno, dos o tres niveles. El primer nivel corresponde a las
características que en el título, generalmente, vienen precedidas de la
preposición "POR".
El
encabezado debe escribirse en minúsculas, excepto la primera letra de la
categoría o nombre propio consignado. Podrán utilizarse hasta tres niveles
verticales de detalle (cada nivel comprende uno o más renglones) y deberá
tenerse en cuenta los siguientes criterios:
• Se
utilizará un nivel cuando se presente información de una categoría que aluda a
una sola clasificación. En el encabezado sólo deberá aparecer la clasificación
y se destinará la primera columna para el total del conjunto, excepto en series
de tiempo. Ejemplo:
• Se
utilizará dos niveles cuando se presente información de dos categorías y alguna
clasificación por cada una. Esta clasificación puede ser la misma para ambas
categorías. Ejemplo:
• Se
utilizará tres niveles cuando se presente información de varias categorías y
alguna clasificación por cada una, dando preferentemente prioridad a la unidad
de medida y período de referencia en el encabezamiento, según sea el caso.
Ejemplos:
Adicionalmente,
las siguientes consideraciones deben tenerse en cuenta para el encabezado de cuadros:
• Cuando
las unidades de medida se presenten en el primer nivel, deben ser escritas en
minúsculas sin paréntesis. Si están en el último nivel, las unidades de medida
se colocarán entre paréntesis y debajo de cada elemento de la clasificación.
(Ver ejemplos en el párrafo anterior).
• Si
los elementos del encabezado son mayores a las de la columna matriz, significa
que el cuadro no está bien diseñado y debe invertirse, trasladando las
variables del encabezado a la columna matriz y viceversa.
• Para
facilitar la lectura e interpretación de los datos podrá añadirse llamadas al
encabezado.
La
llamada se indica con la barra oblicua "/" y cuando es asignada a una
cifra debe acompañarse de letras minúsculas. Ejemplo: a/ b/. Para acompañar
llamadas con palabras se utilizará números. Ejemplo: 1/ 2/.
• Cuando
en el encabezado se muestre el período de referencia, deberá empezar de
izquierda a derecha, siendo el período más actual el que ocupe la última
columna del cuadro. Ejemplo:
1. LA ESTADÍSTICA EN EL PROCESO DE INVESTIGACIÓN
Habitualmente se acepta que la Estadística resulta una
herramienta de trabajo útil en la investigación educativa en la medida en que
ofrece técnicas y procedimientos que pueden ser aplicados en la etapa de
análisis de datos. Aceptando que ésta es la aplicación de mayor peso en el
contexto de la investigación educativa, a través de los párrafos que siguen
trataremos de atenuar el valor de lo que podrían suponer concepciones reduccionistas,
ocupándonos del papel que la Estadística también desempeña en momentos del
proceso de investigación diferentes a la fase de análisis de datos.
a) Planteamiento
del problema y formulación de hipótesis
La Estadística está presente en la formulación del problema de
investigación. El proceso de investigación constituye un todo interrelacionado
en el que las decisiones sobre cualquiera de los elementos suponen
condicionantes de cara a los restantes elementos del proceso. Desde esta
perspectiva, la formulación del problema determinará en buena medida el tipo de
datos que es necesario recoger, las técnicas de recogida adecuadas para ello y
los procedimientos estadísticos que se utilizarán en el análisis. Por otra
parte, entre las características que debe poseer cualquier problema de
investigación se encuentra su resolubilidad, aspecto que a veces sólo queda
garantizado si contamos con técnicas estadísticas adecuadas, capaces de abordar
los interrogantes de partida. Por ejemplo, el planteamiento de problemas que
supongan comparaciones entre múltiples grupos no podría hacerse sin contar con
técnicas como el análisis de la varianza; un gran número de problemas de
investigación en los que se incluyen múltiples dimensiones o variables
simultáneamente de hecho no han llegado a ser estudiados hasta contar con
técnicas de análisis multivariante que permiten abordarlos.
El mismo argumento podría utilizarse para justificar la
presencia de la Estadística en la formulación de hipótesis. La formulación de
hipótesis no puede hacerse de espaldas a consideraciones acerca de las técnicas
estadísticas que permitirán su contrastación.
Como afirman Arnal, Del Rincón y Latorre (1992), el
investigador se ve en la necesidad de salvaguardar la coherencia entre la
teoría, la hipótesis y el posterior análisis estadístico que le permitirá
aceptarla o rechazarla. En el marco de los programas de investigación
positivistas la hipótesis científica, para ser contrastada, suele ser expresada
en términos estadísticos, dando paso a la aplicación de técnicas para el
contraste de hipótesis.
En el planteamiento del problema y la posterior formulación de
hipótesis han de tenerse en cuenta tanto el marco teórico como los trabajos
previos realizados sobre el mismo tema, a cuya revisión podrían contribuir
técnicas de metaanálisis, aplicadas a la síntesis e interpretación tanto de los
resultados obtenidos en la investigación como de los métodos utilizados para
ello (Gómez Benito, 1987; Sánchez y Ato, 1989). Los resultados a los que nos
conduce el metaanálisis son síntesis de los obtenidos en las diferentes investigaciones
realizadas sobre un tema, nos informan sobre el rigor de la misma, los métodos
empleados, la representatividad de las muestras, la fiabilidad y validez de los
estudios. Una vía para determinar las tendencias dominantes en el modo de
abordar el estudio de un tema, los aspectos del mismo que son objeto de mayor atención
por parte de la comunidad científica, o los autores que por encontrarse entre los
más citados gozan de mayor autoridad, la constituye la utilización de
revisiones bibliométricas, en las que a través de estudios estadísticos se
pueden poner de manifiesto las tendencias que se dibujan en publicaciones o
investigaciones sobre un tema. Las bases documentales informatizadas permiten
con facilidad realizar estadísticas acerca del número de registros relativos a
diferentes tópicos, lo cual nos aporta cierta aproximación a la importancia y
relevancia de distintos objetos de investigación o modos de abordarlos a lo
largo de una determinada época. Todo este tipo de resultados estadísticos en
ningún modo sustituyen a la revisión exhaustiva de la literatura y el estudio
del marco teórico-conceptual en el que se inscribe el trabajo de investigación,
pero constituyen una información complementaria en manos del investigador a la
hora de concretar el objeto de interés y fundamentar su estudio.
Por otra parte, a veces la formulación del problema no se apoya
sólo en resultados de investigaciones anteriores, sino que el investigador
recurre a trabajos descriptivos previos o estudios pilotos, en los que el
empleo de la Estadística puede contribuir a clarificar el problema en estudio.
Los resultados de una descripción estadística acerca de determinadas variables
implicadas en algún fenómeno educativo, podrían dar pie a que se formularan
hipótesis en las que se contemple la relación entre variables; y estudios basados
en la obtención de medidas estadísticas de correlación entre variables facilitarían
el planteamiento de problemas y la formulación de hipótesis que suponen relaciones
de causalidad. Tatsuoka y Tiedeman (1963), en su trabajo sobre la Estadística en
el método científico, insisten en esta posibilidad, afirmando el papel de las
técnicas estadísticas en el desarrollo de constructos teóricos e hipótesis
acerca de las relaciones entre ellos. De este modo, la Estadística está
presente en la fase inductiva del método científico, contribuyendo a la
creación de modelos teóricos a partir de los cuales se deducirán hipótesis
contrastables que relacionan variables observables.
b) Diseño
de investigación
La Estadística forma parte de los diseños de investigación experimentales.
Como es sabido, en el concepto de diseño es posible contemplar de un lado la
organización de los aspectos que constituyen el experimento y, de otro, el
procedimiento estadístico que hará posible la interpretación de los resultados
(Fisher, 1953). Para Kerlinger (1981:214), el principio estadístico en el que
descansa el diseño es maximizar la varianza sistemática, regular la varianza
sistemática extraña y minimizar la varianza de error. Las técnicas estadísticas
constituyen una parte contemplada en el diseño del experimento en la medida en
que facilitarán el análisis de los datos y posibilitarán el control de la
varianza debida a variables extrañas. Si dentro del diseño del experimento se
consideran grupos experimentales y grupos control, que antes de la aplicación de
los tratamientos han de ser equivalentes, el investigador necesitará recurrir a
técnicas estadísticas para el contraste de hipótesis acerca de la existencia de
diferencias entre los grupos y comprobar de ese modo la equivalencia
pretendida.
Además, la Estadística está presente cuando el diseño incluye
la selección de sujetos. La teoría de muestras proporcionará tanto los
procedimientos de selección como la determinación del tamaño muestral necesario
para mantener el error y la confianza dentro de límites aceptables.
La recogida de datos es una tarea en la que aparentemente no
parecen jugar un papel las técnicas estadísticas. Sin embargo, la Estadística
está de manera implícita presente si consideramos el modo en que se elaboran
los instrumentos utilizados para la recogida de datos (tests, cuestionarios,
protocolos de observación, etc.). A esta disciplina corresponde un papel
crucial en la construcción de tales instrumentos, dado que las técnicas
estadísticas están en la base de los procedimientos por los cuales se analizan sus
características técnicas. Por citar algunos ejemplos, la determinación de la
fiabilidad y validez de algunos instrumentos se apoya directamente en coeficientes
de correlación; la aplicación de técnicas de análisis de componentes
principales o análisis factorial permite explorar o confirmar la
dimensionalidad de los instrumentos; los métodos para el análisis de items, en
la teoría clásica de los tests o en la teoría de respuesta al ítem, se basan en
correlaciones y en la estimación de parámetros recurriendo a diferentes
procedimientos estadísticos, tales como los métodos de máxima verosimilitud o
los métodos de inferencia bayesiana; tests como el de chi-cuadrado permiten valorar
el grado de ajuste de las respuestas a los items a modelos logísticos de uno,
dos o tres parámetros.
Al margen de todo el aparato estadístico que se esconde tras la
elaboración o el análisis de los instrumentos de recogida de datos, la
Estadística puede participar indirectamente en la operación de recogida
proporcionando primeras elaboraciones de los datos en el momento mismo de su
registro. Por ejemplo, cuando tras aplicar un test se registran los resultados
en forma de percentiles o eneatipos, resultantes de la comparación de la
puntuación del sujeto con un grupo normativo.
c) Análisis
de datos
Ya hemos destacado la importancia de las técnicas estadísticas
en la fase de análisis de datos. Traigamos aquí, para insistir en esta idea,
las palabras de De la Orden (1985:XXI), cuando afirma que «la forma más
adecuada de razonar sobre la base del gran número de observaciones exigidas
para el estudio experimental de la educación, con pretensión generalizante, es
la Estadística». De acuerdo con el concepto de Estadística que hemos apuntado,
a la Estadística corresponden tareas de organización, descripción, análisis y
presentación de datos acerca de las muestras estudiadas, y también de
generalización de los resultados a las poblaciones de donde las muestras fueron
extraídas. El análisis estadístico de los datos supone una descripción de
éstos, el descubrimiento de regularidades y la inferencia de características
relativas a conjuntos más amplios que los directamente estudiados.
d) Obtención
de conclusiones y redacción del informe
Recordando las palabras de Siegel (1991:20), «la estadística
nos proporciona herramientas que formalizan y uniforman nuestros procedimientos
para sacar conclusiones ». De alguna forma, las conclusiones están predeterminadas
por el tipo de técnicas estadísticas que utilicemos. Un análisis de regresión,
por ejemplo, nos permitirá obtener conclusiones acerca de la posibilidad de que
determinadas variables independientes puedan predecir el valor observado en una
variable dependiente; un análisis de conglomerados nos llevará a concluir sobre
formas de agrupamiento entre los individuos u objetos que estudiamos; un
análisis simple de la varianza supondrá llegar a conclusiones acerca de las
diferencias significativas entre las medias de diferentes grupos; etc. En
cualquier caso, la Estadística estará presente a la hora de elaborar las
conclusiones, aportando las claves para la interpretación de los resultados del
análisis.
La presentación de las conclusiones, así como de todo el
proceso de investigación, debe contar con la inclusión de resultados
estadísticos. Aunque no se trata de una aplicación de técnicas estadísticas en
el momento de redactar el informe, sí que la Estadística está de algún modo
presente a la hora de mostrar los resultados. Las conclusiones de un estudio se
verán convenientemente ilustradas mediante la presentación de tablas, cuadros,
etc. recogiendo medias, porcentajes, coordenadas, correlaciones, o cualquier otro
tipo de estadísticos. La inclusión de los pesos factoriales de las variables
consideradas en un análisis factorial, por ejemplo, es imprescindible si
queremos ilustrar el modo en que cada factor se ve saturado por las variables
observadas.
Otro tanto podemos decir acerca de los resultados estadísticos
expresados gráficamente. La utilización de determinadas técnicas estadísticas y
la intención posterior de comunicar los resultados obtenidos requieren incluir
representaciones estrechamente vinculadas a aquéllas en los informes de
investigación. Técnicas como el análisis de conglomerados, el path-analysis o
el análisis de correspondencias, son indisociables de formas de representación
gráfica como dendogramas, diagramas de flujos o gráficos factoriales,
respectivamente.
En cuanto a la calidad de las investigaciones, la Estadística
aporta sus procedimientos para garantizar la validez interna y la validez
externa en los experimentos. Procedimientos de muestreo aleatorio y técnicas
estadísticas como el análisis de la covarianza, para controlar el efecto de
variables intervinientes que pudieran enmascarar el efecto de las variables
independientes, resultan recursos útiles en este sentido.
LA ESTADÍSTICA EN LOS PROGRAMAS DE INVESTIGACIÓN CUALITATIVOS
Para algunos, aún siguen siendo irreconciliables el análisis
estadístico de datos y la investigación que se desarrolla desde planteamientos
diferentes del tradicional marco científico-experimental. Sin embargo, el
empleo de los métodos estadísticos trasciende a estos límites y puede estar
presente de alguna manera en estudios e investigaciones realizados desde
perspectivas interpretativas o críticas, a las que globalmente podemos referirnos
como perspectiva cualitativa. Indirectamente al menos, la Estadística
contribuiría a delimitar o introducir el problema de estudio, en la medida en
que éste podría apoyarse en los resultados de estudios previos basados en el
análisis estadístico. Comienza a ser relativamente frecuente, en el
acercamiento a las realidades educativas, partir de un estudio descriptivo
extensivo con base metodológica cuantitativo-estadística que abra paso a
estudios de tipo interpretativo, basados en el estudio de casos y dirigidos a
profundizar en la explicación de los fenómenos analizados. Es lo que se ha denominado
una estrategia de combinación metodológica (Bericat, 1998), como forma de
integración de métodos cuantitativos y cualitativos.
En lugar de basarse en procedimientos de muestreo
probabilístico, dirigidos a «construir modelos reducidos de la población total,
con resultados extrapolables al universo del que se extraen» (Rodríguez Osuna,
1991:12), el modo habitual en que suelen determinarse el número y las
características de los individuos o contextos que serán estudiados se encuentra
más próximo al modelo de muestreo deliberado o intencional
(Patton, 1984). El problema de investigación, las concepciones
sobre el mismo, los factores empíricos que lo afectan y las características de
la población estudiada, llevan a determinar qué casos van a ser seleccionados.
Cuando no existe un suficiente conocimiento previo de la realidad objeto de
estudio, la fase de muestreo podría verse auxiliada por análisis previos
realizados sobre la población, que contribuyan a un mejor conocimiento de la
misma. En la medida en que se lleven a cabo estudios sobre la población,
habremos de trabajar con grandes colectivos y el recurso a las técnicas
estadísticas será necesario. Estas permitirán por ejemplo una descripción y/o
clasificación de los sujetos, fenómenos o casos estudiados, que ayudarán al
investigador en la fase de selección de casos.
Existen vías diferentes a la Estadística para llevar a cabo el
análisis de datos en la investigación cualitativa. En este sentido, entre los
procedimientos de análisis de datos, entendidos como técnicas para extraer
información de los datos e interpretar su significado, cabría hacer una
distinción entre análisis cualitativo, que expresa, rdena, describe, interpreta los datos mediante
conceptos, razonamientos y palabras, y análisis cuantitativo, en el que se
recurre a conceptos y razonamientos que se apoyan en números y estructuras
matemáticas (Yela, 1994). Aunque lo más característico es el empleo de técnicas
cualitativas, al analizar los datos son muchos los investigadores
interpretativos o críticos que recurren en algún momento de su proceso
analítico a las técnicas estadísticas, usadas para complementar o contrastar
las conclusiones obtenidas por otras vías. Incluso este rasgo se ha destacado
como una característica de los enfoques de investigación interpretativos o
críticos, en los que se recurre, sobre todo a la hora del análisis de datos, a
procedimientos cuantitativos propios del enfoque positivista (De Miguel, 1988).
La naturaleza de los datos cualitativos —palabras, y no
números— constituye una dificultad metodológica en la investigación educativa,
pues si bien las palabras encierran una mayor carga de significados, los
números tienen la ventaja de ser menos ambiguos y son analizados con menor
esfuerzo. Esta razón lleva a una parte de los investigadores a preferir el trabajo
con números y traducir los textos en valores numéricos desde las primeras fases
del análisis. Para Miles y Huberman (1984:215), «cuando identificamos un tema o
modelo estamos aislando algo que ocurre un número de veces y que ocurre
consistentemente de un modo específico», es decir respecto a cualquier tema
establecemos algún tipo de recuento. Los números, siguiendo a estos autores, permiten
que nos hagamos una idea de la importancia de los temas que tenemos ante nosotros
cuando trabajamos con un volumen importante de datos cualitativos, y
constituyen un criterio a la hora de verificar la existencia de una hipótesis o
relación entre temas. Autoras tan representativas de la investigación
etnográfica como Goetz y Lecompte (1988:178-179) reconocen igualmente el papel
de los datos numéricos, al afirmar
que «una vez identificados los elementos, es posible reducirlos
a forma cuantificable examinándolos, elaborando listas, codificándolos y
asignándoles puntuaciones». Partiendo de las frecuencias con que se dan determinados
fenómenos o están presentes determinados temas en los textos, identificaríamos
las relaciones que se dan entre los elementos mediante la aplicación de
determinadas técnicas estadísticas, cuya
importancia en el contexto de un análisis de datos cualitativos
varía ampliamente, desde una presencia nula hasta el uso de técnicas
estadísticas de variado grado de complejidad (Wilcox, 1982).
Cuando los resultados de la cuantificación de textos son
analizados estadísticamente, conviene emplear pruebas estadísticas
inferenciales, preferentemente no paramétricas, dado que con este tipo de datos
no es posible mantener el supuesto de normalidad de la población, en el que en
gran medida se apoya la Estadística clásica. Además, no podríamos pasar mucho
más allá de un nivel de medida nominal y ordinal.
Una revisión de las técnicas estadísticas aplicables a datos
categóricos resultantes de la reducción cuantitativa de datos textuales puede
consultarse en el trabajo de García, Gil y Rodríguez (1994).
Desde determinados enfoques, los procedimientos estadísticos
ganan importancia frente a las técnicas cualitativas de análisis. Es el caso
del análisis de contenido tradicional, donde el interés del investigador se
dirigía al recuento de frecuencias de aparición de palabras o temas de especial
relevancia en el estudio, con el objetivo deproceder a su tratamiento
estadístico. Desde muy pronto, los programas de análisis automático de textos
se han basado en los recuentos y el tratamiento estadístico. Cabe citar el
programa GENERAL INQUIRER (Stone y Otros, 1966), uno de los pioneros, o el programa
WORDS (Iker, 1975), con el que llegan a ser extraídos los temas presentes en un
texto sometiendo a tratamiento estadístico las frecuencias de las palabras en
cada unidad considerada.
Con este tipo de enfoques, la cuantificación y el procesamiento
estadístico pueden llegar a ser la vía exclusiva por la que se analizan los
textos. Sirva como ejemplo la aplicación de las técnicas de análisis de datos
de la escuela francesa al análisis de textos procedentes de respuestas abiertas
a cuestionarios, entrevistas, textos literarios, etc., permitiendo el recuento
de unidades elementales en los textos y la realización de análisis estadísticos
multivariantes (análisis de correspondencias, clasificaciones) a partir del
mismo. Este tipo de enfoques se ha desarrollado enormemente, dando lugar a la denominada
Estadística textual (Lebart y Salem, 1994).
Paquete
estadístico
Un paquete estadístico es un programa informático que está especialmente diseñado para resolver problemas en el
área de la estadística, o bien está programado para resolver
problemas de esta área. Existen muchos programas que no son especialmente
estadísticos pero que pueden hacer algunos cálculos aplicables en estadística aplicada. Estos programas han impulsado y siguen impulsando enormemente
la labor de los investigadores que desean utilizar la estadística como apoyo en
su trabajo.
Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad de uso y
aprendizaje pero un mayor encorsetamiento a la hora de hacer cálculos que el
programa no tenga predefinidos. Los programas más complejos suelen tener la
necesidad de conocer su lenguaje de programación, pero suelen ser mucho más flexibles al
porderse incluir en ellos funciones, tests o contrastes que no traen instalados
por definición.
Ventajas
La potencia de cálculo de un ordenador
puede ayudar a un investigador a realizar cientos o miles de contrastes de hipótesis en un tiempo muy reducido. Asimismo puede calcular decenas de
modelos de regresión en un tiempo muy corto y después quedarse con el más
apropiado de ellos. En problemas de investigación de operaciones un programa estadístico es capaz de
realizar miles de iteraciones por segundo de un algoritmo en el que una persona
tardaría varios minutos en cada una de ellas. Asimismo, es capaz de elegir
entre miles de resultados posibles cuál de todos ellos es el óptimo.
Básicamente, lo que permiten es resolver problemas de estadística aplicada por fuerza bruta o por probar miles de combinaciones para
quedarse finalmente con la que se crea que es la mejor
Inconvenientes
En los programas más complejos se necesita
tener conocimientos de programación, así como para realizar los cálculos más
laboriosos. Por ejemplo si se desea realizar una operación dada a una columna
concreta, lo más frecuente es que se pueda hacer esto por ventanas, sin
embargo, si deseamos hacer esto mismo para todas las columnas de nuestro
documento, que pueden ser centenares, es posible que necesitemos programar un bucle
en la sintaxis del programa.
Otro inconveniente está en que en
estadística a menudo nos pueden salir resultados contradictorios entre tests
distintos. Un programa informático se dará cuenta de ello y nos avisará de
algún modo, pero tendrá que ser el usuario el que decida a cuál de los test
hacer caso, y esto en ocasiones es complejo, sobre todo si no se está
familiarizado a fondo con la estadística o se tiene poca experiencia.
Programas estadísticos más
utilizados
Existen multitud de paquetes informáticos
aparte es éstos, tanto de software
privado como de software libre, sin embargo, los más utilizados son estos. A pesar de que SAS
y SPSS suelen ser considerados los más potentes, hay muchísimas empresas que
utilizan programas mucho menos potentes como Excel. Esto se debe sobre todo a
que su uso parece más sencillo, la mayoría de las personas están familiarizadas
con él y la mayor parte de las empresas ya tienen instalado Excel en sus
ordenadores, mientras que las licencias de SAS[1] y SPSS[2] cuestan varios miles de euros. Sin
embargo, a nivel de investigación estadística se utilizan siempre paquetes
estadísticos propiamente dichos ya que suelen tener una capacidad mucho mayor.
Estadística
Descriptiva e Histogramas con Excel
Existen herramientas de software
específicas para el tratamiento de datos (como por ejemplo R-project, SPSS,
otros), pero lo cierto es que para el día a día lo que tendremos a mano es
alguna planilla de cálculo, como por ejemplo Excel.Ademas de poder utilizar las funciones estadísticas de Excel para el cálculo de medidas resumen descriptivas, y de conteo y gráficas para el armado de una tabla por intervalo de clases y su correspondiente Histograma, este software incluye un complemento para Análisis de Datos, que ofrece herramientas para análisis de Estadística Descriptiva e Histograma, además de muestreo, Varianza, Jerarquía y pecentil, Correlación, Covarianza, Regresión, entre otras.
EXCEL 2007
Para poder acceder a estas herramientas debemos ir a:
Solapa Datos, grupo Análisis y hacer clic en Análisis de Datos.
Si la opción Análisis de datos no está disponible, se debe cargar el programa de complemento Herramientas para análisis (las instrucciones que siguen están tomadas de la Ayuda de Excel 2007)
1. Haga clic en el botón de Microsoft Office (el redondo con la ventanita de colores en la esq sup izquierda) y, a continuación, haga clic en Opciones de Excel.
2. Haga clic en Complementos y, en el cuadro Administrar, seleccione Complementos de Excel.
3. Haga clic en Ir.
4. En el cuadro Complementos disponibles, active la casilla de verificación Herramientas para análisis y, a continuación, haga clic en Aceptar.
Sugerencia Si Herramientas para análisis no aparece en la lista del cuadro Complementos disponibles, haga clic en Examinar para buscarlo.
Si se le indica que Herramientas para análisis no está instalado actualmente en el equipo, haga clic en Sí para instalarlo.
Veamos las dos herramientas que nos interesan aquí:
ESTADISTICA DESCRIPTIVA
La herramienta de análisis Estadística descriptiva genera un informe estadístico de una sola variable para los datos del rango de entrada, y proporciona información acerca de la tendencia central y dispersión de los datos.
Brinda un resumen en el cual las medidas que calcula son: Cuenta, Suma, Mínimo, Máximo, Rango, Media, Mediana, Moda, Desviación estándar, Varianza, Curtosis, Error Típico y Coeficiente de asimetría.
HISTOGRAMA
A partir de definir los intervalos a utilizar, genera la tabla por intervalo de clases, con el conteo de frecuencias de clase y el Histograma (gráfica).
Para tener en cuenta: al definir los intervalos en la planilla, lo que debemos especificar es el límite superior de cada intervalo, y la herramienta los toma como intervalos semiabiertos (abierto-cerrado] ( al revés de como lo hacemos habitualmente en clase en forma manual donde solemos tomarlos como semiabiertos pero [cerrado-abierto), teniendo esto presente solo es cuestión de acomodar los cálculos para los límites de los intervalos, y listo).
Estadística
descriptiva
Genera un
informe de estadísticas de una sola variable para datos del rango de entrada, y
proporciona información acerca de la tendencia central y dispersión de los
datos.
El aspecto de
los cuadros de diálogo entrada y la salida de resultados puede verse en el
apartado anterior en el epígrafe "Utilización de los cuadros de diálogo de
Análisis de datos".
Opciones del cuadro
de diálogo Estadística descriptiva
Rango de entrada
Escriba la
referencia de celda correspondiente a los datos que desee analizar. La
referencia deberá contener dos o más rangos adyacentes organizados en columnas
o filas.
Rango de salida
Escriba la
referencia correspondiente a la celda superior izquierda de la tabla de
resultados. Esta herramienta genera dos columnas de información por cada
conjunto de datos. La columna de la izquierda contiene los títulos de las
estadísticas y la derecha, las estadísticas. Microsoft Excel escribirá una
tabla de estadística de dos columnas por cada columna o fila del rango de
entrada, dependiendo de la opción que se haya seleccionado en el cuadro
"Agrupado por".
En una hoja
nueva
Haga clic aquí
para insertar otra hoja en el libro actual y pegar los resultados en la celda
A1. Para darle un nombre a la nueva hoja de cálculo, escríbalo en el cuadro.
En un libro
nuevo
Haga clic aquí
para crear otro libro y pegar los resultados en la celda A1 del nuevo libro.
Agrupado por
Haga clic en el
botón "Filas" o "Columnas" para indicar si los datos del
rango de entrada está organizados en filas o en columnas.
Títulos en la
primera fila/Títulos en la primera columna
Si la primera
fila del rango de entrada contiene títulos, active la casilla de verificación
"Títulos en la primera fila" o, por el contrario, si hay títulos en
la primera columna, active la casilla "Títulos en la primera
columna". Desactívela si el rango de entrada carece de títulos; Microsoft
Excel generará los títulos de datos apropiados para la tabla de resultados.
Resumen de
estadísticas
Active esta
casilla si desea que Microsoft Excel genere un campo por cada una de las
siguientes estadísticas de la tabla de resultados: Media, Error típico (de la
media), Mediana, Moda, Desviación estándar, Varianza de la muestra, Curtosis,
Coeficiente de asimetría, Rango, Mínimo, Máximo, Suma, Cuenta, Mayor (#), Menor
(#) y Nivel de confianza.
K-ésimo mayor
Active esta
casilla si desea incluir una fila correspondiente al valor k-ésimo mayor de
cada rango de datos en la tabla de resultados. Escriba en el cuadro el número
que se utilizará para k. Si k es 1, dicha fila contendrá el máximo del conjunto
de datos.
K-ésimo menor
Active esta
casilla si desea incluir una fila correspondiente al valor k-ésimo menor de
cada rango de datos en la tabla de resultados. Escriba en el cuadro el número
que se utilizará para k. Si k es 1, dicha fila contendrá el mínimo del conjunto
de datos.
Nivel de
confianza para la media
Active esta
casilla si desea incluir una fila correspondiente al nivel de confianza de la
media en la tabla de resultados. Escriba en el cuadro el nivel de confianza que
desee usar, por ejemplo, con un valor 95%, se calculará el nivel de confianza
de la media con un nivel de significación del 5%.
La Hoja de Cálculo Excel/Calc puede convertirse en una poderosa
herramienta para crear entornos de aprendizaje que enriquezcan la
representación (modelado), comprensión y solución de problemas, en el área de
la estadística y probabilidad. Excel ofrece funcionalidades que van más allá de
la tabulación, cálculo de fórmulas y graficación de datos:
- En estadística descriptiva representa todos los tipos de
gráficos y calcula la media, moda, mediana, recorrido, varianza y
desviación típica.
- En estadística bidimensional representa la nube de puntos y
la recta de regresión. Calcula el centro de gravedad, las desviaciones
típicas marginales, la covarianza, el coeficiente de correlación, la recta
de regresión y buscar objetivos.
- En la distribución binomial, calcula cualquier probabilidad,
la media, varianza y desviación típica.
- En la distribución normal, calcula cualquier probabilidad en
la normal estándar N(0, 1) y en cualquier normal N(m, s) y genera la tabla
N(0, 1)
- En inferencia estadística calcula los intervalos de
confianza, el tamaño de la muestra y se puede aplicar al contraste de
hipótesis, tanto en el bilateral como en el unilateral.
- En probabilidad simula todo tipo de lanzamientos.
La instalación del programa es muy sencilla, además Microsoft Excel
incluye un comando para el análisis de datos, dentro de las "herramientas
para el análisis", su uso es poco común, ya que no se tiene cuidado de
instalar todas las funciones dentro de las "herramientas",
perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro
de la estadística.
No hay comentarios:
Publicar un comentario