lunes, 27 de agosto de 2012

Estadistica Descriptiva Temas: del 2.2.1 al 3.2.2


ANALISIS DE RESULTADOS ESTADISTICA DESCRIPTIVA

8.4.1 Propiedades de los datos cuantitativos
Ya vimos que el material con que cuenta el estadístico es un conjunto de datos. Pero la recolección de datos es sólo uno de los aspectos de la estadística descriptiva ¿cómo se pueden utilizar esos datos?
A veces los datos estadísticos obtenidos de muestras, experimentos o cualquier colección de mediciones, son tan numerosos que carecen de utilidad a menos que sean condensados. Veremos tres propiedades de los datos cuantitativos que permiten una mejor comprensión de la información por ellos aportada.
Estas propiedades pueden ser expresadas por diversas medidas, que agrupamos de la siguiente manera:
1. de tendencia central
2. de dispersión
3. de forma
Cuando se calculan a partir de los datos muestrales, reciben el nombre de estadísticos y si se los calcula a partir de la población, se denominan parámetros.
8.4.2 Medidas de tendencia central
Con este nombre nos referimos a valores promedios que describen todo un conjunto de datos. Se utilizan cuatro promedios, frecuentemente, como medidas de tendencia central o de posición: la media aritmética, la mediana, la moda y el rango medio.
8.4.2.1 Media aritmética: es la medida de posición utilizada con más frecuencia. Si X1… Xn constituyen una muestra de n observaciones, la media aritmética se define de la siguiente manera:





Si bien es una de las medidas más utilizadas posee la desventaja de ser muy afectada por los valores extremos, pues en su cálculo se utilizan todas las observaciones. Puede entonces dar una imagen distorsionada de la información contenida en los datos, por lo que no siempre es la mejor medida de posición.

8.4.2.2 Mediana: Es el valor que ocupa la posición central en un conjunto de datos, ordenados en forma creciente o decreciente. Así definida, la mitad de las observaciones es menor que la mediana, mientras que la otra mitad es mayor que la mediana. Resulta apropiada cuando el conjunto de datos posee observaciones extremas.

Para calcular la mediana, primero se deben ordenar los datos. Luego se debe determinar el dato que ocupa la posición                   (cuando n es impar)                                                                                                                                                                 


o la semisuma de los valores numéricos correspondientes a las dos observaciones centrales (cuando n es par). Por ejemplo, si los datos son: 25 12 23 28 17 15, se obtiene el arreglo ordenado 12 15 17 23 25 28, y la mediana se obtiene promediando los valores 17 y 23, resultando igual a 20. El cálculo de la mediana se ve afectado por el número de observaciones, y no por la magnitud de los valores extremos.

8.4.2.3 Moda: es el valor de un conjunto de datos que aparece con mayor frecuencia.
Tampoco depende de los valores extremos, pero es más variable que las otras medidas de posición para las distintas muestras.
Cuando no hay ningún valor con frecuencia mayor, la distribución carece de moda.
También se puede dar el caso de una distribución con más de una moda.

8.4.2.4 Rango medio: Es la media de las observaciones mayor y menor. Como intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como medida de posición, pero frecuentemente ofrece un valor adecuado rápido y sencillo para resumir un conjunto de datos (cuando puede suponerse que no existen valores extremos).

8.4.3 Medidas de dispersión o de variabilidad
Las medidas de dispersión permiten conocer la variabilidad de un conjunto de datos.
Estudiaremos las siguientes: rango, varianza, desviación estándar y coeficiente de variación.

8.4.3.1 Rango: Es la diferencia entre las observaciones mayor y menor. Si bien es una medida de dispersión simple, posee el inconveniente de que no toma en consideración la forma en que se distribuyen los datos entre los valores más pequeños y más grandes.

8.4.3.2 Varianza y desviación estándar: Una medida de variabilidad podría obtenerse a partir de la dispersión de cada una de las observaciones con respecto a algún valor particular, por ejemplo la media. Pero, como es fácil de comprobar, la suma de los desvíos de cada valor respecto a la media es siempre cero, es decir
 



Por eso consideraremos una medida obtenida "promediando" los cuadrados de los desvíos, la varianza muestral:
El desvío estándar muestral es la raíz cuadrada de la varianza:
A partir de la fórmula puede observarse que ni la varianza ni el desvío estándar, pueden ser negativos, y hay un único caso en que pueden ser nulos: cuando todos los valores de la muestra son iguales.
La varianza y el desvío estándar miden la dispersión "promedio" en torno a la media, es decir cómo fluctúan las observaciones mayores por encima de la media y cómo se distribuyen las observaciones menores por debajo de ella.
A pesar de que la varianza posee ciertas propiedades matemáticas útiles, está expresado en unidades cuadradas (dólares cuadrados, etc.) lo que le hace perder significado. El desvío estándar no posee este inconveniente, y está expresado en las unidades originales.
8.4.3.3 Coeficiente de variación: Es una cantidad que mide la dispersión de los datos con respecto a la media:


El coeficiente de variación es una medida relativa. No se expresa en término de las unidades utilizadas, sino como porcentaje. Es útil cuando se compara la variabilidad de dos conjuntos de datos, o más, expresados en diferentes unidades. También es útil cuando se comparan dos o más distribuciones de datos expresados en la misma unidad, pero que difieren en tal forma que una comparación directa de los desvíos estándar no resulta útil.
8.4.4 Forma
Las medidas de forma describen la manera en que se distribuyen los datos. Una distribución de datos puede ser simétrica o no. Cuando no lo es, se denomina asimétrica o sesgada.
Para indicar la forma se comparan la media y la mediana de la distribución. Si las medidas son iguales se considera que los datos son simétricos, o que la distribución tiene sesgo cero. Cuando la media es mayor que la mediana, el sesgo es positivo o la asimetría es a la derecha, en cambio cuando la media es menor que la mediana, se dice que la distribución tiene sesgo negativo o asimetría a la izquierda.
El sesgo positivo ocurre cuando la media se ve aumentada por algunos valores extraordinariamente grandes; el sesgo negativo se da cuando la media se ve afectada por algunos valores extremadamente pequeños.

-----------------------------------------------------------------------------------------------------------------------------------
La razón de utilizar (n - 1) en lugar de n se comprenderá más adelante, aunque si el tamaño de la muestra es grande, el uso de n o (n - 1) no produce diferencias significativas. En general, utilizaremos el denominador (n - 1) cuando se trata de la varianza muestral, y n para la varianza de la población
-----------------------------------------------------------------------------------------------------------------------------------
El siguiente gráfico muestra lo que ocurre en cada situación: en cada una de las tres escalas se describe la distribución de un grupo de alumnos según las notas obtenidas (entre 40 y 100 puntos)

 El primero de lo gráficos corresponde a un conjunto sesgado a la izquierda, donde la media es menor que la mediana, ya que hay pocas calificaciones bajas. En el segundo, los datos están sesgados a la derecha. La media es mayor que la mediana, ya que hay pocas calificaciones altas. El último gráfico muestra una distribución simétrica, con un desempeño que podríamos catalogar como "normal". La media y la mediana son iguales, al igual que la moda y el rango medio. Cuantitativamente, la asimetría puede determinarse por medio de la siguiente ecuación:
8.5.2 Gráficas de las distribuciones de frecuencias
8.5.2.1 Histogramas
Representar una distribución de frecuencias hace más evidente sus propiedades. La forma más común de representar una distribución de frecuencias es el histograma, que se construye con rectángulos adyacentes de alturas proporcionales a las frecuencias y cuyas bases se extienden entre las fronteras de clases sucesivas.
Para los datos anteriores, obtenemos el siguiente histograma:
Otras gráficas similares a los histogramas son los diagramas de barras, donde las alturas de los rectángulos representan las frecuencias, pero no se pretende fijar una escala horizontal continua.
8.5.2.2 Polígono de frecuencias
Una forma optativa de representar las distribuciones de frecuencias es el polígono de frecuencias. En él las frecuencias de cada clase son graficadas en sobre la marca de clase,
y los puntos sucesivos se unen mediante segmentos de recta, después de haber agregado clases con frecuencia cero en los extremos de la distribución.


8.5.2.3 Distribuciones acumuladas
Existen formas alternativas de agrupar los datos: son las distribuciones acumuladas "menor que" y "mayor que".

Para ello podríamos convertir la distribución de modo que muestre cuántas observaciones son menores que 4.95, menor que 8.95, etc.

En lugar de "menos de 4.95", podríamos haber utilizado "menos de 5.0" o "menos de
4.9", etc.
Las distribuciones del tipo "mayor que" se construyen de la misma forma, pero en la práctica la más utilizada es la anterior. Con el fin de comparar distribuciones de frecuencias puede ser ventajoso convertirlas en distribuciones porcentuales. Puede hacerse lo mismo con las distribuciones acumuladas, obteniendo las distribuciones porcentuales acumuladas.
Las distribuciones acumuladas se presentan por lo general en forma de ojivas, las cuales son similares a los polígonos de frecuencias, excepto en que graficamos las frecuencias sobre las fronteras en lugar de graficarlas sobre la marca de clase. Los puntos obtenidos se unen mediante segmentos de recta, obteniendo la gráfica de la distribución "menor que".
8.5.3 Cálculo de las medidas descriptivas para una distribución de frecuencias
Cuando los datos se presentan por medio de una distribución de frecuencias, perdemos la información acerca del valor de cada uno de ellos, ya que se encuentran reunidos en clases. En este caso sustituimos cada uno de los valores de un intervalo por la marca de clase.
Si llamamos Xi al punto medio de cada intervalo, y fi a la frecuencia del intervalo, obtenemos las siguientes fórmulas para el cálculo de las diversas medidas descriptivas:
 (En estas fórmulas, k representa el número de intervalos o clases de la distribución)
Si bien es posible obtener expresiones para las demás medidas, sólo nos ocuparemos de las dos mencionadas más arriba.
En el caso de la mediana, su obtención puede hacerse en forma aproximada a partir del gráfico de la distribución acumulada, obteniendo del mismo el valor de la variable que corresponde a una frecuencia acumulada de



·         Interpretación de medidas de asimetría: sesgo de una distribución, a la derecha y a la izquierda.
La parte de cómo interpretar el resultado es:
 El valor de tu coeficiente de asimetría tiene esta interpretación, vamos a llamarlo por "C"
Si C < 0, tu distribución tiene asimetría negativa o a la izquierda, es decir, sesgo negativo.
Si C = 0, tu distribución es simétrica.
Si C > 0 tu distribución tiene asimetría positiva o a la derecha, es decir, tiene sesgo positivo.
Y cuanto mayor sea el valor, tanto positiva como negativamente, mayor es el grado de asimetría.
Entonces, tu valor 2,49 es mayor que cero, por lo tanto tu distribución tiene sesgo positivo. Además, comento que cuanto mayor sea el valor mayor será el sesgo, por ejemplo, si te hubiera salido 1,5, ese sesgo es menor que el de 2,49, pero si hubiera salido 50,5 sería mucho mayor que el tuyo.
Así la interpretación del sesgo es que tu distribución tiene asimetría positiva.

Lectura de  cuadros

Son las columnas insertadas en la parte superior del cuadro y que, generalmente, aparecen en uno, dos o tres niveles. El primer nivel corresponde a las características que en el título, generalmente, vienen precedidas de la preposición "POR".
El encabezado debe escribirse en minúsculas, excepto la primera letra de la categoría o nombre propio consignado. Podrán utilizarse hasta tres niveles verticales de detalle (cada nivel comprende uno o más renglones) y deberá tenerse en cuenta los siguientes criterios:
Se utilizará un nivel cuando se presente información de una categoría que aluda a una sola clasificación. En el encabezado sólo deberá aparecer la clasificación y se destinará la primera columna para el total del conjunto, excepto en series de tiempo. Ejemplo:
Se utilizará dos niveles cuando se presente información de dos categorías y alguna clasificación por cada una. Esta clasificación puede ser la misma para ambas categorías. Ejemplo:
Se utilizará tres niveles cuando se presente información de varias categorías y alguna clasificación por cada una, dando preferentemente prioridad a la unidad de medida y período de referencia en el encabezamiento, según sea el caso. Ejemplos:
Adicionalmente, las siguientes consideraciones deben tenerse en cuenta para el encabezado de cuadros:
Cuando las unidades de medida se presenten en el primer nivel, deben ser escritas en minúsculas sin paréntesis. Si están en el último nivel, las unidades de medida se colocarán entre paréntesis y debajo de cada elemento de la clasificación. (Ver ejemplos en el párrafo anterior).
Si los elementos del encabezado son mayores a las de la columna matriz, significa que el cuadro no está bien diseñado y debe invertirse, trasladando las variables del encabezado a la columna matriz y viceversa.
Para facilitar la lectura e interpretación de los datos podrá añadirse llamadas al encabezado.
La llamada se indica con la barra oblicua "/" y cuando es asignada a una cifra debe acompañarse de letras minúsculas. Ejemplo: a/ b/. Para acompañar llamadas con palabras se utilizará números. Ejemplo: 1/ 2/.
Cuando en el encabezado se muestre el período de referencia, deberá empezar de izquierda a derecha, siendo el período más actual el que ocupe la última columna del cuadro. Ejemplo:

1. LA ESTADÍSTICA EN EL PROCESO DE INVESTIGACIÓN
Habitualmente se acepta que la Estadística resulta una herramienta de trabajo útil en la investigación educativa en la medida en que ofrece técnicas y procedimientos que pueden ser aplicados en la etapa de análisis de datos. Aceptando que ésta es la aplicación de mayor peso en el contexto de la investigación educativa, a través de los párrafos que siguen trataremos de atenuar el valor de lo que podrían suponer concepciones reduccionistas, ocupándonos del papel que la Estadística también desempeña en momentos del proceso de investigación diferentes a la fase de análisis de datos.
a) Planteamiento del problema y formulación de hipótesis
La Estadística está presente en la formulación del problema de investigación. El proceso de investigación constituye un todo interrelacionado en el que las decisiones sobre cualquiera de los elementos suponen condicionantes de cara a los restantes elementos del proceso. Desde esta perspectiva, la formulación del problema determinará en buena medida el tipo de datos que es necesario recoger, las técnicas de recogida adecuadas para ello y los procedimientos estadísticos que se utilizarán en el análisis. Por otra parte, entre las características que debe poseer cualquier problema de investigación se encuentra su resolubilidad, aspecto que a veces sólo queda garantizado si contamos con técnicas estadísticas adecuadas, capaces de abordar los interrogantes de partida. Por ejemplo, el planteamiento de problemas que supongan comparaciones entre múltiples grupos no podría hacerse sin contar con técnicas como el análisis de la varianza; un gran número de problemas de investigación en los que se incluyen múltiples dimensiones o variables simultáneamente de hecho no han llegado a ser estudiados hasta contar con técnicas de análisis multivariante que permiten abordarlos.
El mismo argumento podría utilizarse para justificar la presencia de la Estadística en la formulación de hipótesis. La formulación de hipótesis no puede hacerse de espaldas a consideraciones acerca de las técnicas estadísticas que permitirán su contrastación.
Como afirman Arnal, Del Rincón y Latorre (1992), el investigador se ve en la necesidad de salvaguardar la coherencia entre la teoría, la hipótesis y el posterior análisis estadístico que le permitirá aceptarla o rechazarla. En el marco de los programas de investigación positivistas la hipótesis científica, para ser contrastada, suele ser expresada en términos estadísticos, dando paso a la aplicación de técnicas para el contraste de hipótesis.
En el planteamiento del problema y la posterior formulación de hipótesis han de tenerse en cuenta tanto el marco teórico como los trabajos previos realizados sobre el mismo tema, a cuya revisión podrían contribuir técnicas de metaanálisis, aplicadas a la síntesis e interpretación tanto de los resultados obtenidos en la investigación como de los métodos utilizados para ello (Gómez Benito, 1987; Sánchez y Ato, 1989). Los resultados a los que nos conduce el metaanálisis son síntesis de los obtenidos en las diferentes investigaciones realizadas sobre un tema, nos informan sobre el rigor de la misma, los métodos empleados, la representatividad de las muestras, la fiabilidad y validez de los estudios. Una vía para determinar las tendencias dominantes en el modo de abordar el estudio de un tema, los aspectos del mismo que son objeto de mayor atención por parte de la comunidad científica, o los autores que por encontrarse entre los más citados gozan de mayor autoridad, la constituye la utilización de revisiones bibliométricas, en las que a través de estudios estadísticos se pueden poner de manifiesto las tendencias que se dibujan en publicaciones o investigaciones sobre un tema. Las bases documentales informatizadas permiten con facilidad realizar estadísticas acerca del número de registros relativos a diferentes tópicos, lo cual nos aporta cierta aproximación a la importancia y relevancia de distintos objetos de investigación o modos de abordarlos a lo largo de una determinada época. Todo este tipo de resultados estadísticos en ningún modo sustituyen a la revisión exhaustiva de la literatura y el estudio del marco teórico-conceptual en el que se inscribe el trabajo de investigación, pero constituyen una información complementaria en manos del investigador a la hora de concretar el objeto de interés y fundamentar su estudio.
Por otra parte, a veces la formulación del problema no se apoya sólo en resultados de investigaciones anteriores, sino que el investigador recurre a trabajos descriptivos previos o estudios pilotos, en los que el empleo de la Estadística puede contribuir a clarificar el problema en estudio. Los resultados de una descripción estadística acerca de determinadas variables implicadas en algún fenómeno educativo, podrían dar pie a que se formularan hipótesis en las que se contemple la relación entre variables; y estudios basados en la obtención de medidas estadísticas de correlación entre variables facilitarían el planteamiento de problemas y la formulación de hipótesis que suponen relaciones de causalidad. Tatsuoka y Tiedeman (1963), en su trabajo sobre la Estadística en el método científico, insisten en esta posibilidad, afirmando el papel de las técnicas estadísticas en el desarrollo de constructos teóricos e hipótesis acerca de las relaciones entre ellos. De este modo, la Estadística está presente en la fase inductiva del método científico, contribuyendo a la creación de modelos teóricos a partir de los cuales se deducirán hipótesis contrastables que relacionan variables observables.
b) Diseño de investigación
La Estadística forma parte de los diseños de investigación experimentales. Como es sabido, en el concepto de diseño es posible contemplar de un lado la organización de los aspectos que constituyen el experimento y, de otro, el procedimiento estadístico que hará posible la interpretación de los resultados (Fisher, 1953). Para Kerlinger (1981:214), el principio estadístico en el que descansa el diseño es maximizar la varianza sistemática, regular la varianza sistemática extraña y minimizar la varianza de error. Las técnicas estadísticas constituyen una parte contemplada en el diseño del experimento en la medida en que facilitarán el análisis de los datos y posibilitarán el control de la varianza debida a variables extrañas. Si dentro del diseño del experimento se consideran grupos experimentales y grupos control, que antes de la aplicación de los tratamientos han de ser equivalentes, el investigador necesitará recurrir a técnicas estadísticas para el contraste de hipótesis acerca de la existencia de diferencias entre los grupos y comprobar de ese modo la equivalencia pretendida.
Además, la Estadística está presente cuando el diseño incluye la selección de sujetos. La teoría de muestras proporcionará tanto los procedimientos de selección como la determinación del tamaño muestral necesario para mantener el error y la confianza dentro de límites aceptables.
La recogida de datos es una tarea en la que aparentemente no parecen jugar un papel las técnicas estadísticas. Sin embargo, la Estadística está de manera implícita presente si consideramos el modo en que se elaboran los instrumentos utilizados para la recogida de datos (tests, cuestionarios, protocolos de observación, etc.). A esta disciplina corresponde un papel crucial en la construcción de tales instrumentos, dado que las técnicas estadísticas están en la base de los procedimientos por los cuales se analizan sus características técnicas. Por citar algunos ejemplos, la determinación de la fiabilidad y validez de algunos instrumentos se apoya directamente en coeficientes de correlación; la aplicación de técnicas de análisis de componentes principales o análisis factorial permite explorar o confirmar la dimensionalidad de los instrumentos; los métodos para el análisis de items, en la teoría clásica de los tests o en la teoría de respuesta al ítem, se basan en correlaciones y en la estimación de parámetros recurriendo a diferentes procedimientos estadísticos, tales como los métodos de máxima verosimilitud o los métodos de inferencia bayesiana; tests como el de chi-cuadrado permiten valorar el grado de ajuste de las respuestas a los items a modelos logísticos de uno, dos o tres parámetros.
Al margen de todo el aparato estadístico que se esconde tras la elaboración o el análisis de los instrumentos de recogida de datos, la Estadística puede participar indirectamente en la operación de recogida proporcionando primeras elaboraciones de los datos en el momento mismo de su registro. Por ejemplo, cuando tras aplicar un test se registran los resultados en forma de percentiles o eneatipos, resultantes de la comparación de la puntuación del sujeto con un grupo normativo.

c) Análisis de datos
Ya hemos destacado la importancia de las técnicas estadísticas en la fase de análisis de datos. Traigamos aquí, para insistir en esta idea, las palabras de De la Orden (1985:XXI), cuando afirma que «la forma más adecuada de razonar sobre la base del gran número de observaciones exigidas para el estudio experimental de la educación, con pretensión generalizante, es la Estadística». De acuerdo con el concepto de Estadística que hemos apuntado, a la Estadística corresponden tareas de organización, descripción, análisis y presentación de datos acerca de las muestras estudiadas, y también de generalización de los resultados a las poblaciones de donde las muestras fueron extraídas. El análisis estadístico de los datos supone una descripción de éstos, el descubrimiento de regularidades y la inferencia de características relativas a conjuntos más amplios que los directamente estudiados.
d) Obtención de conclusiones y redacción del informe
Recordando las palabras de Siegel (1991:20), «la estadística nos proporciona herramientas que formalizan y uniforman nuestros procedimientos para sacar conclusiones ». De alguna forma, las conclusiones están predeterminadas por el tipo de técnicas estadísticas que utilicemos. Un análisis de regresión, por ejemplo, nos permitirá obtener conclusiones acerca de la posibilidad de que determinadas variables independientes puedan predecir el valor observado en una variable dependiente; un análisis de conglomerados nos llevará a concluir sobre formas de agrupamiento entre los individuos u objetos que estudiamos; un análisis simple de la varianza supondrá llegar a conclusiones acerca de las diferencias significativas entre las medias de diferentes grupos; etc. En cualquier caso, la Estadística estará presente a la hora de elaborar las conclusiones, aportando las claves para la interpretación de los resultados del análisis.
La presentación de las conclusiones, así como de todo el proceso de investigación, debe contar con la inclusión de resultados estadísticos. Aunque no se trata de una aplicación de técnicas estadísticas en el momento de redactar el informe, sí que la Estadística está de algún modo presente a la hora de mostrar los resultados. Las conclusiones de un estudio se verán convenientemente ilustradas mediante la presentación de tablas, cuadros, etc. recogiendo medias, porcentajes, coordenadas, correlaciones, o cualquier otro tipo de estadísticos. La inclusión de los pesos factoriales de las variables consideradas en un análisis factorial, por ejemplo, es imprescindible si queremos ilustrar el modo en que cada factor se ve saturado por las variables observadas.
Otro tanto podemos decir acerca de los resultados estadísticos expresados gráficamente. La utilización de determinadas técnicas estadísticas y la intención posterior de comunicar los resultados obtenidos requieren incluir representaciones estrechamente vinculadas a aquéllas en los informes de investigación. Técnicas como el análisis de conglomerados, el path-analysis o el análisis de correspondencias, son indisociables de formas de representación gráfica como dendogramas, diagramas de flujos o gráficos factoriales, respectivamente.
En cuanto a la calidad de las investigaciones, la Estadística aporta sus procedimientos para garantizar la validez interna y la validez externa en los experimentos. Procedimientos de muestreo aleatorio y técnicas estadísticas como el análisis de la covarianza, para controlar el efecto de variables intervinientes que pudieran enmascarar el efecto de las variables independientes, resultan recursos útiles en este sentido.

LA ESTADÍSTICA EN LOS PROGRAMAS DE INVESTIGACIÓN CUALITATIVOS
Para algunos, aún siguen siendo irreconciliables el análisis estadístico de datos y la investigación que se desarrolla desde planteamientos diferentes del tradicional marco científico-experimental. Sin embargo, el empleo de los métodos estadísticos trasciende a estos límites y puede estar presente de alguna manera en estudios e investigaciones realizados desde perspectivas interpretativas o críticas, a las que globalmente podemos referirnos como perspectiva cualitativa. Indirectamente al menos, la Estadística contribuiría a delimitar o introducir el problema de estudio, en la medida en que éste podría apoyarse en los resultados de estudios previos basados en el análisis estadístico. Comienza a ser relativamente frecuente, en el acercamiento a las realidades educativas, partir de un estudio descriptivo extensivo con base metodológica cuantitativo-estadística que abra paso a estudios de tipo interpretativo, basados en el estudio de casos y dirigidos a profundizar en la explicación de los fenómenos analizados. Es lo que se ha denominado una estrategia de combinación metodológica (Bericat, 1998), como forma de integración de métodos cuantitativos y cualitativos.
En lugar de basarse en procedimientos de muestreo probabilístico, dirigidos a «construir modelos reducidos de la población total, con resultados extrapolables al universo del que se extraen» (Rodríguez Osuna, 1991:12), el modo habitual en que suelen determinarse el número y las características de los individuos o contextos que serán estudiados se encuentra más próximo al modelo de muestreo deliberado o intencional
(Patton, 1984). El problema de investigación, las concepciones sobre el mismo, los factores empíricos que lo afectan y las características de la población estudiada, llevan a determinar qué casos van a ser seleccionados. Cuando no existe un suficiente conocimiento previo de la realidad objeto de estudio, la fase de muestreo podría verse auxiliada por análisis previos realizados sobre la población, que contribuyan a un mejor conocimiento de la misma. En la medida en que se lleven a cabo estudios sobre la población, habremos de trabajar con grandes colectivos y el recurso a las técnicas estadísticas será necesario. Estas permitirán por ejemplo una descripción y/o clasificación de los sujetos, fenómenos o casos estudiados, que ayudarán al investigador en la fase de selección de casos.
Existen vías diferentes a la Estadística para llevar a cabo el análisis de datos en la investigación cualitativa. En este sentido, entre los procedimientos de análisis de datos, entendidos como técnicas para extraer información de los datos e interpretar su significado, cabría hacer una distinción entre análisis cualitativo, que expresa,  rdena, describe, interpreta los datos mediante conceptos, razonamientos y palabras, y análisis cuantitativo, en el que se recurre a conceptos y razonamientos que se apoyan en números y estructuras matemáticas (Yela, 1994). Aunque lo más característico es el empleo de técnicas cualitativas, al analizar los datos son muchos los investigadores interpretativos o críticos que recurren en algún momento de su proceso analítico a las técnicas estadísticas, usadas para complementar o contrastar las conclusiones obtenidas por otras vías. Incluso este rasgo se ha destacado como una característica de los enfoques de investigación interpretativos o críticos, en los que se recurre, sobre todo a la hora del análisis de datos, a procedimientos cuantitativos propios del enfoque positivista (De Miguel, 1988).
La naturaleza de los datos cualitativos —palabras, y no números— constituye una dificultad metodológica en la investigación educativa, pues si bien las palabras encierran una mayor carga de significados, los números tienen la ventaja de ser menos ambiguos y son analizados con menor esfuerzo. Esta razón lleva a una parte de los investigadores a preferir el trabajo con números y traducir los textos en valores numéricos desde las primeras fases del análisis. Para Miles y Huberman (1984:215), «cuando identificamos un tema o modelo estamos aislando algo que ocurre un número de veces y que ocurre consistentemente de un modo específico», es decir respecto a cualquier tema establecemos algún tipo de recuento. Los números, siguiendo a estos autores, permiten que nos hagamos una idea de la importancia de los temas que tenemos ante nosotros cuando trabajamos con un volumen importante de datos cualitativos, y constituyen un criterio a la hora de verificar la existencia de una hipótesis o relación entre temas. Autoras tan representativas de la investigación etnográfica como Goetz y Lecompte (1988:178-179) reconocen igualmente el papel de los datos numéricos, al afirmar
que «una vez identificados los elementos, es posible reducirlos a forma cuantificable examinándolos, elaborando listas, codificándolos y asignándoles puntuaciones». Partiendo de las frecuencias con que se dan determinados fenómenos o están presentes determinados temas en los textos, identificaríamos las relaciones que se dan entre los elementos mediante la aplicación de determinadas técnicas estadísticas, cuya
importancia en el contexto de un análisis de datos cualitativos varía ampliamente, desde una presencia nula hasta el uso de técnicas estadísticas de variado grado de complejidad (Wilcox, 1982).
Cuando los resultados de la cuantificación de textos son analizados estadísticamente, conviene emplear pruebas estadísticas inferenciales, preferentemente no paramétricas, dado que con este tipo de datos no es posible mantener el supuesto de normalidad de la población, en el que en gran medida se apoya la Estadística clásica. Además, no podríamos pasar mucho más allá de un nivel de medida nominal y ordinal.
Una revisión de las técnicas estadísticas aplicables a datos categóricos resultantes de la reducción cuantitativa de datos textuales puede consultarse en el trabajo de García, Gil y Rodríguez (1994).
Desde determinados enfoques, los procedimientos estadísticos ganan importancia frente a las técnicas cualitativas de análisis. Es el caso del análisis de contenido tradicional, donde el interés del investigador se dirigía al recuento de frecuencias de aparición de palabras o temas de especial relevancia en el estudio, con el objetivo deproceder a su tratamiento estadístico. Desde muy pronto, los programas de análisis automático de textos se han basado en los recuentos y el tratamiento estadístico. Cabe citar el programa GENERAL INQUIRER (Stone y Otros, 1966), uno de los pioneros, o el programa WORDS (Iker, 1975), con el que llegan a ser extraídos los temas presentes en un texto sometiendo a tratamiento estadístico las frecuencias de las palabras en cada unidad considerada.
Con este tipo de enfoques, la cuantificación y el procesamiento estadístico pueden llegar a ser la vía exclusiva por la que se analizan los textos. Sirva como ejemplo la aplicación de las técnicas de análisis de datos de la escuela francesa al análisis de textos procedentes de respuestas abiertas a cuestionarios, entrevistas, textos literarios, etc., permitiendo el recuento de unidades elementales en los textos y la realización de análisis estadísticos multivariantes (análisis de correspondencias, clasificaciones) a partir del mismo. Este tipo de enfoques se ha desarrollado enormemente, dando lugar a la denominada Estadística textual (Lebart y Salem, 1994).


Paquete estadístico
Un paquete estadístico es un programa informático que está especialmente diseñado para resolver problemas en el área de la estadística, o bien está programado para resolver problemas de esta área. Existen muchos programas que no son especialmente estadísticos pero que pueden hacer algunos cálculos aplicables en estadística aplicada. Estos programas han impulsado y siguen impulsando enormemente la labor de los investigadores que desean utilizar la estadística como apoyo en su trabajo.
Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad de uso y aprendizaje pero un mayor encorsetamiento a la hora de hacer cálculos que el programa no tenga predefinidos. Los programas más complejos suelen tener la necesidad de conocer su lenguaje de programación, pero suelen ser mucho más flexibles al porderse incluir en ellos funciones, tests o contrastes que no traen instalados por definición.
Ventajas
La potencia de cálculo de un ordenador puede ayudar a un investigador a realizar cientos o miles de contrastes de hipótesis en un tiempo muy reducido. Asimismo puede calcular decenas de modelos de regresión en un tiempo muy corto y después quedarse con el más apropiado de ellos. En problemas de investigación de operaciones un programa estadístico es capaz de realizar miles de iteraciones por segundo de un algoritmo en el que una persona tardaría varios minutos en cada una de ellas. Asimismo, es capaz de elegir entre miles de resultados posibles cuál de todos ellos es el óptimo. Básicamente, lo que permiten es resolver problemas de estadística aplicada por fuerza bruta o por probar miles de combinaciones para quedarse finalmente con la que se crea que es la mejor
Inconvenientes
En los programas más complejos se necesita tener conocimientos de programación, así como para realizar los cálculos más laboriosos. Por ejemplo si se desea realizar una operación dada a una columna concreta, lo más frecuente es que se pueda hacer esto por ventanas, sin embargo, si deseamos hacer esto mismo para todas las columnas de nuestro documento, que pueden ser centenares, es posible que necesitemos programar un bucle en la sintaxis del programa.
Otro inconveniente está en que en estadística a menudo nos pueden salir resultados contradictorios entre tests distintos. Un programa informático se dará cuenta de ello y nos avisará de algún modo, pero tendrá que ser el usuario el que decida a cuál de los test hacer caso, y esto en ocasiones es complejo, sobre todo si no se está familiarizado a fondo con la estadística o se tiene poca experiencia.
Programas estadísticos más utilizados
Existen multitud de paquetes informáticos aparte es éstos, tanto de software privado como de software libre, sin embargo, los más utilizados son estos. A pesar de que SAS y SPSS suelen ser considerados los más potentes, hay muchísimas empresas que utilizan programas mucho menos potentes como Excel. Esto se debe sobre todo a que su uso parece más sencillo, la mayoría de las personas están familiarizadas con él y la mayor parte de las empresas ya tienen instalado Excel en sus ordenadores, mientras que las licencias de SAS[1] y SPSS[2] cuestan varios miles de euros. Sin embargo, a nivel de investigación estadística se utilizan siempre paquetes estadísticos propiamente dichos ya que suelen tener una capacidad mucho mayor.

Estadística Descriptiva e Histogramas con Excel

Existen herramientas de software específicas para el tratamiento de datos (como por ejemplo R-project, SPSS, otros), pero lo cierto es que para el día a día lo que tendremos a mano es alguna planilla de cálculo, como por ejemplo Excel.

Ademas de poder utilizar las funciones estadísticas de Excel para el cálculo de medidas resumen descriptivas, y de conteo y gráficas para el armado de una tabla por intervalo de clases y su correspondiente Histograma, este software incluye un complemento para Análisis de Datos, que ofrece herramientas para análisis de Estadística Descriptiva e Histograma, además de muestreo, Varianza, Jerarquía y pecentil, Correlación, Covarianza, Regresión, entre otras.

EXCEL 2007
Para poder acceder a estas herramientas debemos ir a:
Solapa Datos, grupo Análisis y hacer clic en Análisis de Datos.

Si la opción Análisis de datos no está disponible, se debe cargar el programa de complemento Herramientas para análisis (las instrucciones que siguen están tomadas de la Ayuda de Excel 2007)


1. Haga clic en el botón de Microsoft Office (el redondo con la ventanita de colores en la esq sup izquierda) y, a continuación, haga clic en Opciones de Excel.
2. Haga clic en Complementos y, en el cuadro Administrar, seleccione Complementos de Excel.
3. Haga clic en Ir.
4. En el cuadro Complementos disponibles, active la casilla de verificación Herramientas para análisis y, a continuación, haga clic en Aceptar.

Sugerencia Si Herramientas para análisis no aparece en la lista del cuadro Complementos disponibles, haga clic en Examinar para buscarlo.

Si se le indica que Herramientas para análisis no está instalado actualmente en el equipo, haga clic en Sí para instalarlo.

Veamos las dos herramientas que nos interesan aquí:

ESTADISTICA DESCRIPTIVA

La herramienta de análisis Estadística descriptiva genera un informe estadístico de una sola variable para los datos del rango de entrada, y proporciona información acerca de la tendencia central y dispersión de los datos.
Brinda un resumen en el cual las medidas que calcula son: Cuenta, Suma, Mínimo, Máximo, Rango, Media, Mediana, Moda, Desviación estándar, Varianza, Curtosis, Error Típico y Coeficiente de asimetría.

HISTOGRAMA

A partir de definir los intervalos a utilizar, genera la tabla por intervalo de clases, con el conteo de frecuencias de clase y el Histograma (gráfica).

Para tener en cuenta: al definir los intervalos en la planilla, lo que debemos especificar es el límite superior de cada intervalo, y la herramienta los toma como intervalos semiabiertos (abierto-cerrado] ( al revés de como lo hacemos habitualmente en clase en forma manual donde solemos tomarlos como semiabiertos pero [cerrado-abierto), teniendo esto presente solo es cuestión de acomodar los cálculos para los límites de los intervalos, y listo).



Estadística descriptiva
Genera un informe de estadísticas de una sola variable para datos del rango de entrada, y proporciona información acerca de la tendencia central y dispersión de los datos.
El aspecto de los cuadros de diálogo entrada y la salida de resultados puede verse en el apartado anterior en el epígrafe "Utilización de los cuadros de diálogo de Análisis de datos".
Opciones del cuadro de diálogo Estadística descriptiva
Rango de entrada
Escriba la referencia de celda correspondiente a los datos que desee analizar. La referencia deberá contener dos o más rangos adyacentes organizados en columnas o filas.
Rango de salida
Escriba la referencia correspondiente a la celda superior izquierda de la tabla de resultados. Esta herramienta genera dos columnas de información por cada conjunto de datos. La columna de la izquierda contiene los títulos de las estadísticas y la derecha, las estadísticas. Microsoft Excel escribirá una tabla de estadística de dos columnas por cada columna o fila del rango de entrada, dependiendo de la opción que se haya seleccionado en el cuadro "Agrupado por".
En una hoja nueva
Haga clic aquí para insertar otra hoja en el libro actual y pegar los resultados en la celda A1. Para darle un nombre a la nueva hoja de cálculo, escríbalo en el cuadro.
En un libro nuevo
Haga clic aquí para crear otro libro y pegar los resultados en la celda A1 del nuevo libro.
Agrupado por
Haga clic en el botón "Filas" o "Columnas" para indicar si los datos del rango de entrada está organizados en filas o en columnas.
Títulos en la primera fila/Títulos en la primera columna
Si la primera fila del rango de entrada contiene títulos, active la casilla de verificación "Títulos en la primera fila" o, por el contrario, si hay títulos en la primera columna, active la casilla "Títulos en la primera columna". Desactívela si el rango de entrada carece de títulos; Microsoft Excel generará los títulos de datos apropiados para la tabla de resultados.
Resumen de estadísticas
Active esta casilla si desea que Microsoft Excel genere un campo por cada una de las siguientes estadísticas de la tabla de resultados: Media, Error típico (de la media), Mediana, Moda, Desviación estándar, Varianza de la muestra, Curtosis, Coeficiente de asimetría, Rango, Mínimo, Máximo, Suma, Cuenta, Mayor (#), Menor (#) y Nivel de confianza.
K-ésimo mayor
Active esta casilla si desea incluir una fila correspondiente al valor k-ésimo mayor de cada rango de datos en la tabla de resultados. Escriba en el cuadro el número que se utilizará para k. Si k es 1, dicha fila contendrá el máximo del conjunto de datos.
K-ésimo menor
Active esta casilla si desea incluir una fila correspondiente al valor k-ésimo menor de cada rango de datos en la tabla de resultados. Escriba en el cuadro el número que se utilizará para k. Si k es 1, dicha fila contendrá el mínimo del conjunto de datos.
Nivel de confianza para la media
Active esta casilla si desea incluir una fila correspondiente al nivel de confianza de la media en la tabla de resultados. Escriba en el cuadro el nivel de confianza que desee usar, por ejemplo, con un valor 95%, se calculará el nivel de confianza de la media con un nivel de significación del 5%.

La Hoja de Cálculo Excel/Calc puede convertirse en una poderosa herramienta para crear entornos de aprendizaje que enriquezcan la representación (modelado), comprensión y solución de problemas, en el área de la estadística y probabilidad. Excel ofrece funcionalidades que van más allá de la tabulación, cálculo de fórmulas y graficación de datos:
  • En estadística descriptiva representa todos los tipos de gráficos y calcula la media, moda, mediana, recorrido, varianza y desviación típica.
  • En estadística bidimensional representa la nube de puntos y la recta de regresión. Calcula el centro de gravedad, las desviaciones típicas marginales, la covarianza, el coeficiente de correlación, la recta de regresión y buscar objetivos.
  • En la distribución binomial, calcula cualquier probabilidad, la media, varianza y desviación típica.
  • En la distribución normal, calcula cualquier probabilidad en la normal estándar N(0, 1) y en cualquier normal N(m, s) y genera la tabla N(0, 1)
  • En inferencia estadística calcula los intervalos de confianza, el tamaño de la muestra y se puede aplicar al contraste de hipótesis, tanto en el bilateral como en el unilateral.
  • En probabilidad simula todo tipo de lanzamientos.
La instalación del programa es muy sencilla, además Microsoft Excel incluye un comando para el análisis de datos, dentro de las "herramientas para el análisis", su uso es poco común, ya que no se tiene cuidado de instalar todas las funciones dentro de las "herramientas", perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro de la estadística.

No hay comentarios:

Publicar un comentario