miércoles, 7 de septiembre de 2011

antecedentes de la estadistica

Los antecedentes de la estadística aparecen en épocas antiguas. Uno de los antecedentes de la estadística de los que se puede hacer constancia son los escritos sobre el historiador Tácito, al que el emperador Augusto le ordenó crear una encuesta y una especie de inventario de todos sus bienes, ya fuesen soldados, armamento, barcos....etc.
La ciencia de la estadística aparece poco a poco mediante una evolución histórica y que se puede constatar en los distintos escritos históricos de la humanidad. Siempre ha existido la necesidad de realizar recuentos, antes y después de las guerras, de modo que se pueda visualizar de forma fácil la evolución de un reino o la evolución de un imperio.
Otro antecedente de la estadística surge en la isla italiana de Cerdeña donde los primeros pobladores de esta isla, los llamados "Nuragas" levantaron bloques de piedra en los cuales realizaban escritos donde anotaban con mucha escrupulosidad los números de ganado o de piezas cazadas de la época.

media, mediana,

Gráficos estadísticos
Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de la  información. Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros. 
Tipos de gráficos estadísticos  
·         Barras
·         Líneas
·         Circulares
·         Áreas
·         Cartogramas
·         Mixtos
·         Histogramas
Otros
·         Dispersograma
·         Pictogramas
Gráficos de barras verticales
(Llamados por algunos software de columnas)
Representan valores usando trazos verticales, aislados o no unos de otros, según la variable a graficar sea discreta o continua. Pueden usarse para representar:
 
·         una serie
·         dos o más series (también llamado de barras comparativas)
Gráficos de barras horizontales
Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los textos correspondientes a cada categoría son muy extensos.
·         para una serie
·         para dos o más series
Gráficos de barras proporcionales 
Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos  que componen un total.

Las barras pueden ser:

·         Verticales
·         Horizontales
Gráficos de barras comparativas
Se utilizan para comparar dos o más series, para comparar valores entre categorías. 
Las barras pueden ser:
·         Verticales
·         horizontales
Gráficos de barras apiladas
Se usan para mostrar las relaciones  entre dos o más  series con el total.
Las barras pueden ser:
 

·         verticales
·         horizontales

Gráficos de líneas 
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. 
Se pueden usar para representar: 
·         una serie
·         dos o más series

Estos gráficos se utilizan para representar valores con grandes incrementos entre sí.

Gráficos circulares
Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar.
Se pueden ser: 
·         En dos dimensiones
·         en tres dimensiones

Gráficos de Áreas
En estos tipos de gráficos se busca mostrar la tendencia de la información generalmente en un período de tiempo.
Pueden ser: 

·         Para representar una serie
·         para representar dos o más series
·         en dos dimensiones
·         en tres dimensiones.

Cartogramas
Estos tipos de gráficos se utilizan para mostrar datos sobre una base geográfica. La densidad de datos se puede marcar por círculos, sombreado, rayado o color.

Gráficos Mixtos
En estos tipos de gráficos se representan dos o más series de datos, cada una con un tipo diferente de gráfico. Son gráficos más vistosos y se usan para resaltar las diferencias entre las series.
Pueden ser: 
·         en dos  dimensiones
·         en tres dimensiones.
 
     
Histogramas
Estos tipos de gráficos se utilizan para representa distribuciones de frecuencias. Algún software específico para estadística grafican la curva de gauss superpuesta con el histograma. 

OTROS Gráficos
En esta categoría se encuentran la mayoría de los gráficos utilizados en publicidad. Se los complementa con un dibujo que esté relacionado con el origen de la información a mostrar. Son gráficos llamativos, atraen la  atención del lector.
Los  dispersogramas: Son gráficos que se construyen sobre dos ejes ortogonales de coordenadas, llamados  cartesianos, cada punto corresponde a un par de valores de  datos x e y de un mismo elemento suceso.


Medidas de dispersión:
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
·        Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.
·        Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
·        Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación.
MEDIA
Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones.


Cuando los valores representan una población la ecuación se define como:

 
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con muestras de la población todas las ecuaciones que se presenten a continuación serán representativas para las muestras. La media aritmética para una muestra esta determinada como


Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la información; es decir,


Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las frecuencias de cada clase.

Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización de estos datos se representan en la tabla [5-1].



Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a


Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha estos mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3), tomando como referencia cada uno de los valores individuales, obtendríamos que la media es igual a

Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores desagrupados, aunque tiene algunos procedimientos para valores agrupados.

Es importante resaltar que existe una gran variedad de medias como la Media geométrica, la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en la media aritmética ya que es la más utilizada, aunque se recomienda a los lectores profundizar en estos temas.

2. MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la fórmula


Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2, 5, 8, 10 y 13), la posición de la mediana sería:


Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que equivale al número (8). Si por el contrario contamos con un conjunto de datos que contiene un número par de observaciones, es necesario promediar los dos valores medios de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8, 10, 13 y 15) y la posición de la mediana sería,


Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una mediana equivalente, que para el caso corresponden a  (8 + 10)/2 =9. Lo que nos indicaría que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este valor.

En conclusión la mediana nos indica el valor que separa los datos en dos fracciones iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie ordenada; mientras que para las muestras con un número par de observaciones se debe promediar los valores de las dos posiciones centrales.

3. MODA
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien seria la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que se conoce como multimodal.

En conclusión las Medidas de tendencia central, nos permiten identificar los valores más representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica el valor que más se repite dentro de los datos.


media, mediana y moda

Gráficos estadísticos
Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de la  información. Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros. 
Tipos de gráficos estadísticos  
·         Barras
·         Líneas
·         Circulares
·         Áreas
·         Cartogramas
·         Mixtos
·         Histogramas
Otros
·         Dispersograma
·         Pictogramas
Gráficos de barras verticales
(Llamados por algunos software de columnas)
Representan valores usando trazos verticales, aislados o no unos de otros, según la variable a graficar sea discreta o continua. Pueden usarse para representar:
 
·         una serie
·         dos o más series (también llamado de barras comparativas)
Gráficos de barras horizontales
Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los textos correspondientes a cada categoría son muy extensos.
·         para una serie
·         para dos o más series
Gráficos de barras proporcionales 
Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos  que componen un total.

Las barras pueden ser:

·         Verticales
·         Horizontales
Gráficos de barras comparativas
Se utilizan para comparar dos o más series, para comparar valores entre categorías. 
Las barras pueden ser:
·         Verticales
·         horizontales
Gráficos de barras apiladas
Se usan para mostrar las relaciones  entre dos o más  series con el total.
Las barras pueden ser:
 

·         verticales
·         horizontales

Gráficos de líneas 
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. 
Se pueden usar para representar: 
·         una serie
·         dos o más series

Estos gráficos se utilizan para representar valores con grandes incrementos entre sí.

Gráficos circulares
Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar.
Se pueden ser: 
·         En dos dimensiones
·         en tres dimensiones

Gráficos de Áreas
En estos tipos de gráficos se busca mostrar la tendencia de la información generalmente en un período de tiempo.
Pueden ser: 

·         Para representar una serie
·         para representar dos o más series
·         en dos dimensiones
·         en tres dimensiones.

Cartogramas
Estos tipos de gráficos se utilizan para mostrar datos sobre una base geográfica. La densidad de datos se puede marcar por círculos, sombreado, rayado o color.

Gráficos Mixtos
En estos tipos de gráficos se representan dos o más series de datos, cada una con un tipo diferente de gráfico. Son gráficos más vistosos y se usan para resaltar las diferencias entre las series.
Pueden ser: 
·         en dos  dimensiones
·         en tres dimensiones.
 
     
Histogramas
Estos tipos de gráficos se utilizan para representa distribuciones de frecuencias. Algún software específico para estadística grafican la curva de gauss superpuesta con el histograma. 

OTROS Gráficos
En esta categoría se encuentran la mayoría de los gráficos utilizados en publicidad. Se los complementa con un dibujo que esté relacionado con el origen de la información a mostrar. Son gráficos llamativos, atraen la  atención del lector.
Los  dispersogramas: Son gráficos que se construyen sobre dos ejes ortogonales de coordenadas, llamados  cartesianos, cada punto corresponde a un par de valores de  datos x e y de un mismo elemento suceso.


Medidas de dispersión:
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
·        Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.
·        Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
·        Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación.
MEDIA
Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones.


Cuando los valores representan una población la ecuación se define como:

 
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con muestras de la población todas las ecuaciones que se presenten a continuación serán representativas para las muestras. La media aritmética para una muestra esta determinada como


Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la información; es decir,


Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las frecuencias de cada clase.

Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización de estos datos se representan en la tabla [5-1].



Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a


Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha estos mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3), tomando como referencia cada uno de los valores individuales, obtendríamos que la media es igual a

Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores desagrupados, aunque tiene algunos procedimientos para valores agrupados.

Es importante resaltar que existe una gran variedad de medias como la Media geométrica, la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en la media aritmética ya que es la más utilizada, aunque se recomienda a los lectores profundizar en estos temas.

2. MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la fórmula


Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2, 5, 8, 10 y 13), la posición de la mediana sería:


Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que equivale al número (8). Si por el contrario contamos con un conjunto de datos que contiene un número par de observaciones, es necesario promediar los dos valores medios de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8, 10, 13 y 15) y la posición de la mediana sería,


Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una mediana equivalente, que para el caso corresponden a  (8 + 10)/2 =9. Lo que nos indicaría que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este valor.

En conclusión la mediana nos indica el valor que separa los datos en dos fracciones iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie ordenada; mientras que para las muestras con un número par de observaciones se debe promediar los valores de las dos posiciones centrales.

3. MODA
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien seria la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que se conoce como multimodal.

En conclusión las Medidas de tendencia central, nos permiten identificar los valores más representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica el valor que más se repite dentro de los datos.