Diferencia entre revisiones de «Estadística descriptiva»
De iMMAP-Colombia Wiki
(Página creada con 'La '''estadística descriptiva''' describe los atributos principales de un conjunto de datos de manera cuantitativa.<ref> (1995) ''Introductory Statistics, 2nd Edition'', …') |
|||
Línea 11: | Línea 11: | ||
Describir un conjunto grande de observaciones con un solo indicador pone en riesgo una distorción de los datos originales o una perdición de detalles importantes. Por ejemplo, el porcentaje de tiro no le dice si los tiros son de tres o dos, y un promedio de notas no le dice si el estudiante estuvo en cursos dificiles o faciles. A pesar de estas limitaciones, las estadísticas descriptivas ofrecen un resumen poderoso que permite algunas comparaciones a través de las personas u otras unidades.<ref name="trochim"/> | Describir un conjunto grande de observaciones con un solo indicador pone en riesgo una distorción de los datos originales o una perdición de detalles importantes. Por ejemplo, el porcentaje de tiro no le dice si los tiros son de tres o dos, y un promedio de notas no le dice si el estudiante estuvo en cursos dificiles o faciles. A pesar de estas limitaciones, las estadísticas descriptivas ofrecen un resumen poderoso que permite algunas comparaciones a través de las personas u otras unidades.<ref name="trochim"/> | ||
− | === | + | ===Análisis univariado=== |
− | + | El análisis univariado involucra un examen através de los casos un solo variable, enfocándose sobre tres características: la distribución; la tendencia central y la dispersión. Es común computar los tres para cada variable estudiado. | |
− | ==== | + | ====Distribución==== |
− | + | La distribución es el resumen de la frecuencia de valores individuales o rangos para un variable. La distribución más sencilla alistaría cada valor de un variable y el número de casos que habían para ese valor. Por ejemplo, computar la distribución de género en una población de estudio significa computar los porcentajes que son varones y femeninos. El variable de género tiene tan solo dos, haciendo posible y significativo alistar cada uno. Sin embargo, esto no funciona para un variable tal como el ingreso que tiene muchos posibles valores. Típicamente, valores específicos no son tan significativo (ingresos de 50.000 no son tan significativamente diferente de 51.000). Agrupando los puntajes crudos utilizando rangos de valores reduece el número de categorías para significar algo. Por ejemplo, podríamos agrupar ingresos en rangos 0-10.000, 10.001-30.000, etc. | |
− | + | Las distribuciones de frecuencia están representados como una tabla o una gráfica. Una frecuencia de distribución podría ser representado en una gráfica conocida como un [[histograma]] o tabla de barras. | |
− | ==== | + | ====Tendencia central==== |
− | + | La tendencia central de una distribución ubica el "centro" de una distribución de valores. Los tres tipos principales de estimados de una tendencia central son el ''[[medio]]'', el ''[[mediano]]'', y el ''[[modo]]. | |
− | + | El medio es la metodología más comunmente utilizado para poder describir la tendencia central. Para computar el medio, toma la suma de los valores y divide por la cuenta. Por ejemplo, el puntaje de una prueba media se determina resumiendo todos los puntajes y dividiendo por el número de estudiantes tomando el examen. Por ejemplo, considera los valores de examen siguientes: | |
15, 20, 21, 36, 15, 25, 15 | 15, 20, 21, 36, 15, 25, 15 | ||
− | + | La suma de estos 7 valores es 147, así que el medio es 147/7 =21. | |
− | + | El mediano es el puntaje encontrado en la mitad del conjunto de valores, es decir, que hay tantos valores con un valor más grande como con un valor más pequeño. Otra manera de computar el mediano es sortear los valores en el orden numérico, y luego ubicar el valor en la mitado de la lista. Por ejemplo si están 500 valores, el mediano es el promedio de los dos valores en puesto 250 y 251. Si hay 499, el valor en puesto 250 es el mediano. Sortear los 7 puntajes arriba produce: | |
15, 15, 15, 20, 21, 25, 36 | 15, 15, 15, 20, 21, 25, 36 | ||
− | + | Hay 7 puntajes y puntaje número 4 representa el punto en la mitad. El mediano es 20. Si habían un numero par de observaciones, luego el mediano es el medio de los dos puntajes en la mitad. Por ejemplo, si habián una observación octavo, con valor 25, el mediano vuelve el promedio del número 4 y 5, en este caso 20.5. | |
− | + | El modo es el valor que más frecuentemente recurre en el conjunto. Para determinar el modo, computa la distribución tal como arriba. El modo es el valor con la mayor frecuencia. En el ejemplo, el valor modal 15 ocurre tres veces. En algunas distribuciones hay un "empate" para la frecuencia más alta, es decir, hay multiples valores modales. Esto se conoce como distribuciones multi-modal. | |
− | + | Anota que las tres mediciones típicamente producen resultados distintos. El termino "promedio" obscura la diferencia entre ellas y se debe evitar. | |
− | |||
− | + | Los tres valores son iguales si la distribución es perfectamente "normal" (con forma de campana). | |
− | |||
− | + | ====Dispersión==== | |
+ | Dispersión es el rango de valores alrededor de la tendencia central. Existen dos mediciones comunes de la dispersión el [[rango]] y la [[deviación estándar]]. El rango es sencillamente el valor más alto menos el valor más bajo. En el ejemplo anterior, el valor alto es 36 y el bajo es 15, así que el rango es 36 − 15 = 21. | ||
+ | |||
+ | La deviación estándar es mucho más preciso y detallado en cuanto a un estimado de dispersión porque un valor lejano puede exagerar mucho el rango (tal pasa en este ejemplo dado que el valor único de 36 es muy por aparte del resto de los valores). La deviación estándar muestra la relación que el conjunto de puntajes tienen para el medio de la muestra. | ||
15, 20, 21, 36, 15, 25, 15 | 15, 20, 21, 36, 15, 25, 15 | ||
− | + | para poder computar la deviación estándar, primero se encuentra la distancia entre cada valor y el medio. Se sabe que el medio es 21, así que las diferencias son: | |
:15 − 21 = −6 | :15 − 21 = −6 | ||
Línea 56: | Línea 57: | ||
:15 − 21 = −6 | :15 − 21 = −6 | ||
− | + | Anota que los valores abajo tienen un medio con diferencias negativas y valores encima con positivas. Luego se cuadra cada diferencia: | |
: (−6)<sup>2</sup> = 36 | : (−6)<sup>2</sup> = 36 | ||
Línea 66: | Línea 67: | ||
: (−6)<sup>2</sup> = 36 | : (−6)<sup>2</sup> = 36 | ||
− | + | Ahora, se toma lo "cuadrados" y los suma para tener la suma de cuadrados como valor. La suma es 350. Luego, se divida esta suma por el número de puntajes menos 1. Aquí, el resultado es 350 / 6 = 58.3. Este valor se conoce como la varianza. Para sacar la deviación estándar, se toma el raíz cuadrado de la varianza (acordar que se había cuadrado las deviaciones anteriormente). Esto sería √58.3 = 7.63. | |
− | + | Aunque esta computación puede parecer confuso, realmente es bastante sencillo. Es decir: | |
− | + | el raíz cuadrado de la suma de las derivaciones cuadradas del medio dividido por el número de puntajes menos uno | |
− | + | La deviación estándar nos permite alcanzar algunas conclusiones sobre puntajes específicos en nuestra distribución. Asumiendo que la distribución de los puntajes está cercana a lo "normal", los siguientes conclusiones se puede hacer: | |
− | :* | + | :* aproximadamente 68% de los puntajes en la muestra caen entre una deviación estándar del medio |
− | :* | + | :* aproximadamente 95% de los puntajes en la muestra caen entre dos deviaciones estandares del medio |
− | :* | + | :* aproximadamente 99% de los puntajes en la muestra caen entre tres deviaciones estandares del medio |
− | + | Por ejemplo, dado que el medio en nuestra muestra es 21 y la deviación estándar es 7.63, podemos de la conclusión anterior estimar que aproximadamente 95% de los puntajes caerán en el rango de 21 − (2×7.63) to 21 + (2×7.63) o entre 5.74 y 36.26. Valores más allá de dos deviaciones estandares del medio pueden ser considerados [[valores atípicos]]. 36 es el único valor así en la distribución. Los valores atípicos ayudan en identificar observaciones para más análisis o posibles problemas en las observaciones. Las deviaciones estándares también convierten medidas en escalas muy diferentes, tales como altura o peso, en valores comparables. | |
− | == | + | ==Ver también== |
− | + | * [[Estadísticas de resumen]] | |
+ | * [[Análisis exploratorio de los datos]] | ||
+ | * [[Inferencia estadística]] | ||
+ | * [[Minaje de los datos]] | ||
− | == | + | ==Referencias== |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
{{Reflist}} | {{Reflist}} | ||
− | + | [[Category:Metodología]] | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | [[Category: | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− |
Revisión del 15:05 9 ago 2011
La estadística descriptiva describe los atributos principales de un conjunto de datos de manera cuantitativa.<ref>
(1995) Introductory Statistics, 2nd Edition, Wiley. ISBN 0-471-31009-3</ref> Estadísticas descriptivas se distingue de estadística inferencial (o estadística inductiva), en que la estadística descriptiva busca resumir un conjunto de datos, en lugar de utilizar los datos para aprender sobre la población estadística que los datos deben representar. Esto generalmente significa que la estadística descriptiva, a diferencia de la estadística inferencial, no están desarrollados basándose en la teoría de la probabilidad.<ref>
Dodge, Y (2003) The Oxford Dictionary of Statistical Terms OUP. ISBN 0-19-850994-4</ref>. Incluso cuando un análisis de datos recoge sus conclusiones principales utilizando estadística inferencial, estadística descriptiva generalmente también se cita. Por ejemplo en un trabajo reportando sobre un estudio involucrando sujetos humanos, típicamente aparece una tabla dando el tamaño de la muestra, tamaños de muestra por subgrupos importantes (e.g., para cada tratamiento o grupo de exposición), y características demográficas o clínicas tales como la edad promedia, la proporción de sujetos por género y la proporción de sujetos con co-morbilidad.
Sumario
Uso en el análisis estadístico
La estadística descriptiva permite resumenes sobre la muestra y las mediciones. Junto con un análisis de gráficas sencillo, forman la base de un análisis cuantitativo de los datos.
Las estadísticas descriptivas resumen los datos. Por ejemplo, tirar un porcentaje en el baloncesto es una estadística descriptiva que resume el desempeño de un jugador o de un equipo. Este número es el número de tiros hechos dividido por el número de intentos. Un jugador quien tira 33% está haciendo aproximadamente un tiro de cada tres. Uno haciendo 25% está haciendo uno de cada cuatro. El porcentaje resume o describe multiples eventos discretos. O, considera el enemigo de muchos estudiante, el promedio puntaje. Este número único describe el desempeño de un estudiante a través de todos sus experiencias de cursos.<ref name="trochim">Plantilla:Cite web</ref>
Describir un conjunto grande de observaciones con un solo indicador pone en riesgo una distorción de los datos originales o una perdición de detalles importantes. Por ejemplo, el porcentaje de tiro no le dice si los tiros son de tres o dos, y un promedio de notas no le dice si el estudiante estuvo en cursos dificiles o faciles. A pesar de estas limitaciones, las estadísticas descriptivas ofrecen un resumen poderoso que permite algunas comparaciones a través de las personas u otras unidades.<ref name="trochim"/>
Análisis univariado
El análisis univariado involucra un examen através de los casos un solo variable, enfocándose sobre tres características: la distribución; la tendencia central y la dispersión. Es común computar los tres para cada variable estudiado.
Distribución
La distribución es el resumen de la frecuencia de valores individuales o rangos para un variable. La distribución más sencilla alistaría cada valor de un variable y el número de casos que habían para ese valor. Por ejemplo, computar la distribución de género en una población de estudio significa computar los porcentajes que son varones y femeninos. El variable de género tiene tan solo dos, haciendo posible y significativo alistar cada uno. Sin embargo, esto no funciona para un variable tal como el ingreso que tiene muchos posibles valores. Típicamente, valores específicos no son tan significativo (ingresos de 50.000 no son tan significativamente diferente de 51.000). Agrupando los puntajes crudos utilizando rangos de valores reduece el número de categorías para significar algo. Por ejemplo, podríamos agrupar ingresos en rangos 0-10.000, 10.001-30.000, etc.
Las distribuciones de frecuencia están representados como una tabla o una gráfica. Una frecuencia de distribución podría ser representado en una gráfica conocida como un histograma o tabla de barras.
Tendencia central
La tendencia central de una distribución ubica el "centro" de una distribución de valores. Los tres tipos principales de estimados de una tendencia central son el medio, el mediano, y el modo.
El medio es la metodología más comunmente utilizado para poder describir la tendencia central. Para computar el medio, toma la suma de los valores y divide por la cuenta. Por ejemplo, el puntaje de una prueba media se determina resumiendo todos los puntajes y dividiendo por el número de estudiantes tomando el examen. Por ejemplo, considera los valores de examen siguientes:
15, 20, 21, 36, 15, 25, 15
La suma de estos 7 valores es 147, así que el medio es 147/7 =21.
El mediano es el puntaje encontrado en la mitad del conjunto de valores, es decir, que hay tantos valores con un valor más grande como con un valor más pequeño. Otra manera de computar el mediano es sortear los valores en el orden numérico, y luego ubicar el valor en la mitado de la lista. Por ejemplo si están 500 valores, el mediano es el promedio de los dos valores en puesto 250 y 251. Si hay 499, el valor en puesto 250 es el mediano. Sortear los 7 puntajes arriba produce:
15, 15, 15, 20, 21, 25, 36
Hay 7 puntajes y puntaje número 4 representa el punto en la mitad. El mediano es 20. Si habían un numero par de observaciones, luego el mediano es el medio de los dos puntajes en la mitad. Por ejemplo, si habián una observación octavo, con valor 25, el mediano vuelve el promedio del número 4 y 5, en este caso 20.5.
El modo es el valor que más frecuentemente recurre en el conjunto. Para determinar el modo, computa la distribución tal como arriba. El modo es el valor con la mayor frecuencia. En el ejemplo, el valor modal 15 ocurre tres veces. En algunas distribuciones hay un "empate" para la frecuencia más alta, es decir, hay multiples valores modales. Esto se conoce como distribuciones multi-modal.
Anota que las tres mediciones típicamente producen resultados distintos. El termino "promedio" obscura la diferencia entre ellas y se debe evitar.
Los tres valores son iguales si la distribución es perfectamente "normal" (con forma de campana).
Dispersión
Dispersión es el rango de valores alrededor de la tendencia central. Existen dos mediciones comunes de la dispersión el rango y la deviación estándar. El rango es sencillamente el valor más alto menos el valor más bajo. En el ejemplo anterior, el valor alto es 36 y el bajo es 15, así que el rango es 36 − 15 = 21.
La deviación estándar es mucho más preciso y detallado en cuanto a un estimado de dispersión porque un valor lejano puede exagerar mucho el rango (tal pasa en este ejemplo dado que el valor único de 36 es muy por aparte del resto de los valores). La deviación estándar muestra la relación que el conjunto de puntajes tienen para el medio de la muestra.
15, 20, 21, 36, 15, 25, 15
para poder computar la deviación estándar, primero se encuentra la distancia entre cada valor y el medio. Se sabe que el medio es 21, así que las diferencias son:
- 15 − 21 = −6
- 20 − 21 = −1
- 21 − 21 = 0
- 36 − 21 = 15
- 15 − 21 = −6
- 25 − 21 = +4
- 15 − 21 = −6
Anota que los valores abajo tienen un medio con diferencias negativas y valores encima con positivas. Luego se cuadra cada diferencia:
- (−6)2 = 36
- (−1)2 = 1
- (+0)2 = 0
- (15)2 = 225
- (−6)2 = 36
- (+4)2 = 16
- (−6)2 = 36
Ahora, se toma lo "cuadrados" y los suma para tener la suma de cuadrados como valor. La suma es 350. Luego, se divida esta suma por el número de puntajes menos 1. Aquí, el resultado es 350 / 6 = 58.3. Este valor se conoce como la varianza. Para sacar la deviación estándar, se toma el raíz cuadrado de la varianza (acordar que se había cuadrado las deviaciones anteriormente). Esto sería √58.3 = 7.63.
Aunque esta computación puede parecer confuso, realmente es bastante sencillo. Es decir:
el raíz cuadrado de la suma de las derivaciones cuadradas del medio dividido por el número de puntajes menos uno
La deviación estándar nos permite alcanzar algunas conclusiones sobre puntajes específicos en nuestra distribución. Asumiendo que la distribución de los puntajes está cercana a lo "normal", los siguientes conclusiones se puede hacer:
- aproximadamente 68% de los puntajes en la muestra caen entre una deviación estándar del medio
- aproximadamente 95% de los puntajes en la muestra caen entre dos deviaciones estandares del medio
- aproximadamente 99% de los puntajes en la muestra caen entre tres deviaciones estandares del medio
Por ejemplo, dado que el medio en nuestra muestra es 21 y la deviación estándar es 7.63, podemos de la conclusión anterior estimar que aproximadamente 95% de los puntajes caerán en el rango de 21 − (2×7.63) to 21 + (2×7.63) o entre 5.74 y 36.26. Valores más allá de dos deviaciones estandares del medio pueden ser considerados valores atípicos. 36 es el único valor así en la distribución. Los valores atípicos ayudan en identificar observaciones para más análisis o posibles problemas en las observaciones. Las deviaciones estándares también convierten medidas en escalas muy diferentes, tales como altura o peso, en valores comparables.
Ver también
- Estadísticas de resumen
- Análisis exploratorio de los datos
- Inferencia estadística
- Minaje de los datos