Acciones

Diferencia entre revisiones de «Estadística descriptiva»

De iMMAP-Colombia Wiki

(Página creada con 'La '''estadística descriptiva''' describe los atributos principales de un conjunto de datos de manera cuantitativa.<ref> (1995) ''Introductory Statistics, 2nd Edition'', …')
 
 
(No se muestran 2 ediciones intermedias de 2 usuarios)
Línea 1: Línea 1:
La '''estadística descriptiva''' describe los atributos principales de un conjunto de [[datos]] de manera cuantitativa.<ref>
+
La estadística descriptiva describe los atributos principales de un conjunto de [[datos]] de manera cuantitativa.
  
(1995) ''Introductory Statistics, 2nd Edition'', Wiley. ISBN 0-471-31009-3</ref> Estadísticas descriptivas se distingue de [[estadística inferencial]] (o estadística inductiva), en que la estadística descriptiva busca resumir un conjunto de datos, en lugar de utilizar los datos para aprender sobre la [[población estadística]] que los datos deben representar.  Esto generalmente significa que la estadística descriptiva, a diferencia de la estadística inferencial, no están desarrollados basándose en la teoría de la [[probabilidad]].<ref>
+
Estadísticas descriptivas se distingue de [[estadística inferencial]] (o estadística inductiva), en que la estadística descriptiva busca resumir un conjunto de datos, en lugar de utilizar los datos para aprender sobre la [[población estadística]] que los datos deben representar.  Esto generalmente significa que la estadística descriptiva, a diferencia de la estadística inferencial, no están desarrollados basándose en la teoría de la [[probabilidad]].<ref>
 
Dodge, Y (2003) ''The Oxford Dictionary of Statistical Terms'' OUP. ISBN 0-19-850994-4</ref>.  Incluso cuando un análisis de datos recoge sus conclusiones principales utilizando estadística inferencial, estadística descriptiva generalmente también se cita.  Por ejemplo en un trabajo reportando sobre un estudio involucrando sujetos humanos, típicamente aparece una tabla dando el [[tamaño de la muestra]], tamaños de muestra por subgrupos importantes (e.g., para cada tratamiento o grupo de exposición), y características [[demográficas]] o clínicas tales como la edad promedia, la proporción de sujetos por género y la proporción de sujetos con co-morbilidad.
 
Dodge, Y (2003) ''The Oxford Dictionary of Statistical Terms'' OUP. ISBN 0-19-850994-4</ref>.  Incluso cuando un análisis de datos recoge sus conclusiones principales utilizando estadística inferencial, estadística descriptiva generalmente también se cita.  Por ejemplo en un trabajo reportando sobre un estudio involucrando sujetos humanos, típicamente aparece una tabla dando el [[tamaño de la muestra]], tamaños de muestra por subgrupos importantes (e.g., para cada tratamiento o grupo de exposición), y características [[demográficas]] o clínicas tales como la edad promedia, la proporción de sujetos por género y la proporción de sujetos con co-morbilidad.
  
Línea 11: Línea 11:
 
Describir un conjunto grande de observaciones con un solo indicador pone en riesgo una distorción de los datos originales o una perdición de detalles importantes.  Por ejemplo, el porcentaje de tiro no le dice si los tiros son de tres o dos, y un promedio de notas no le dice si el estudiante estuvo en cursos dificiles o faciles.  A pesar de estas limitaciones, las estadísticas descriptivas ofrecen un resumen poderoso que permite algunas comparaciones a través de las personas u otras unidades.<ref name="trochim"/>
 
Describir un conjunto grande de observaciones con un solo indicador pone en riesgo una distorción de los datos originales o una perdición de detalles importantes.  Por ejemplo, el porcentaje de tiro no le dice si los tiros son de tres o dos, y un promedio de notas no le dice si el estudiante estuvo en cursos dificiles o faciles.  A pesar de estas limitaciones, las estadísticas descriptivas ofrecen un resumen poderoso que permite algunas comparaciones a través de las personas u otras unidades.<ref name="trochim"/>
  
===Univariate analysis===
+
===Análisis univariado===
[[Univariate analysis]] involves the examination across cases of a single variable, focusing on three characteristics: the distribution; the central tendency; and the dispersion. It is common to compute all three for each study variable.
+
El análisis univariado involucra un examen através de los casos un solo variable, enfocándose sobre tres características: la distribución; la tendencia central y la dispersión. Es común computar los tres para cada variable estudiado.
  
====Distribution====
+
====Distribución====
The distribution is a summary of the frequency of individual or ranges of values for a variable. The simplest distribution would list every value of a variable and the number of cases who had that value. For instance, computing the distribution of gender in the study population means computing the percentages that are male and female. The gender variable has only two, making it possible and meaningful to list each one. However, this does not work for a variable such as income that has many possible values. Typically, specific values are not particularly meaningful (income of 50,000 is typically not meaningfully different from 51,000). Grouping the raw scores using ranges of values reduces the number of categories to something for meaningful. For instance, we might group incomes into ranges of 0-10,000, 10,001-30,000, etc.
+
La distribución es el resumen de la frecuencia de valores individuales o rangos para un variable. La distribución más sencilla alistaría cada valor de un variable y el número de casos que habían para ese valor. Por ejemplo, computar la distribución de género en una población de estudio significa computar los porcentajes que son varones y femeninos. El variable de género tiene tan solo dos, haciendo posible y significativo alistar cada uno. Sin embargo, esto no funciona para un variable tal como el ingreso que tiene muchos posibles valores. Típicamente, valores específicos no son tan significativo (ingresos de 50.000 no son tan significativamente diferente de 51.000). Agrupando los puntajes crudos utilizando rangos de valores reduece el número de categorías para significar algo. Por ejemplo, podríamos agrupar ingresos en rangos 0-10.000, 10.001-30.000, etc.
  
Frequency distributions are depicted as a table or as a graph. Table 1 shows an age frequency distribution with five categories of age ranges defined. The same frequency distribution can be depicted in a graph as shown in Figure 2. This type of graph is often referred to as a [[histogram]] or bar chart.
+
Las distribuciones de frecuencia están representados como una tabla o una gráfica. Una frecuencia de distribución podría ser representado en una gráfica conocida como un [[histograma]] o tabla de barras.
  
====Central tendency====
+
====Tendencia central====
The [[central tendency]] of a distribution locates the "center" of a distribution of values. The three major types of estimates of central tendency are the ''[[mean]]'', the ''[[median]]'', and the ''[[mode (statistics)|mode]]''.
+
La tendencia central de una distribución ubica el "centro" de una distribución de valores. Los tres tipos principales de estimados de una tendencia central son el ''[[medio]]'', el ''[[mediano]]'', y el ''[[modo]].
  
The mean is the most commonly used method of describing central tendency. To compute the mean, take the sum of the values and divide by the count. For example, the mean quiz score is determined by summing all the scores and dividing by the number of students taking the exam. For example, consider the test score values:
+
El medio es la metodología más comunmente utilizado para poder describir la tendencia central. Para computar el medio, toma la suma de los valores y divide por la cuenta. Por ejemplo, el puntaje de una prueba media se determina resumiendo todos los puntajes y dividiendo por el número de estudiantes tomando el examen. Por ejemplo, considera los valores de examen siguientes:
  
 
15, 20, 21, 36, 15, 25, 15
 
15, 20, 21, 36, 15, 25, 15
  
The sum of these 7 values is 147, so the mean is 147/7 =21.
+
La suma de estos 7 valores es 147, así que el medio es 147/7 =21.
  
The median is the score found at the middle of the set of values, i.e., that has as many cases with a larger value as have a smaller value. One way to compute the median is to sort the values in numerical order, and then locate the value in the middle of the list. For example, if there are 500 values, the median is the average of the two values in 250th and 251st positions. If there are 499 values, the value in 250th position is the median. Sorting the 7 scores above produces:
+
El mediano es el puntaje encontrado en la mitad del conjunto de valores, es decir, que hay tantos valores con un valor más grande como con un valor más pequeño. Otra manera de computar el mediano es sortear los valores en el orden numérico, y luego ubicar el valor en la mitado de la lista. Por ejemplo si están 500 valores, el mediano es el promedio de los dos valores en puesto 250 y 251. Si hay 499, el valor en puesto 250 es el mediano. Sortear los 7 puntajes arriba produce:
  
 
15, 15, 15, 20, 21, 25, 36
 
15, 15, 15, 20, 21, 25, 36
  
There are 7 scores and score #4 represents the halfway point. The median is 20. If there are an even number of observations, then the median is the mean of the two middle scores. In the example, if there were an 8th observation, with a value of 25, the median becomes the average of the 4th and 5th scores, in this case 20.5.
+
Hay 7 puntajes y puntaje número 4 representa el punto en la mitad. El mediano es 20. Si habían un numero par de observaciones, luego el mediano es el medio de los dos puntajes en la mitad. Por ejemplo, si habián una observación octavo, con valor 25, el mediano vuelve el promedio del número 4 y 5, en este caso 20.5.
  
The mode is the most frequently occurring value in the set. To determine the mode, compute the distribution as above. The mode is the value with the greatest frequency. In the example, the modal value 15, occurs three times. In some distributions there is a "tie" for the highest frequency, i.e., there are multiple modal values. These are called multi-modal distributions.
+
El modo es el valor que más frecuentemente recurre en el conjunto. Para determinar el modo, computa la distribución tal como arriba. El modo es el valor con la mayor frecuencia. En el ejemplo, el valor modal 15 ocurre tres veces. En algunas distribuciones hay un "empate" para la frecuencia más alta, es decir, hay multiples valores modales. Esto se conoce como distribuciones multi-modal.
  
Notice that the three measures typically produce different results. The term "average" obscures the difference between them and is better avoided.
+
Anota que las tres mediciones típicamente producen resultados distintos. El termino "promedio" obscura la diferencia entre ellas y se debe evitar.
The three values are equal if the distribution is perfectly "[[normal distribution|normal]]" (i.e., bell-shaped).
 
  
====Dispersion====
+
Los tres valores son iguales si la distribución es perfectamente "normal" (con forma de campana).
Dispersion is the spread of values around the central tendency. There are two common measures of dispersion, the [[range (statistics)|range]] and the [[standard deviation]]. The range is simply the highest value minus the lowest value. In our example distribution, the high value is 36 and the low is 15, so the range is 36&nbsp;&minus;&nbsp;15&nbsp;=&nbsp;21.
 
  
The standard deviation is a more accurate and detailed estimate of dispersion because an outlier can greatly exaggerate the range (as was true in this example where the single outlier value of 36 stands apart from the rest of the values). The standard deviation shows the relation that set of scores has to the mean of the sample. Again let's take the set of scores:
+
====Dispersión====
 +
Dispersión es el rango de valores alrededor de la tendencia central.  Existen dos mediciones comunes de la dispersión el [[rango]] y la [[deviación estándar]].  El rango es sencillamente el valor más alto menos el valor más bajo.  En el ejemplo anterior, el valor alto es 36 y el bajo es 15, así que el rango es 36&nbsp;&minus;&nbsp;15&nbsp;=&nbsp;21.
 +
 
 +
La deviación estándar es mucho más preciso y detallado en cuanto a un estimado de dispersión porque un valor lejano puede exagerar mucho el rango (tal pasa en este ejemplo dado que el valor único de 36 es muy por aparte del resto de los valores). La deviación estándar muestra la relación que el conjunto de puntajes tienen para el medio de la muestra.
  
 
15, 20, 21, 36, 15, 25, 15
 
15, 20, 21, 36, 15, 25, 15
  
to compute the standard deviation, we first find the distance between each value and the mean. We know from above that the mean is 21. So, the differences from the mean are:
+
para poder computar la deviación estándar, primero se encuentra la distancia entre cada valor y el medio. Se sabe que el medio es 21, así que las diferencias son:
  
 
:15 − 21 = −6
 
:15 − 21 = −6
Línea 56: Línea 57:
 
:15 − 21 = −6
 
:15 − 21 = −6
  
Notice that values that are below the mean have negative differences and values above it have positive ones. Next, we square each difference:
+
Anota que los valores abajo tienen un medio con diferencias negativas y valores encima con positivas. Luego se cuadra cada diferencia:
  
 
: (−6)<sup>2</sup> = 36
 
: (−6)<sup>2</sup> = 36
Línea 66: Línea 67:
 
: (−6)<sup>2</sup> = 36
 
: (−6)<sup>2</sup> = 36
  
Now, we take these "squares" and sum them to get the [[Sum of squares (statistics)|sum of squares]] (SS) value. Here, the sum is 350. Next, we divide this sum by the number of scores minus 1. Here, the result is 350&nbsp;/&nbsp;6&nbsp;=&nbsp;58.3. This value is known as the [[variance]]. To get the standard deviation, we take the [[square root]] of the variance (remember that we squared the deviations earlier). This would be √58.3&nbsp;=&nbsp;7.63.
+
Ahora, se toma lo "cuadrados" y los suma para tener la suma de cuadrados como valor. La suma es 350. Luego, se divida esta suma por el número de puntajes menos 1. Aquí, el resultado es 350&nbsp;/&nbsp;6&nbsp;=&nbsp;58.3. Este valor se conoce como la varianza. Para sacar la deviación estándar, se toma el raíz cuadrado de la varianza (acordar que se había cuadrado las deviaciones anteriormente). Esto sería √58.3&nbsp;=&nbsp;7.63.
  
Although this computation may seem convoluted, it's actually quite simple. In English, we can describe the standard deviation as:
+
Aunque esta computación puede parecer confuso, realmente es bastante sencillo. Es decir:
  
the square root of the sum of the squared deviations from the mean divided by the number of scores minus one
+
el raíz cuadrado de la suma de las derivaciones cuadradas del medio dividido por el número de puntajes menos uno
  
The standard deviation allows us to reach some conclusions about specific scores in our distribution. Assuming that the distribution of scores is close to "normal", the following conclusions can be reached:
+
La deviación estándar nos permite alcanzar algunas conclusiones sobre puntajes específicos en nuestra distribución. Asumiendo que la distribución de los puntajes está cercana a lo "normal", los siguientes conclusiones se puede hacer:
  
:* approximately 68% of the scores in the sample fall within one standard deviation of the mean
+
:* aproximadamente 68% de los puntajes en la muestra caen entre una deviación estándar del medio
:* approximately 95% of the scores in the sample fall within two standard deviations of the mean
+
:* aproximadamente 95% de los puntajes en la muestra caen entre dos deviaciones estandares del medio
:* approximately 99% of the scores in the sample fall within three standard deviations of the mean
+
:* aproximadamente 99% de los puntajes en la muestra caen entre tres deviaciones estandares del medio
  
For instance, since the mean in our example is 21 and the standard deviation is 7.63, we can from the above statement estimate that approximately 95% of the scores will fall in the range of 21&nbsp;−&nbsp;(2&times;7.63) to 21&nbsp;+&nbsp;(2&times;7.63) or between 5.74 and 36.26. Values beyond two standard deviations from the mean can be considered "[[outlier]]s". 36 is the only such value in our distribution. Outliers help identify observations for further analysis or possible problems in the observations. Standard deviations also convert measures on very different scales, such as height and weight, into values that can be compared.
+
Por ejemplo, dado que el medio en nuestra muestra es 21 y la deviación estándar es 7.63, podemos de la conclusión anterior estimar que aproximadamente 95% de los puntajes caerán en el rango de 21&nbsp;−&nbsp;(2&times;7.63) to 21&nbsp;+&nbsp;(2&times;7.63) o entre 5.74 y 36.26. Valores más allá de dos deviaciones estandares del medio pueden ser considerados [[valores atípicos]]. 36 es el único valor así en la distribución. Los valores atípicos ayudan en identificar observaciones para más análisis o posibles problemas en las observaciones. Las deviaciones estándares también convierten medidas en escalas muy diferentes, tales como altura o peso, en valores comparables.
  
====Other statistics====
+
==Ver también==
In research involving comparisons between groups, emphasis is often placed on the [[statistical significance|significance level]] for the [[statistical hypothesis|hypothesis]] that the groups being compared differ to a degree greater than would be expected by chance.  This significance level is often represented as a [[p-value]], or sometimes as the [[standard score]] of a [[test statistic]].  In contrast, an [[effect size]] conveys the estimated magnitude and direction of the difference between groups, without regard to whether the difference is statistically significant. Reporting significance levels without effect sizes is problematic, since for large sample sizes even small effects of little practical importance can be statistically significant.
+
* [[Estadísticas de resumen]]
 +
* [[Análisis exploratorio de los datos]]
 +
* [[Inferencia estadística]]
 +
* [[Minaje de los datos]]
  
==Examples of descriptive statistics==
+
==Referencias==
Most statistics can be used either as a descriptive statistic, or in an inductive analysis.  For example, we can report the average reading test score for the students in each classroom in a school, to give a descriptive sense of the typical scores and their variation.  If we perform a formal [[hypothesis test]] on the scores, we are doing [[inductive statistics|inductive]] rather than descriptive analysis.
 
 
 
Some statistical summaries are especially common in descriptive analyses.  Some examples follow.
 
 
 
* Measures of [[central tendency]]
 
 
 
* Measures of [[statistical dispersion|dispersion]]
 
 
 
* Measures of [[association (statistics)|association]]
 
 
 
* [[Cross-tabulation]], [[contingency table]]
 
 
 
* [[Histogram]]
 
 
 
* [[Quantile]], [[Q-Q plot]]
 
 
 
* [[Scatterplot]]
 
 
 
* [[Box plot]]
 
 
 
==See also==
 
{{Portal|Statistics}}
 
* [[Summary statistics]]
 
* [[Exploratory data analysis]]
 
* [[Statistical inference]]
 
* [[Data mining]]
 
 
 
{{More footnotes|date=July 2010}}
 
 
 
==Notes==
 
 
{{Reflist}}
 
{{Reflist}}
 
+
[[Category:Metodología]]
==External links==
 
* Descriptive Statistics Lecture: University of Pittsburgh Supercourse: http://www.pitt.edu/~super1/lecture/lec0421/index.htm
 
 
 
{{Statistics|descriptive}}
 
 
 
{{DEFAULTSORT:Descriptive Statistics}}
 
[[Category:Summary statistics]]
 
[[Category:Psychometrics]]
 
 
 
[[ar:إحصاء وصفي]]
 
[[ca:Estadística descriptiva]]
 
[[de:Deskriptive Statistik]]
 
[[es:Estadística descriptiva]]
 
[[eu:Estatistika deskribatzaile]]
 
[[fa:آمار توصیفی]]
 
[[fr:Statistique descriptive]]
 
[[ko:기술 통계학]]
 
[[id:Statistika deskriptif]]
 
[[it:Statistica descrittiva]]
 
[[he:סטטיסטיקה תאורית]]
 
[[lv:Aprakstošā statistika]]
 
[[lb:Deskriptiv Statistik]]
 
[[ja:要約統計量]]
 
[[no:Deskriptiv statistikk]]
 
[[pl:Statystyka opisowa]]
 
[[pt:Estatística descritiva]]
 
[[ru:Описательная статистика]]
 
[[simple:Descriptive statistics]]
 
[[sr:Дескриптивна студија]]
 
[[su:Statistik deskriptif]]
 
[[th:สถิติพรรณนา]]
 
[[tr:Betimsel istatistik]]
 
[[vi:Thống kê mô tả]]
 
[[yi:באשרייבנדיקע סטאטיסטיק]]
 
[[zh:描述统计学]]
 

Revisión actual del 18:45 9 ene 2023

La estadística descriptiva describe los atributos principales de un conjunto de datos de manera cuantitativa.

Estadísticas descriptivas se distingue de estadística inferencial (o estadística inductiva), en que la estadística descriptiva busca resumir un conjunto de datos, en lugar de utilizar los datos para aprender sobre la población estadística que los datos deben representar. Esto generalmente significa que la estadística descriptiva, a diferencia de la estadística inferencial, no están desarrollados basándose en la teoría de la probabilidad.<ref> Dodge, Y (2003) The Oxford Dictionary of Statistical Terms OUP. ISBN 0-19-850994-4</ref>. Incluso cuando un análisis de datos recoge sus conclusiones principales utilizando estadística inferencial, estadística descriptiva generalmente también se cita. Por ejemplo en un trabajo reportando sobre un estudio involucrando sujetos humanos, típicamente aparece una tabla dando el tamaño de la muestra, tamaños de muestra por subgrupos importantes (e.g., para cada tratamiento o grupo de exposición), y características demográficas o clínicas tales como la edad promedia, la proporción de sujetos por género y la proporción de sujetos con co-morbilidad.

Uso en el análisis estadístico

La estadística descriptiva permite resumenes sobre la muestra y las mediciones. Junto con un análisis de gráficas sencillo, forman la base de un análisis cuantitativo de los datos.

Las estadísticas descriptivas resumen los datos. Por ejemplo, tirar un porcentaje en el baloncesto es una estadística descriptiva que resume el desempeño de un jugador o de un equipo. Este número es el número de tiros hechos dividido por el número de intentos. Un jugador quien tira 33% está haciendo aproximadamente un tiro de cada tres. Uno haciendo 25% está haciendo uno de cada cuatro. El porcentaje resume o describe multiples eventos discretos. O, considera el enemigo de muchos estudiante, el promedio puntaje. Este número único describe el desempeño de un estudiante a través de todos sus experiencias de cursos.<ref name="trochim">Plantilla:Cite web</ref>

Describir un conjunto grande de observaciones con un solo indicador pone en riesgo una distorción de los datos originales o una perdición de detalles importantes. Por ejemplo, el porcentaje de tiro no le dice si los tiros son de tres o dos, y un promedio de notas no le dice si el estudiante estuvo en cursos dificiles o faciles. A pesar de estas limitaciones, las estadísticas descriptivas ofrecen un resumen poderoso que permite algunas comparaciones a través de las personas u otras unidades.<ref name="trochim"/>

Análisis univariado

El análisis univariado involucra un examen através de los casos un solo variable, enfocándose sobre tres características: la distribución; la tendencia central y la dispersión. Es común computar los tres para cada variable estudiado.

Distribución

La distribución es el resumen de la frecuencia de valores individuales o rangos para un variable. La distribución más sencilla alistaría cada valor de un variable y el número de casos que habían para ese valor. Por ejemplo, computar la distribución de género en una población de estudio significa computar los porcentajes que son varones y femeninos. El variable de género tiene tan solo dos, haciendo posible y significativo alistar cada uno. Sin embargo, esto no funciona para un variable tal como el ingreso que tiene muchos posibles valores. Típicamente, valores específicos no son tan significativo (ingresos de 50.000 no son tan significativamente diferente de 51.000). Agrupando los puntajes crudos utilizando rangos de valores reduece el número de categorías para significar algo. Por ejemplo, podríamos agrupar ingresos en rangos 0-10.000, 10.001-30.000, etc.

Las distribuciones de frecuencia están representados como una tabla o una gráfica. Una frecuencia de distribución podría ser representado en una gráfica conocida como un histograma o tabla de barras.

Tendencia central

La tendencia central de una distribución ubica el "centro" de una distribución de valores. Los tres tipos principales de estimados de una tendencia central son el medio, el mediano, y el modo.

El medio es la metodología más comunmente utilizado para poder describir la tendencia central. Para computar el medio, toma la suma de los valores y divide por la cuenta. Por ejemplo, el puntaje de una prueba media se determina resumiendo todos los puntajes y dividiendo por el número de estudiantes tomando el examen. Por ejemplo, considera los valores de examen siguientes:

15, 20, 21, 36, 15, 25, 15

La suma de estos 7 valores es 147, así que el medio es 147/7 =21.

El mediano es el puntaje encontrado en la mitad del conjunto de valores, es decir, que hay tantos valores con un valor más grande como con un valor más pequeño. Otra manera de computar el mediano es sortear los valores en el orden numérico, y luego ubicar el valor en la mitado de la lista. Por ejemplo si están 500 valores, el mediano es el promedio de los dos valores en puesto 250 y 251. Si hay 499, el valor en puesto 250 es el mediano. Sortear los 7 puntajes arriba produce:

15, 15, 15, 20, 21, 25, 36

Hay 7 puntajes y puntaje número 4 representa el punto en la mitad. El mediano es 20. Si habían un numero par de observaciones, luego el mediano es el medio de los dos puntajes en la mitad. Por ejemplo, si habián una observación octavo, con valor 25, el mediano vuelve el promedio del número 4 y 5, en este caso 20.5.

El modo es el valor que más frecuentemente recurre en el conjunto. Para determinar el modo, computa la distribución tal como arriba. El modo es el valor con la mayor frecuencia. En el ejemplo, el valor modal 15 ocurre tres veces. En algunas distribuciones hay un "empate" para la frecuencia más alta, es decir, hay multiples valores modales. Esto se conoce como distribuciones multi-modal.

Anota que las tres mediciones típicamente producen resultados distintos. El termino "promedio" obscura la diferencia entre ellas y se debe evitar.

Los tres valores son iguales si la distribución es perfectamente "normal" (con forma de campana).

Dispersión

Dispersión es el rango de valores alrededor de la tendencia central. Existen dos mediciones comunes de la dispersión el rango y la deviación estándar. El rango es sencillamente el valor más alto menos el valor más bajo. En el ejemplo anterior, el valor alto es 36 y el bajo es 15, así que el rango es 36 − 15 = 21.

La deviación estándar es mucho más preciso y detallado en cuanto a un estimado de dispersión porque un valor lejano puede exagerar mucho el rango (tal pasa en este ejemplo dado que el valor único de 36 es muy por aparte del resto de los valores). La deviación estándar muestra la relación que el conjunto de puntajes tienen para el medio de la muestra.

15, 20, 21, 36, 15, 25, 15

para poder computar la deviación estándar, primero se encuentra la distancia entre cada valor y el medio. Se sabe que el medio es 21, así que las diferencias son:

15 − 21 = −6
20 − 21 = −1
21 − 21 = 0
36 − 21 = 15
15 − 21 = −6
25 − 21 = +4
15 − 21 = −6

Anota que los valores abajo tienen un medio con diferencias negativas y valores encima con positivas. Luego se cuadra cada diferencia:

(−6)2 = 36
(−1)2 = 1
(+0)2 = 0
(15)2 = 225
(−6)2 = 36
(+4)2 = 16
(−6)2 = 36

Ahora, se toma lo "cuadrados" y los suma para tener la suma de cuadrados como valor. La suma es 350. Luego, se divida esta suma por el número de puntajes menos 1. Aquí, el resultado es 350 / 6 = 58.3. Este valor se conoce como la varianza. Para sacar la deviación estándar, se toma el raíz cuadrado de la varianza (acordar que se había cuadrado las deviaciones anteriormente). Esto sería √58.3 = 7.63.

Aunque esta computación puede parecer confuso, realmente es bastante sencillo. Es decir:

el raíz cuadrado de la suma de las derivaciones cuadradas del medio dividido por el número de puntajes menos uno

La deviación estándar nos permite alcanzar algunas conclusiones sobre puntajes específicos en nuestra distribución. Asumiendo que la distribución de los puntajes está cercana a lo "normal", los siguientes conclusiones se puede hacer:

  • aproximadamente 68% de los puntajes en la muestra caen entre una deviación estándar del medio
  • aproximadamente 95% de los puntajes en la muestra caen entre dos deviaciones estandares del medio
  • aproximadamente 99% de los puntajes en la muestra caen entre tres deviaciones estandares del medio

Por ejemplo, dado que el medio en nuestra muestra es 21 y la deviación estándar es 7.63, podemos de la conclusión anterior estimar que aproximadamente 95% de los puntajes caerán en el rango de 21 − (2×7.63) to 21 + (2×7.63) o entre 5.74 y 36.26. Valores más allá de dos deviaciones estandares del medio pueden ser considerados valores atípicos. 36 es el único valor así en la distribución. Los valores atípicos ayudan en identificar observaciones para más análisis o posibles problemas en las observaciones. Las deviaciones estándares también convierten medidas en escalas muy diferentes, tales como altura o peso, en valores comparables.

Ver también

Referencias

<references group=""></references>