Conjunto de datos
De iMMAP-Colombia Wiki
Un conjunto de datos (dataset en inglés) es un conjunto de datos usualmente presentado en forma tabular. Cada columna representa un variable en particular. Cada fila corresponde a un miembro dado del conjunto de datos en cuestión. Alista valores para cada variable, tal como la altura o el peso de un objeto. Cada valor se conoce como un dato. Cada conjunto de datos puede incluir datos para uno o más miembros, correspondiendo al numero de filas.
Datos no tabulares pueden tomar la forma de un lenguaje de marcado con filas de caracteres, tal como un archivo XML o HXL.
Sumario
Historia
Históricamente, el termino originó con los computadores centrales, en donde un conjunto de datos, muy cercanos a los archivos de computadores.
Propiedades
Un conjunto de datos tiene varias caracteristicas que definen su estructura y propiedades. Estos incluyen el numero y tipos de atributos o variables y las medidas estadísticas que los puede aplicar tales como deviación estándar y curtosis.<ref>Plantilla:Cite book</ref>
En el caso más sencillo, existe tan solo un variable, y luego el conjunto de datos consiste de una columna singular de variables, frecuentemente representado como una lista. A pesar de su nombre, un cojunto de datos univariado no es un conjunto matemático en el sentido matemático común, dado que un valor dado puede repetir multiples veces. Normalmente la orden no es importante, y luego la colección de los valores puede ser considerado como un multiconjunto en lugar de una lista ordenada.
Los valores pueden ser numeros, tales como numeros reales o numeros enteros, por ejemplo representando la altura de una persona en centimetros, pero también puede ser datos nominales (i.e., no consistiendo de valores numericos), por ejemplo representando el grupo étnico de una persona. Mas generalmente, los valores pueden ser de todos los tipos descritos como una medición. Para cada variables, los valores normalmente serán todos del mismo tipo. Sin embargo, pueden existir "valores perdidos", que deben ser indicados de alguna manera.
En la estadística, los conjuntos de datos usualmente provienen de observaciones actuales obtenidos a través de mostreo, una población estadística, y cada fila corresponde a observaciones sobre un elemento de esta población. Conjuntos de datos pueden ser generados a través de algoritmos para el fin de comprobar ciertos tipos de software. Algunos software estadístico moderno tales como SPSS presentará sus conjuntos de datos de una manera clásica.
Conjuntos de datos clásicos
Algunos conjuntos de datos clásicos han sido utilizados extensivamente en la literatura de la estadística:
- Conjunto de datos del flor de iris - un conjunto de datos multivariado introducido por Ronald Fischer.<ref name="fisher36">Plantilla:Cite journal</ref>
- Conjunto de datos de análisis categórico - conjunto de datos utilizado en el libro, An Introduction to Categorical Data Analysis, por Agresti en StatLib.
- Estadisticas robustas - conjuntos de datos utilizados en Robust Regression and Outlier Detection (Peter Rousseeuw y Leroy, 1986). de University of Cologne.
- Serie de tiempos - utilizados en el libro de Chatfields, The Analysis of Time Series, de StatLib.