Conjunt de dades

Diversos gràfics del conjunt de dades multivariant del conjunt de dades de flors d' iris introduït per Ronald Fisher (1936).[1]

Un conjunt de dades és una col·lecció de dades. En el cas de les dades tabulars, un conjunt de dades correspon a una o més taules de base de dades, on cada columna d'una taula representa una variable determinada i cada fila correspon a un registre determinat del conjunt de dades en qüestió. El conjunt de dades enumera els valors de cadascuna de les variables, com per exemple l'alçada i el pes d'un objecte, per a cada membre del conjunt de dades. Els conjunts de dades també poden consistir en una col·lecció de documents o fitxers.[2]

En la disciplina de dades obertes, el conjunt de dades és la unitat per mesurar la informació alliberada en un dipòsit públic de dades obertes. El portal europeu data.europa.eu agrupa més d'un milió de conjunts de dades.[3] Alguns altres problemes (fonts de dades en temps real,[4] conjunts de dades no relacionals, etc.) augmenten la dificultat per arribar a un consens al respecte.[4]

Diverses característiques defineixen l'estructura i les propietats d'un conjunt de dades. Aquests inclouen el nombre i els tipus d'atributs o variables, i diverses mesures estadístiques aplicables als mateixos, com ara la desviació estàndard i la curtosi.Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery, 2000. ISBN 978-3-540-66490-1.  Principis de mineria de dades i descobriment de coneixement . ISBN 978-3-540-66490-1.[5]

En les estadístiques, els conjunts de dades solen provenir d'observacions reals obtingudes mitjançant el mostreig d'una població estadística, i cada fila correspon a les observacions sobre un element d'aquesta població. Els conjunts de dades també es poden generar mitjançant algorismes amb el propòsit de provar certs tipus de programari. Alguns programes moderns d'anàlisi estadística com SPSS encara presenten les seves dades de la manera clàssica de conjunt de dades. Si les dades falten o són sospitoses, es pot utilitzar un mètode d'imputació per completar un conjunt de dades.[6]

Diversos conjunts de dades clàssics s'han utilitzat àmpliament a la literatura estadística:

  1. Fisher, R.A. Annals of Eugenics, 7, 2, 1963, pàg. 179–188. DOI: 10.1111/j.1469-1809.1936.tb02137.x [Consulta: 22 maig 2007].
  2. Snijders, C.; Matzat, U.; Reips, U.-D. «Còpia arxivada». International Journal of Internet Science, 7, 2012, pàg. 1–5. Arxivat de l'original el 2019-11-23 [Consulta: 29 gener 2023].
  3. «European open data portal». European open data portal. European Commission. [Consulta: 23 setembre 2016].
  4. 4,0 4,1 Atz, U «Còpia arxivada». CEDEM 2014 Proceedings, 2014. Arxivat de l'original el 2016-10-17 [Consulta: 1r agost 2016].
  5. «Supplemental Information 3: Scatterplot with density for all factors decomposed by using SC-JNMF (Xin dataset)» (en anglès). http://dx.doi.org.+[Consulta: 29 gener 2023].
  6. United Nations Statistical Commission. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies (en anglès). United Nations Publications, 2007, p. 20. ISBN 978-9211169522. 
  7. Fisher, R.A. «Còpia arxivada». Annals of Eugenics, 7, 2, 1963, pàg. 179–188. Arxivat de l'original el 2011-04-12. DOI: 10.1111/j.1469-1809.1936.tb02137.x [Consulta: 22 maig 2007].