Conjunt de dades de flors Iris

Diagrama de dispersió del conjunt de dades

El conjunt de dades de flors Iris, també conegut com a conjunt de dades de Fisher és un conjunt de dades multivariant introduït per Ronald Fisher en un article seu de 1936, The use of multiple measurements in taxonomic problems (L'ús de mesures múltiples en problemes taxonòmics) com un exemple d'anàlisi discriminant lineal.[1] També se l'ha conegut com a conjunt de dades d'Anderson perquè Edgar Anderson va col·leccionar les dades per quantificar la variació morfològica de les flors de tres espècies Iris relacionades.[2] Dos de les tres espècies es van recollir a la Península de Gaspé: «totes són de la mateixa pastura, i recol·lectades el mateix dia i mesurades al mateix temps per la mateixa persona amb el mateix aparell».[3]

El conjunt de dades conté 50 mostres de cadascuna de les tres espècies d'Iris (Iris setosa, Iris virginica i Iris versicolor). Es van mesurar quatre característiques de cada mostra: el llarg i l'ample del sèpal i del pètal, en centímetres. A partir de la combinació d'aquests quatre trets, Fisher va desenvolupar un model discriminant lineal per distingir entre una espècie de l'altra.

  1. R. A. Fisher «The use of multiple measurements in taxonomic problems». Annals of Eugenics, 7, 2, 1936, p. 179–188. Arxivat de l'original el 2011-04-12. DOI: 10.1111/j.1469-1809.1936.tb02137.x [Consulta: 22 octubre 2018].
  2. Edgar Anderson «The species problem in Iris». Annals of the Missouri Botanical Garden, 23, 3, 1936, p. 457–509.
  3. Edgar Anderson «The irises of the Gaspé Peninsula». Bulletin of the American Iris Society, 59, 1935, p. 2–5.