Набор данных о цветке ириса

Набор данных о цветке ириса или набор данных об ирисе Фишера представляет собой многомерный набор данных, используемый и прославленный британским статистиком и биологом Рональдом Фишером в его статье 1936 года « Использование множественных измерений в таксономических задачах как пример линейного дискриминантного анализа ». ^[1] Его иногда называют набором данных ирисов Андерсона , потому что Эдгар Андерсон собрал данные для количественной оценки морфологических вариаций цветков ирисов трех родственных видов. ^[2] Два из трех видов были собраны на полуострове Гаспе «все с одного и того же пастбища, собраны в один и тот же день и измерены в одно и то же время одним и тем же человеком с помощью одного и того же прибора». ^[3]

Набор данных состоит из 50 образцов каждого из трех видов ириса ( Iris setosa , Iris Virginica и Iris versicolor ). У каждого образца измеряли четыре признака : длину и ширину чашелистиков и лепестков в сантиметрах. Основываясь на сочетании этих четырех особенностей, Фишер разработал линейную дискриминантную модель, позволяющую отличать виды друг от друга. Статья Фишера была опубликована в «Анналах евгеники» (сегодня « Анналы генетики человека »). ^[1]

Использование набора данных

Первоначально использовавшийся в качестве примера набора данных, к которому был применен линейный дискриминантный анализ Фишера , он стал типичным тестовым примером для многих методов статистической классификации в машинном обучении , таких как машины опорных векторов . ^[5]

Однако использование этого набора данных в кластерном анализе не является распространенным, поскольку набор данных содержит только два кластера с довольно очевидным разделением. Один из кластеров содержит Iris setosa , а другой кластер содержит как Iris Virginica , так и Iris versicolor , и его невозможно отделить без информации о видах, которую использовал Фишер. Это делает набор данных хорошим примером для объяснения разницы между контролируемыми и неконтролируемыми методами интеллектуального анализа данных : линейную дискриминантную модель Фишера можно получить только тогда, когда известны виды объектов: метки классов и кластеры не обязательно совпадают. ^[6]

Тем не менее, все три вида Iris разделимы в проекции на нелинейную и ветвящуюся главную компоненту. ^[7] Набор данных аппроксимируется ближайшим деревом с некоторым штрафом за чрезмерное количество узлов, изгиб и растяжение. Затем строится так называемая «карта метро». ^[4] Точки данных проецируются на ближайший узел. Для каждого узла составляется круговая диаграмма прогнозируемых точек. Площадь круга пропорциональна количеству прогнозируемых точек. Из диаграммы (слева) видно, что абсолютное большинство образцов разных видов ирисов принадлежит разным узлам. Лишь небольшая часть Iris-virginica смешана с Iris-versicolor (смешанные сине-зеленые узлы на диаграмме). Таким образом, три вида ириса ( Iris setosa , Iris Virginica и Iris versicolor ) можно разделить с помощью неконтролируемых процедур нелинейного анализа главных компонент . Чтобы их различить, достаточно просто выбрать соответствующие узлы на главном дереве.

Набор данных

Набор данных содержит набор из 150 записей по пяти атрибутам: длина чашелистика, ширина чашелистика, длина лепестка, ширина лепестка и вид.

Набор данных радужной оболочки глаза широко используется в качестве набора данных для начинающих в целях машинного обучения. Набор данных включен в базу R и Python в библиотеку машинного обучения scikit-learn , поэтому пользователи могут получить к нему доступ без необходимости искать для него источник.

Было опубликовано несколько версий набора данных. ^[8]

Код R , иллюстрирующий использование

Пример кода R, показанный ниже, воспроизводит диаграмму рассеяния, показанную в начале этой статьи:

# Показать набор данных iris # Показать страницу справки с информацией о наборе данных ? Ирис# Создайте диаграммы рассеяния для всех попарных комбинаций 4 переменных в парах наборов данных ( iris [ 1 : 4 ], main = "Iris Data (red=setosa,green=versicolor,blue=virginica)" , pch = 21 , bg = c ( "красный" , "зеленый3" , "синий" ) [ некласс ( радужная оболочка $ виды )])

Код Python, иллюстрирующий использование

из  sklearn.datasets  импортируйте  load_irisирис  =  load_iris () ирис

Этот код дает:

{ 'данные' :  массив ([[ 5.1 ,  3.5 ,  1.4 ,  0.2 ],  [ 4.9 ,  3.  ,  1.4 ,  0.2 ],  [ 4.7 ,  3.2 ,  1.3 ,  0.2 ],  [ 4.6 ,  3.1 ,  1.5 ,  0.2 ], . .. 'target' :  массив ([ 0 ,  0 ,  0 ,  ...  1 ,  1 ,  1 ,  ...  2 ,  2 ,  2 ,  ... 'target_names' :  массив ([ 'setosa' ,  'versicolor' ,  'virginica' ],  dtype = '<U10' ), ... }

Смотрите также

Внешние ссылки

«Данные Фишера об ирисе». (Содержит две задокументированные ошибки) . Репозиторий машинного обучения UCI: набор данных Iris.