stringtranslate.com

Набор данных о цветке ириса

Диаграмма рассеяния набора данных

Набор данных о цветке ириса или набор данных об ирисе Фишера представляет собой многомерный набор данных, используемый и прославленный британским статистиком и биологом Рональдом Фишером в его статье 1936 года « Использование множественных измерений в таксономических задачах как пример линейного дискриминантного анализа ». [1] Его иногда называют набором данных ирисов Андерсона , потому что Эдгар Андерсон собрал данные для количественной оценки морфологических вариаций цветков ирисов трех родственных видов. [2] Два из трех видов были собраны на полуострове Гаспе «все с одного и того же пастбища, собраны в один и тот же день и измерены в одно и то же время одним и тем же человеком с помощью одного и того же прибора». [3]

Набор данных состоит из 50 образцов каждого из трех видов ириса ( Iris setosa , Iris Virginica и Iris versicolor ). У каждого образца измеряли четыре признака : длину и ширину чашелистиков и лепестков в сантиметрах. Основываясь на сочетании этих четырех особенностей, Фишер разработал линейную дискриминантную модель, позволяющую отличать виды друг от друга. Статья Фишера была опубликована в «Анналах евгеники» (сегодня « Анналы генетики человека »). [1]

Использование набора данных

Неудовлетворительная кластеризация k-средних (данные не могут быть сгруппированы в известные классы) и фактические виды, визуализированные с помощью ELKI .
Пример так называемой «карты метро» для набора данных Iris [4] Лишь небольшая часть Iris-virginica смешана с Iris-versicolor . Все остальные образцы разных видов ирисов принадлежат разным узлам.

Первоначально использовавшийся в качестве примера набора данных, к которому был применен линейный дискриминантный анализ Фишера , он стал типичным тестовым примером для многих методов статистической классификации в машинном обучении , таких как машины опорных векторов . [5]

Однако использование этого набора данных в кластерном анализе не является распространенным, поскольку набор данных содержит только два кластера с довольно очевидным разделением. Один из кластеров содержит Iris setosa , а другой кластер содержит как Iris Virginica , так и Iris versicolor , и его невозможно отделить без информации о видах, которую использовал Фишер. Это делает набор данных хорошим примером для объяснения разницы между контролируемыми и неконтролируемыми методами интеллектуального анализа данных : линейную дискриминантную модель Фишера можно получить только тогда, когда известны виды объектов: метки классов и кластеры не обязательно совпадают. [6]

Тем не менее, все три вида Iris разделимы в проекции на нелинейную и ветвящуюся главную компоненту. [7] Набор данных аппроксимируется ближайшим деревом с некоторым штрафом за чрезмерное количество узлов, изгиб и растяжение. Затем строится так называемая «карта метро». [4] Точки данных проецируются на ближайший узел. Для каждого узла составляется круговая диаграмма прогнозируемых точек. Площадь круга пропорциональна количеству прогнозируемых точек. Из диаграммы (слева) видно, что абсолютное большинство образцов разных видов ирисов принадлежит разным узлам. Лишь небольшая часть Iris-virginica смешана с Iris-versicolor (смешанные сине-зеленые узлы на диаграмме). Таким образом, три вида ириса ( Iris setosa , Iris Virginica и Iris versicolor ) можно разделить с помощью неконтролируемых процедур нелинейного анализа главных компонент . Чтобы их различить, достаточно просто выбрать соответствующие узлы на главном дереве.

Набор данных

Ирис сетоза

Набор данных содержит набор из 150 записей по пяти атрибутам: длина чашелистика, ширина чашелистика, длина лепестка, ширина лепестка и вид.

Ирис разноцветный
Ирис виргинский
Биплан спектральной карты набора данных радужной оболочки Фишера

Набор данных радужной оболочки глаза широко используется в качестве набора данных для начинающих в целях машинного обучения. Набор данных включен в базу R и Python в библиотеку машинного обучения scikit-learn , поэтому пользователи могут получить к нему доступ без необходимости искать для него источник.

Было опубликовано несколько версий набора данных. [8]

Код R , иллюстрирующий использование

Пример кода R, показанный ниже, воспроизводит диаграмму рассеяния, показанную в начале этой статьи:

# Показать набор данных iris # Показать страницу справки с информацией о наборе данных ? Ирис# Создайте диаграммы рассеяния для всех попарных комбинаций 4 переменных в парах наборов данных ( iris [ 1 : 4 ], main = "Iris Data (red=setosa,green=versicolor,blue=virginica)" , pch = 21 , bg = c ( "красный" , "зеленый3" , "синий" ) [ некласс ( радужная оболочка $ виды )])   

Код Python, иллюстрирующий использование

из  sklearn.datasets  импортируйте  load_irisирис  =  load_iris () ирис

Этот код дает:

{ 'данные' :  массив ([[ 5.1 ,  3.5 ,  1.4 ,  0.2 ],  [ 4.9 ,  3.  ,  1.4 ,  0.2 ],  [ 4.7 ,  3.2 ,  1.3 ,  0.2 ],  [ 4.6 ,  3.1 ,  1.5 ,  0.2 ], . .. 'target' :  массив ([ 0 ,  0 ,  0 ,  ...  1 ,  1 ,  1 ,  ...  2 ,  2 ,  2 ,  ... 'target_names' :  массив ([ 'setosa' ,  'versicolor' ,  'virginica' ],  dtype = '<U10' ), ... }

Смотрите также

Рекомендации

  1. ^ AB Р. А. Фишер (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
  2. ^ Эдгар Андерсон (1936). «Проблема видов в Iris». Анналы ботанического сада Миссури . 23 (3): 457–509. дои : 10.2307/2394164. JSTOR  2394164.
  3. ^ Эдгар Андерсон (1935). «Ирисы полуострова Гаспе». Бюллетень Американского общества ирисов . 59 : 2–5.
  4. ^ аб А. Н. Горбань , А. Зиновьев. Основные многообразия и графы на практике: от молекулярной биологии к динамическим системам, Международный журнал нейронных систем, Vol. 20, № 3 (2010) 219–232.
  5. ^ «Репозиторий машинного обучения UCI: набор данных радужной оболочки глаза» . archive.ics.uci.edu . Проверено 1 декабря 2017 г.
  6. ^ Инес Фарбер; Стефан Гюннеманн; Ханс-Петер Кригель ; Пер Крёгер; Эммануэль Мюллер; Эрих Шуберт; Томас Зайдль; Артур Зимек (2010). «Об использовании меток классов при оценке кластеризации» (PDF) . В Сяоли З. Ферн; Ян Дэвидсон; Дженнифер Дай (ред.). MultiClust: обнаружение, обобщение и использование нескольких кластеров . АСМ СИГКДД .
  7. ^ А. Н. Горбань, Н. Р. Самнер и А. Я. Зиновьев, Топологические грамматики для аппроксимации данных, Письма по прикладной математике, том 20, выпуск 4 (2007), 382-386.
  8. ^ Бездек, JC; Келлер, Дж. М.; Кришнапурам, Р.; Кунчева Л.И. ; Пал, НР (1999). «Поддержите ли вы настоящие данные по радужной оболочке?». Транзакции IEEE в нечетких системах . 7 (3): 368–369. дои : 10.1109/91.771092.

Внешние ссылки