stringtranslate.com

Набор данных

Различные графики многомерного набора данных. Набор данных о цветах ириса , представленный Рональдом Фишером (1936). [1]

Набор данных (или набор данных ) — это набор данных . В случае табличных данных набор данных соответствует одной или нескольким таблицам базы данных , где каждый столбец таблицы представляет определенную переменную , а каждая строка соответствует данной записи рассматриваемого набора данных. В наборе данных перечислены значения каждой из переменных, таких как, например, высота и вес объекта, для каждого члена набора данных. Наборы данных также могут состоять из набора документов или файлов. [2]

В дисциплине открытых данных набор данных — это единица измерения информации, опубликованной в общедоступном хранилище открытых данных. Европейский портал data.europa.eu объединяет более миллиона наборов данных. [3]

Характеристики

Несколько характеристик определяют структуру и свойства набора данных. К ним относятся количество и типы атрибутов или переменных, а также различные применимые к ним статистические меры , такие как стандартное отклонение и эксцесс . [4]

Значения могут быть числами, такими как действительные числа или целые числа , например, представляющие рост человека в сантиметрах, но также могут быть номинальными данными (т.е. не состоящими из числовых значений), например, представляющими этническую принадлежность человека. В более общем смысле, значения могут относиться к любому из видов, описываемых как уровень измерения . Для каждой переменной значения обычно одинаковы. Могут существовать отсутствующие значения , которые необходимо как-то указать.

В статистике наборы данных обычно берутся из фактических наблюдений, полученных путем выборки статистической совокупности , и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут дополнительно генерироваться алгоритмами с целью тестирования определенных видов программного обеспечения . Некоторые современные программы статистического анализа, такие как SPSS, по-прежнему представляют свои данные в классическом виде наборов данных. Если данные отсутствуют или вызывают подозрения, для завершения набора данных можно использовать метод вменения . [5]

Классика

В статистической литературе широко использовались несколько классических наборов данных :

Смотрите также

Рекомендации

  1. ^ аб Фишер, РА (1963). «Использование множественных измерений в таксономических задачах» (PDF) . Анналы евгеники . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 . Архивировано из оригинала (PDF) 28 сентября 2011 г. Проверено 22 мая 2007 г.
  2. ^ Снейдерс, К.; Мацат, У.; Рейпс, У.-Д. (2012). «Большие данные: большие пробелы в знаниях в области Интернета». Международный журнал интернет-науки . 7 : 1–5. Архивировано из оригинала 23 ноября 2019 г. Проверено 10 февраля 2017 г.
  3. ^ "Европейский портал открытых данных" . Европейский портал открытых данных . Европейская комиссия . Проверено 23 сентября 2016 г.
  4. ^ Ян М. Житков, Ян Раух (2000). Принципы интеллектуального анализа данных и открытия знаний. Спрингер. ISBN 978-3-540-66490-1.
  5. ^ Статистическая комиссия ООН; Европейская экономическая комиссия ООН (2007). Редактирование статистических данных: Влияние на качество данных: Том 3 Редактирования статистических данных, Конференция европейских статистиков Статистические стандарты и исследования. Публикации Организации Объединенных Наций. п. 20. ISBN 978-9211169522. Проверено 19 июля 2015 г.[ постоянная мертвая ссылка ]
  6. ^ «Репозиторий машинного обучения UCI: набор данных радужной оболочки глаза» . Архивировано из оригинала 26 апреля 2023 г. Проверено 2 мая 2023 г.
  7. ^ «Примеры учебников. Введение в анализ категориальных данных Алана Агрести» . Архивировано из оригинала 31 января 2023 г. Проверено 2 мая 2023 г.
  8. ^ "Наборы данных ROUSSEEUW" . Архивировано из оригинала 7 февраля 2005 г.
  9. ^ «StatLib :: Данные, программное обеспечение и новости статистического сообщества» . Архивировано из оригинала 02 января 2011 г.

Внешние ссылки