Набор данных (или набор данных ) — это набор данных . В случае табличных данных набор данных соответствует одной или нескольким таблицам базы данных , где каждый столбец таблицы представляет определенную переменную , а каждая строка соответствует данной записи рассматриваемого набора данных. В наборе данных перечислены значения каждой из переменных, таких как, например, высота и вес объекта, для каждого члена набора данных. Наборы данных также могут состоять из набора документов или файлов. [2]
В дисциплине открытых данных набор данных — это единица измерения информации, опубликованной в общедоступном хранилище открытых данных. Европейский портал data.europa.eu объединяет более миллиона наборов данных. [3]
Характеристики
Несколько характеристик определяют структуру и свойства набора данных. К ним относятся количество и типы атрибутов или переменных, а также различные применимые к ним статистические меры , такие как стандартное отклонение и эксцесс . [4]
Значения могут быть числами, такими как действительные числа или целые числа , например, представляющие рост человека в сантиметрах, но также могут быть номинальными данными (т.е. не состоящими из числовых значений), например, представляющими этническую принадлежность человека. В более общем смысле, значения могут относиться к любому из видов, описываемых как уровень измерения . Для каждой переменной значения обычно одинаковы. Могут существовать отсутствующие значения , которые необходимо как-то указать.
В статистике наборы данных обычно берутся из фактических наблюдений, полученных путем выборки статистической совокупности , и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут дополнительно генерироваться алгоритмами с целью тестирования определенных видов программного обеспечения . Некоторые современные программы статистического анализа, такие как SPSS, по-прежнему представляют свои данные в классическом виде наборов данных. Если данные отсутствуют или вызывают подозрения, для завершения набора данных можно использовать метод вменения . [5]
Классика
В статистической литературе широко использовались несколько классических наборов данных :
Набор данных о цветах ириса - многомерный набор данных, представленный Рональдом Фишером (1936). [1] Предоставлено онлайн из хранилища машинного обучения Калифорнийского университета в Ирвайне. [6]
Категориальный анализ данных — наборы данных, использованные в книге « Введение в категориальный анализ данных» , предоставленной онлайн компанией UCLA Advanced Research Computing. [7]
Временные ряды . Данные, использованные в книге Чатфилда « Анализ временных рядов» , предоставлены StatLib в режиме онлайн. [9]
Экстремальные значения . Данные, используемые в книге « Введение в статистическое моделирование экстремальных значений», представляют собой снимок данных, предоставленных в Интернете Стюартом Коулзом, автором книги.
Байесовский анализ данных . Данные, использованные в книге, предоставлены в режиме онлайн (ссылка на архив) Эндрю Гельманом , одним из авторов книги.
Данные о печени Bupa. Используются в нескольких статьях по машинному обучению (анализу данных).
Квартет Анскомба - небольшой набор данных, иллюстрирующий важность графического отображения данных во избежание статистических ошибок.
^ аб Фишер, РА (1963). «Использование множественных измерений в таксономических задачах» (PDF) . Анналы евгеники . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 . Архивировано из оригинала (PDF) 28 сентября 2011 г. Проверено 22 мая 2007 г.
^ Снейдерс, К.; Мацат, У.; Рейпс, У.-Д. (2012). «Большие данные: большие пробелы в знаниях в области Интернета». Международный журнал интернет-науки . 7 : 1–5. Архивировано из оригинала 23 ноября 2019 г. Проверено 10 февраля 2017 г.
^ "Европейский портал открытых данных" . Европейский портал открытых данных . Европейская комиссия . Проверено 23 сентября 2016 г.
^ Ян М. Житков, Ян Раух (2000). Принципы интеллектуального анализа данных и открытия знаний. Спрингер. ISBN978-3-540-66490-1.
^ Статистическая комиссия ООН; Европейская экономическая комиссия ООН (2007). Редактирование статистических данных: Влияние на качество данных: Том 3 Редактирования статистических данных, Конференция европейских статистиков Статистические стандарты и исследования. Публикации Организации Объединенных Наций. п. 20. ISBN978-9211169522. Проверено 19 июля 2015 г.[ постоянная мертвая ссылка ]
^ «Репозиторий машинного обучения UCI: набор данных радужной оболочки глаза» . Архивировано из оригинала 26 апреля 2023 г. Проверено 2 мая 2023 г.
^ «Примеры учебников. Введение в анализ категориальных данных Алана Агрести» . Архивировано из оригинала 31 января 2023 г. Проверено 2 мая 2023 г.
^ "Наборы данных ROUSSEEUW" . Архивировано из оригинала 7 февраля 2005 г.
^ «StatLib :: Данные, программное обеспечение и новости статистического сообщества» . Архивировано из оригинала 02 января 2011 г.
Внешние ссылки
Найдите набор данных в Викисловаре, бесплатном словаре.
Data.gov – открытые данные правительства США.
GCMD - Главный каталог глобальных изменений, содержащий более 34 000 описаний наборов данных и услуг по наукам о Земле и науке об окружающей среде.