stringtranslate.com

Тип статистических данных

В статистике группы отдельных точек данных могут быть классифицированы как принадлежащие к любому из различных типов статистических данных , например, категориальные («красный», «синий», «зеленый»), вещественные числа (1,68, -5, 1,7e+6). , нечетное число (1,3,5) и т. д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды вероятностных распределений можно логически использовать для описания переменной, допустимые операции с переменной, тип регрессионного анализа, используемого для прогнозирования переменной и т. д. Концепция типа данных аналогична концепции уровня измерения , но более конкретна: например, данные подсчета требуют другого распределения (например, распределения Пуассона или биномиального распределения ). чем требуется для неотрицательных данных с действительным значением , но оба подпадают под один и тот же уровень измерения (шкалу отношений).

Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого порядка ранжирования значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточную разницу между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования, сохраняющие порядок. Интервальные измерения имеют определенные значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношений имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями и допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные , тогда как измерения отношений и интервалов группируются вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно слабо коррелировать с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в целочисленном типе данных и непрерывные переменные с реальным типом данных, включающим вычисления с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних осуществляется.

Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977) [1] различали степени, ранги, подсчитываемые дроби, подсчеты, суммы и остатки. Нелдер (1990) [2] описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. См. также Крисман (1998), [3] ван ден Берг (1991). [4]

Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным в результате различных процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношения между данными и тем, что они описывают, просто отражают тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. (Хэнд, 2004, стр. 82). [5]

Простые типы данных

В следующей таблице классифицированы различные простые типы данных, связанные распределения, допустимые операции и т. д. Независимо от логически возможных значений, все эти типы данных обычно кодируются с использованием действительных чисел , поскольку теория случайных величин часто явно предполагает, что они содержат действительные числа. цифры.

Многомерные типы данных

Данные, которые невозможно описать с помощью одного числа, часто объединяются в случайные векторы действительных случайных величин , хотя наблюдается растущая тенденция рассматривать их самостоятельно. Некоторые примеры:

Эти понятия возникают в различных научных областях и часто совпадают в использовании. В результате очень часто к одной и той же проблеме потенциально можно применить несколько концепций.

Рекомендации

  1. ^ Мостеллер, Ф .; Тьюки, JW (1977). Анализ данных и регрессия . Аддисон-Уэсли. ISBN 978-0-201-04854-4.
  2. ^ Нелдер, Дж. А. (1990). «Знания, необходимые для компьютеризации анализа и интерпретации статистической информации». Экспертные системы и искусственный интеллект: потребность в информации о данных . Лондон: Библиотечная ассоциация. ОСЛК  27042489.
  3. ^ Крисман, Николас Р. (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. дои : 10.1559/152304098782383043.
  4. ^ ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press. ISBN 978-90-6695-062-7.
  5. ^ Хэнд, диджей (2004). Теория и практика измерения: Мир через количественную оценку . Уайли. п. 82. ИСБН 978-0-470-68567-9.