Одномерный (статистика)

Одномерные — это термин, который обычно используется в статистике для описания типа данных, состоящих из наблюдений только по одной характеристике или атрибуту. Простым примером одномерных данных могут быть зарплаты рабочих в промышленности. ^[1] Как и все другие данные, одномерные данные можно визуализировать с помощью графиков, изображений или других инструментов анализа после того, как данные были измерены, собраны, представлены и проанализированы. ^[2]

Типы данных

Некоторые одномерные данные состоят из чисел (например, рост 65 дюймов или вес 100 фунтов), в то время как другие являются нечисловыми (например, цвет глаз карий или голубой). Обычно термины категориальные одномерные данные и числовые одномерные данные используются для различения этих типов.

Категориальные одномерные данные

Категориальные одномерные данные состоят из нечисловых наблюдений , которые могут быть помещены в категории. Они включают метки или имена, используемые для идентификации атрибута каждого элемента. Категориальные одномерные данные обычно используют либо номинальную , либо порядковую шкалу измерения . ^[3]

Числовые одномерные данные

Числовые одномерные данные состоят из наблюдений, которые являются числами. Они получены с использованием либо интервальной , либо относительной шкалы измерения. Этот тип одномерных данных можно еще больше классифицировать на две подкатегории: дискретные и непрерывные . ^[2] Числовые одномерные данные являются дискретными, если набор всех возможных значений конечен или счетно бесконечен . Дискретные одномерные данные обычно связаны с подсчетом (например, количество книг, прочитанных человеком). Числовые одномерные данные являются непрерывными, если набор всех возможных значений представляет собой интервал чисел. Непрерывные одномерные данные обычно связаны с измерением (например, вес людей).

Анализ данных и приложения

Одномерный анализ — это простейшая форма анализа данных. Uni означает «один», поэтому данные имеют только одну переменную ( одномерный ). ^[4] Одномерные данные требуют анализа каждой переменной отдельно. Данные собираются с целью ответа на вопрос или, более конкретно, на исследовательский вопрос. Одномерные данные не отвечают на исследовательские вопросы о связях между переменными, а скорее используются для описания одной характеристики или атрибута, который меняется от наблюдения к наблюдению. ^[5] Обычно исследователь может искать две цели. Первая — ответить на исследовательский вопрос с помощью описательного исследования, а вторая — получить знания о том, как атрибут меняется с индивидуальным эффектом переменной в регрессионном анализе . Существует несколько способов описания закономерностей, обнаруженных в одномерных данных, которые включают графические методы, меры центральной тенденции и меры изменчивости. ^[6]

Как и другие формы статистики, она может быть выводной или описательной . Ключевым фактом является то, что задействована только одна переменная.

Одномерный анализ может дать вводящие в заблуждение результаты в тех случаях, когда многомерный анализ более уместен.

Меры центральной тенденции

Центральная тенденция является одной из наиболее распространенных числовых описательных мер. Она используется для оценки центрального положения одномерных данных путем вычисления среднего значения , медианы и моды . ^[7] Каждое из этих вычислений имеет свои преимущества и ограничения. Среднее значение имеет то преимущество, что его вычисление включает каждое значение набора данных, но оно особенно восприимчиво к влиянию выбросов . Медиана является лучшей мерой, когда набор данных содержит выбросы. Моду легко найти.

Не ограничивается использованием только одной из этих мер центральной тенденции. Если анализируемые данные категориальны, то единственной мерой центральной тенденции, которую можно использовать, является мода. Однако, если данные имеют числовую природу ( порядковые или интервальные / относительные ), то для описания данных можно использовать моду, медиану или среднее значение. Использование более чем одной из этих мер обеспечивает более точное описательное резюме центральной тенденции для одномерной выборки. ^[8]

Меры изменчивости

Мера изменчивости или дисперсии (отклонение от среднего) одномерного набора данных может более полно раскрыть форму распределения одномерных данных. Она предоставит некоторую информацию о вариации между значениями данных. Меры изменчивости вместе с мерами центральной тенденции дают лучшую картину данных, чем меры центральной тенденции в одиночку. ^[9] Три наиболее часто используемые меры изменчивости — это размах , дисперсия и стандартное отклонение . ^[10] Уместность каждой меры будет зависеть от типа данных, формы распределения данных и того, какая мера центральной тенденции используется. Если данные категориальные, то нет меры изменчивости для отчета. Для числовых данных возможны все три меры. Если распределение данных симметрично, то мерами изменчивости обычно являются дисперсия и стандартное отклонение. Однако, если данные перекошены , то мерой изменчивости, которая будет подходящей для этого набора данных, является размах. ^[3]

Описательные методы

Описательная статистика описывает выборку или популяцию. Она может быть частью разведочного анализа данных . ^[11]

Соответствующая статистика зависит от уровня измерения . Для номинальных переменных достаточно таблицы частот и списка мод . Для порядковых переменных медиана может быть рассчитана как мера центральной тенденции , а размах (и его вариации) — как мера дисперсии. Для переменных интервального уровня в набор инструментов добавляются среднее арифметическое (среднее) и стандартное отклонение , а для переменных уровня отношения мы добавляем среднее геометрическое и среднее гармоническое в качестве мер центральной тенденции и коэффициент вариации в качестве меры дисперсии.

Для данных на уровне интервалов и отношений дополнительные дескрипторы включают асимметрию и эксцесс переменной .

Методы вывода

Методы вывода позволяют нам делать выводы из выборки о совокупности. ^[11] Для номинальной переменной односторонний тест хи-квадрат (доброты соответствия) может помочь определить, соответствует ли наша выборка выборке некоторой совокупности. ^[12] Для данных на уровне интервала и отношения одновыборочный t-тест может позволить нам сделать вывод о том, соответствует ли среднее значение в нашей выборке некоторому предложенному числу (обычно 0). Другие доступные тесты местоположения включают одновыборочный знаковый тест и знаковый ранговый тест Вилкоксона .

Графические методы

Наиболее часто используемые графические иллюстрации для одномерных данных:

Таблицы распределения частот

Частота — это то, сколько раз встречается число. Частота наблюдения в статистике говорит нам, сколько раз наблюдение встречается в данных. Например, в следующем списке чисел { 1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9 } частота числа 9 равна 5 (потому что оно встречается 5 раз в этом наборе данных).

Гистограммы

Столбчатая диаграмма — это график , состоящий из прямоугольных полос. Эти полосы на самом деле представляют количество или процент наблюдений существующих категорий в переменной. Длина или высота полос дает визуальное представление пропорциональных различий между категориями.

Гистограммы

Гистограммы используются для оценки распределения данных, при этом частота значений присваивается диапазону значений, называемому бином . [ ^13]

Круговые диаграммы

Круговая диаграмма представляет собой круг, разделенный на части, которые представляют относительные частоты или проценты популяции или выборки, принадлежащие к различным категориям.

Распределения

Одномерное распределение — это тип дисперсии одной случайной величины, описываемый либо функцией массы вероятности (pmf) для дискретного распределения вероятностей , либо функцией плотности вероятности (pdf) для непрерывного распределения вероятностей . ^[14] Его не следует путать с многомерным распределением .

Обычные дискретные распределения

Обычные непрерывные распределения

Смотрите также

Ссылки

^ Качиган, Сэм Кэш (1986). Статистический анализ: междисциплинарное введение в одномерные и многомерные методы . Нью-Йорк: Radius Press. ISBN 0-942154-99-1.
^ ab Lacke, Prem S. Mann; с помощью Christopher Jay (2010). Вводная статистика (7-е изд.). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ ab Андерсон, Дэвид Р.; Суини, Деннис Дж.; Уильямс, Томас А. Статистика для бизнеса и экономики (десятое изд.). Cengage Learning. стр. 1018. ISBN 978-0-324-80926-8.
^ "Одномерный анализ". stathow .
^ «Одномерные данные». study.com .
^ Трохим, Уильям. «Описательная статистика». Веб-центр методов социальных исследований . Получено 15 февраля 2017 г.
^ О'Рурк, Норм; Хэтчер, Ларри; Степански, Эдвард Дж. (2005). Пошаговый подход к использованию SAS для одномерной и многомерной статистики (2-е изд.). Нью-Йорк: Wiley-Interscience. ISBN 1-59047-417-1.
^ Лонгнекер, Р. Лайман Отт, Майкл (2009). Введение в статистические методы и анализ данных (6-е изд., международное изд.). Пасифик-Гроув, Калифорния: Brooks/Cole. ISBN 978-0-495-10914-3.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Мелоун, Милан; Милитки, Иржи (2011). Статистический анализ данных: практическое руководство . Нью-Дели: Woodhead Pub Ltd. ISBN 978-0-85709-109-3.
^ Первес, Дэвид Фридман; Роберт Пизани; Роджер (2007). Статистика (4-е изд.). Нью-Йорк [ua]: Нортон. ISBN 978-0-393-92972-0.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ ab Everitt, Brian (1998). Кембриджский словарь статистики . Кембридж, Великобритания, Нью-Йорк: Cambridge University Press. ISBN 0521593468.
^ «Односторонний хи-квадрат».
^ Диз, Дэвид М.; Барр, Кристофер Д.; Четинкая-Рундель, Шахта (2015). Статистика OpenIntro (3-е изд.). OpenIntro, Inc. 30. ISBN 978-1-9434-5003-9.
^ Саманиего, Франциско Дж. (2014). Стохастическое моделирование и математическая статистика: текст для статистиков и количественных ученых . Бока-Ратон: CRC Press. стр. 167. ISBN 978-1-4665-6046-8.