Одномерные — это термин, который обычно используется в статистике для описания типа данных, состоящих из наблюдений только по одной характеристике или атрибуту. Простым примером одномерных данных могут быть зарплаты рабочих в промышленности. [1] Как и все другие данные, одномерные данные можно визуализировать с помощью графиков, изображений или других инструментов анализа после того, как данные были измерены, собраны, представлены и проанализированы. [2]
Некоторые одномерные данные состоят из чисел (например, рост 65 дюймов или вес 100 фунтов), в то время как другие являются нечисловыми (например, цвет глаз карий или голубой). Обычно термины категориальные одномерные данные и числовые одномерные данные используются для различения этих типов.
Категориальные одномерные данные состоят из нечисловых наблюдений , которые могут быть помещены в категории. Они включают метки или имена, используемые для идентификации атрибута каждого элемента. Категориальные одномерные данные обычно используют либо номинальную , либо порядковую шкалу измерения . [3]
Числовые одномерные данные состоят из наблюдений, которые являются числами. Они получены с использованием либо интервальной , либо относительной шкалы измерения. Этот тип одномерных данных можно еще больше классифицировать на две подкатегории: дискретные и непрерывные . [2] Числовые одномерные данные являются дискретными, если набор всех возможных значений конечен или счетно бесконечен . Дискретные одномерные данные обычно связаны с подсчетом (например, количество книг, прочитанных человеком). Числовые одномерные данные являются непрерывными, если набор всех возможных значений представляет собой интервал чисел. Непрерывные одномерные данные обычно связаны с измерением (например, вес людей).
Одномерный анализ — это простейшая форма анализа данных. Uni означает «один», поэтому данные имеют только одну переменную ( одномерный ). [4] Одномерные данные требуют анализа каждой переменной отдельно. Данные собираются с целью ответа на вопрос или, более конкретно, на исследовательский вопрос. Одномерные данные не отвечают на исследовательские вопросы о связях между переменными, а скорее используются для описания одной характеристики или атрибута, который меняется от наблюдения к наблюдению. [5] Обычно исследователь может искать две цели. Первая — ответить на исследовательский вопрос с помощью описательного исследования, а вторая — получить знания о том, как атрибут меняется с индивидуальным эффектом переменной в регрессионном анализе . Существует несколько способов описания закономерностей, обнаруженных в одномерных данных, которые включают графические методы, меры центральной тенденции и меры изменчивости. [6]
Как и другие формы статистики, она может быть выводной или описательной . Ключевым фактом является то, что задействована только одна переменная.
Одномерный анализ может дать вводящие в заблуждение результаты в тех случаях, когда многомерный анализ более уместен.
Центральная тенденция является одной из наиболее распространенных числовых описательных мер. Она используется для оценки центрального положения одномерных данных путем вычисления среднего значения , медианы и моды . [7] Каждое из этих вычислений имеет свои преимущества и ограничения. Среднее значение имеет то преимущество, что его вычисление включает каждое значение набора данных, но оно особенно восприимчиво к влиянию выбросов . Медиана является лучшей мерой, когда набор данных содержит выбросы. Моду легко найти.
Не ограничивается использованием только одной из этих мер центральной тенденции. Если анализируемые данные категориальны, то единственной мерой центральной тенденции, которую можно использовать, является мода. Однако, если данные имеют числовую природу ( порядковые или интервальные / относительные ), то для описания данных можно использовать моду, медиану или среднее значение. Использование более чем одной из этих мер обеспечивает более точное описательное резюме центральной тенденции для одномерной выборки. [8]
Мера изменчивости или дисперсии (отклонение от среднего) одномерного набора данных может более полно раскрыть форму распределения одномерных данных. Она предоставит некоторую информацию о вариации между значениями данных. Меры изменчивости вместе с мерами центральной тенденции дают лучшую картину данных, чем меры центральной тенденции в одиночку. [9] Три наиболее часто используемые меры изменчивости — это размах , дисперсия и стандартное отклонение . [10] Уместность каждой меры будет зависеть от типа данных, формы распределения данных и того, какая мера центральной тенденции используется. Если данные категориальные, то нет меры изменчивости для отчета. Для числовых данных возможны все три меры. Если распределение данных симметрично, то мерами изменчивости обычно являются дисперсия и стандартное отклонение. Однако, если данные перекошены , то мерой изменчивости, которая будет подходящей для этого набора данных, является размах. [3]
Описательная статистика описывает выборку или популяцию. Она может быть частью разведочного анализа данных . [11]
Соответствующая статистика зависит от уровня измерения . Для номинальных переменных достаточно таблицы частот и списка мод . Для порядковых переменных медиана может быть рассчитана как мера центральной тенденции , а размах (и его вариации) — как мера дисперсии. Для переменных интервального уровня в набор инструментов добавляются среднее арифметическое (среднее) и стандартное отклонение , а для переменных уровня отношения мы добавляем среднее геометрическое и среднее гармоническое в качестве мер центральной тенденции и коэффициент вариации в качестве меры дисперсии.
Для данных на уровне интервалов и отношений дополнительные дескрипторы включают асимметрию и эксцесс переменной .
Методы вывода позволяют нам делать выводы из выборки о совокупности. [11] Для номинальной переменной односторонний тест хи-квадрат (доброты соответствия) может помочь определить, соответствует ли наша выборка выборке некоторой совокупности. [12] Для данных на уровне интервала и отношения одновыборочный t-тест может позволить нам сделать вывод о том, соответствует ли среднее значение в нашей выборке некоторому предложенному числу (обычно 0). Другие доступные тесты местоположения включают одновыборочный знаковый тест и знаковый ранговый тест Вилкоксона .
Наиболее часто используемые графические иллюстрации для одномерных данных:
Частота — это то, сколько раз встречается число. Частота наблюдения в статистике говорит нам, сколько раз наблюдение встречается в данных. Например, в следующем списке чисел { 1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9 } частота числа 9 равна 5 (потому что оно встречается 5 раз в этом наборе данных).
Столбчатая диаграмма — это график , состоящий из прямоугольных полос. Эти полосы на самом деле представляют количество или процент наблюдений существующих категорий в переменной. Длина или высота полос дает визуальное представление пропорциональных различий между категориями.
Гистограммы используются для оценки распределения данных, при этом частота значений присваивается диапазону значений, называемому бином . [ 13]
Круговая диаграмма представляет собой круг, разделенный на части, которые представляют относительные частоты или проценты популяции или выборки, принадлежащие к различным категориям.
Одномерное распределение — это тип дисперсии одной случайной величины, описываемый либо функцией массы вероятности (pmf) для дискретного распределения вероятностей , либо функцией плотности вероятности (pdf) для непрерывного распределения вероятностей . [14] Его не следует путать с многомерным распределением .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )