stringtranslate.com

Режим (статистика)

В статистике режим это значение, которое чаще всего появляется в наборе значений данных. [1] Если X — дискретная случайная величина, режим — это значение x , при котором функция массы вероятности принимает максимальное значение (т. е. x =argmax x i P( X = x i ) ). Другими словами, это значение, которое, скорее всего, будет выбрано.

Подобно статистическому среднему и медиане , мода — это способ выражения (обычно) одного числа важной информации о случайной величине или совокупности . Числовое значение моды такое же, как у среднего и медианы в нормальном распределении , и оно может сильно отличаться в сильно асимметричных распределениях .

Режим не обязательно уникален для данного дискретного распределения , поскольку функция массы вероятности может принимать одно и то же максимальное значение в нескольких точках x 1 , x 2 и т. д. Самый крайний случай возникает в равномерных распределениях , где все значения встречаются одинаково часто.

Модой непрерывного распределения вероятностей часто считают любое значение x , при котором его функция плотности вероятности имеет локально максимальное значение. [2] Когда функция плотности вероятности непрерывного распределения имеет несколько локальных максимумов, все локальные максимумы принято называть модами распределения, поэтому любой пик является модой. Такое непрерывное распределение называется мультимодальным (в отличие от унимодального ).

В симметричных унимодальных распределениях, таких как нормальное распределение , среднее значение (если оно определено), медиана и мода совпадают. Для выборок, если известно, что они взяты из симметричного унимодального распределения, выборочное среднее можно использовать в качестве оценки моды совокупности.

Режим выборки

Режим выборки — это элемент, который чаще всего встречается в коллекции. Например, режим выборки [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] равен 6. Учитывая список данных [1, 1, 2, 4, 4] его режим не уникален. Набор данных в таком случае называется бимодальным , а набор с более чем двумя режимами можно назвать мультимодальным .

Для выборки из непрерывного распределения, такой как [0,935..., 1,211..., 2,430..., 3,668..., 3,874...], эта концепция непригодна в исходном виде, поскольку не существует двух значений. будет точно таким же, поэтому каждое значение будет встречаться ровно один раз. Чтобы оценить режим основного распределения, обычной практикой является дискретизация данных путем присвоения значений частоты интервалам равного расстояния, как при построении гистограммы , эффективно заменяя значения средними точками интервалов, которым они присвоены. В этом случае мода — это значение, при котором гистограмма достигает своего пика. Для выборок небольшого или среднего размера результат этой процедуры зависит от выбора ширины интервала, если он выбран слишком узким или слишком широким; обычно значительная часть данных должна быть сосредоточена в относительно небольшом количестве интервалов (от 5 до 10), в то время как доля данных, выходящих за пределы этих интервалов, также значительна. Альтернативным подходом является оценка плотности ядра , которая по существу размывает точечные выборки для получения непрерывной оценки функции плотности вероятности, которая может дать оценку режима.

Следующий пример кода MATLAB (или Octave ) вычисляет режим выборки:

X = сортировка ( x ); % x — индексы набора данных вектора-столбца = find ( diff ([ X ; realmax ]) > 0 ); % индексов, в которых изменяются повторяющиеся значения [ modeL , i ] = max ( diff ([ 0 ; indexes ])); % наибольшая длина сохраняемости повторяющихся значений mode = X ( индексы ( i ));                

Алгоритм требует в качестве первого шага отсортировать выборку в порядке возрастания. Затем он вычисляет дискретную производную отсортированного списка и находит индексы, в которых эта производная положительна. Затем он вычисляет дискретную производную этого набора индексов, определяя максимум этой производной индексов, и, наконец, оценивает отсортированную выборку в точке, где возникает этот максимум, что соответствует последнему члену участка повторяющихся значений.

Сравнение среднего, медианы и моды

Геометрическая визуализация моды, медианы и среднего значения произвольной функции плотности вероятности. [3]

Использовать

В отличие от среднего значения и медианы, концепция моды также имеет смысл для « номинальных данных » (т. е. не состоящих из числовых значений в случае среднего значения или даже из упорядоченных значений в случае медианы). Например, взяв образец корейских фамилий , можно обнаружить, что « Ким » встречается чаще, чем любое другое имя. Тогда «Ким» будет модой образца. В любой системе голосования, где победа определяется большинством, победителя определяет одно модальное значение, в то время как мультимодальный результат потребует проведения некоторой процедуры разрешения ничьей.

В отличие от медианы , концепция моды имеет смысл для любой случайной величины, принимающей значения из векторного пространства , включая действительные числа (одномерное векторное пространство) и целые числа (которые можно считать внедренными в действительные числа). Например, распределение точек на плоскости обычно имеет среднее значение и моду, но понятие медианы не применяется. Медиана имеет смысл, когда существует линейный порядок возможных значений. Обобщением концепции медианы на пространства более высокой размерности являются геометрическая медиана и центральная точка .

Уникальность и определенность

Для некоторых распределений вероятностей ожидаемое значение может быть бесконечным или неопределенным, но если оно определено, оно уникально. Среднее значение (конечной) выборки всегда определяется. Медианой называется такая величина, при которой доли, не превышающие ее и не опускающиеся ниже нее, составляют каждая не менее 1/2. Оно не обязательно уникально, но никогда не является бесконечным или полностью неопределенным. Для выборки данных это «половинное» значение, когда список значений упорядочивается по возрастанию, где обычно для списка четной длины берется среднее числовое значение двух значений, ближайших к «половине». Наконец, как было сказано ранее, режим не обязательно уникален. Некоторые патологические распределения (например, распределение Кантора ) вообще не имеют определенного режима. [ нужна ссылка ] [4] Для конечной выборки данных модой является одно (или несколько) значений в выборке.

Характеристики

Предполагая определенность и простоту уникальности, ниже приведены некоторые из наиболее интересных свойств.

Пример асимметричного распределения

Примером асимметричного распределения является личное богатство : немногие люди очень богаты, но среди них есть чрезвычайно богатые. Однако многие из них довольно бедны.

Сравнение среднего значения , медианы и моды двух логнормальных распределений с различной асимметрией .

Хорошо известный класс распределений, которые могут быть произвольно искажены, представляет собой логнормальное распределение . Его получают преобразованием случайной величины X , имеющей нормальное распределение, в случайную величину Y = e X . Тогда логарифм случайной величины Y имеет нормальное распределение, отсюда и название.

Приняв среднее значение µ X за 0, медиана Y будет равна 1, независимо от стандартного отклонения σ X . Это так, потому что X имеет симметричное распределение, поэтому его медиана также равна 0. Преобразование от X к Y является монотонным, и поэтому мы находим медиану e 0 = 1 для Y .

Когда X имеет стандартное отклонение σ = 0,25, распределение Y слабо искажено. Используя формулы логнормального распределения , находим:

Действительно, медиана составляет около одной трети на пути от среднего к моде.

Когда X имеет большее стандартное отклонение, σ = 1 , распределение Y сильно искажается. Сейчас

Здесь эмпирическое правило Пирсона не работает.

Состояние Ван Цвета

Ван Цвет вывел неравенство, которое обеспечивает достаточные условия для выполнения этого неравенства. [8] Неравенство

Режим ≤ Медиана ≤ Среднее

имеет место, если

F( Медиана - x ) + F ( Медиана + x ) ≥ 1

для всех x , где F() — кумулятивная функция распределения распределения.

Унимодальные распределения

Для унимодального распределения можно показать, что медиана и среднее значение лежат в пределах (3/5) 1/2 ≈ 0,7746 стандартных отклонений друг от друга. [9] В символах

где абсолютное значение.

Аналогичное соотношение сохраняется между медианой и модой: они лежат в пределах 3 1/2 ≈ 1,732 стандартных отклонений друг от друга:

История

Термин «режим» был предложен Карлом Пирсоном в 1895 году. [10]

Пирсон использует термин « режим» взаимозаменяемо с термином «максимальная ордината» . В сноске он говорит: «Мне показалось удобным использовать термин « мода» для абсциссы, соответствующей ординате максимальной частоты».

Смотрите также

Рекомендации

  1. ^ Дамодар Н. Гуджарати . Основы эконометрики . МакГроу-Хилл Ирвин. 3-е издание, 2006: с. 110.
  2. ^ Чжан, К; Мэйпс, Бельгия; Соден, Би Джей (2003). «Бимодальность тропического водяного пара». QJR Метеорол. Соц . 129 (594): 2847–2866. Бибкод : 2003QJRMS.129.2847Z. дои : 10.1256/qj.02.166. S2CID  17153773.
  3. ^ «Обзор статистики AP - кривые плотности и нормальное распределение» . Архивировано из оригинала 2 апреля 2015 года . Проверено 16 марта 2015 г.
  4. ^ Моррисон, Кент (23 июля 1998 г.). «Случайные блуждания с уменьшающимися шагами» (PDF) . Кафедра математики Калифорнийского политехнического государственного университета . Архивировано из оригинала (PDF) 2 декабря 2015 г. Проверено 16 февраля 2007 г.
  5. ^ «Взаимосвязь между средним значением, медианой, модой и стандартным отклонением в унимодальном распределении».
  6. ^ Хиппель, Пол Т. фон (2005). «Среднее, медиана и перекос: исправление правила из учебника». Журнал статистического образования . 13 (2). дои : 10.1080/10691898.2005.11910556 .
  7. ^ Боттомли, Х. (2004). «Максимальное расстояние между модой и средним значением унимодального распределения» (PDF) . Неопубликованный препринт .
  8. ^ ван Цвет, WR (1979). «Среднее, медиана, режим II». Статистика Неерландики . 33 (1): 1–5. doi :10.1111/j.1467-9574.1979.tb00657.x.
  9. ^ Басу, Санджиб; Дасгупта, Анирбан (1997). «Среднее, медиана и режим унимодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. дои : 10.1137/S0040585X97975447.
  10. ^ Пирсон, Карл (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале». Философские труды Лондонского королевского общества А. 186 : 343–414. Бибкод : 1895RSPTA.186..343P. дои : 10.1098/rsta.1895.0010 .

Внешние ссылки