В статистике мода — это значение, которое чаще всего встречается в наборе значений данных. [1] Если X — это дискретная случайная величина, мода — это значение x , при котором функция массы вероятности принимает максимальное значение (т. е. x = argmax x i P( X = x i ) ). Другими словами, это значение, которое с наибольшей вероятностью будет выбрано.
Подобно статистическому среднему и медиане , мода — это способ выражения (обычно) в одном числе важной информации о случайной величине или популяции . Числовое значение моды такое же, как у среднего и медианы в нормальном распределении , и оно может сильно отличаться в сильно перекошенных распределениях .
Мода не обязательно уникальна в данном дискретном распределении , поскольку функция массы вероятности может принимать одно и то же максимальное значение в нескольких точках x 1 , x 2 и т. д. Самый крайний случай имеет место в равномерных распределениях , где все значения встречаются одинаково часто.
Мода непрерывного распределения вероятностей часто рассматривается как любое значение x , при котором его функция плотности вероятности имеет локально максимальное значение. [2] Когда функция плотности вероятности непрерывного распределения имеет несколько локальных максимумов , принято называть все локальные максимумы модами распределения, поэтому любой пик является модой. Такое непрерывное распределение называется мультимодальным (в отличие от унимодального ).
В симметричных унимодальных распределениях, таких как нормальное распределение , среднее значение (если оно определено), медиана и мода совпадают. Для выборок, если известно, что они взяты из симметричного унимодального распределения, выборочное среднее значение может быть использовано в качестве оценки моды популяции.
Мода выборки — это элемент, который чаще всего встречается в коллекции. Например, мода выборки [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] — 6. Учитывая список данных [1, 1, 2, 4, 4], ее мода не является уникальной. В таком случае набор данных называется бимодальным , тогда как набор с более чем двумя модами можно описать как мультимодальный .
Для выборки из непрерывного распределения, например [0,935..., 1,211..., 2,430..., 3,668..., 3,874...], эта концепция неприменима в своей необработанной форме, поскольку не будет двух абсолютно одинаковых значений, поэтому каждое значение будет встречаться ровно один раз. Чтобы оценить моду базового распределения, обычной практикой является дискретизация данных путем назначения значений частоты интервалам равного расстояния, как при построении гистограммы , фактически заменяя значения средними точками интервалов, которым они назначены. Тогда мода — это значение, при котором гистограмма достигает своего пика. Для выборок малого или среднего размера результат этой процедуры чувствителен к выбору ширины интервала, если выбран слишком узкий или слишком широкий; как правило, следует иметь значительную часть данных, сосредоточенных в относительно небольшом количестве интервалов (от 5 до 10), в то время как доля данных, выпадающих за пределы этих интервалов, также является значительной. Альтернативным подходом является оценка плотности ядра , которая по сути размывает точечные выборки для получения непрерывной оценки функции плотности вероятности, которая может обеспечить оценку моды.
Следующий пример кода MATLAB (или Octave ) вычисляет моду выборки:
X = sort ( x ); % x — это набор данных векторного столбца indexes = find ( diff ([ X ; realmax ]) > 0 ); % индексы, в которых изменяются повторяющиеся значения [ modeL , i ] = max ( diff ([ 0 ; indexes ])); % максимальная длина сохранения повторяющихся значений mode = X ( indexes ( i ));
Алгоритм требует в качестве первого шага сортировки выборки в порядке возрастания. Затем он вычисляет дискретную производную отсортированного списка и находит индексы, где эта производная положительна. Затем он вычисляет дискретную производную этого набора индексов, находя максимум этой производной индексов, и, наконец, оценивает отсортированную выборку в точке, где этот максимум происходит, что соответствует последнему члену отрезка повторяющихся значений.
В отличие от среднего и медианы, концепция моды также имеет смысл для « номинальных данных » (т. е. не состоящих из числовых значений в случае среднего или даже из упорядоченных значений в случае медианы). Например, взяв выборку корейских фамилий , можно обнаружить, что « Ким » встречается чаще, чем любое другое имя. Тогда «Ким» будет модой выборки. В любой системе голосования, где большинство определяет победу, победителя определяет единственное модальное значение, в то время как многомодальный результат потребует проведения некоторой процедуры разрешения конфликтов.
В отличие от медианы, концепция моды имеет смысл для любой случайной величины, принимающей значения из векторного пространства , включая действительные числа (одномерное векторное пространство) и целые числа (которые можно считать вложенными в действительные числа). Например, распределение точек на плоскости обычно имеет среднее значение и моду, но концепция медианы не применяется. Медиана имеет смысл, когда существует линейный порядок возможных значений. Обобщениями концепции медианы на пространства более высокой размерности являются геометрическая медиана и центральная точка .
Для некоторых распределений вероятностей ожидаемое значение может быть бесконечным или неопределенным, но если определено, оно уникально. Среднее значение (конечной) выборки всегда определено. Медиана — это значение, такое, что дроби, не превышающие его и не опускающиеся ниже него, составляют каждая не менее 1/2. Оно не обязательно уникально, но никогда не бесконечно или полностью неопределено. Для выборки данных это «половинное» значение, когда список значений упорядочен по возрастанию значения, где обычно для списка четной длины численное среднее берется из двух значений, ближайших к «половине». Наконец, как было сказано ранее, мода не обязательно уникальна. Некоторые патологические распределения (например, распределение Кантора ) вообще не имеют определенной моды. [ необходима цитата ] [4] Для конечной выборки данных мода — это одно (или несколько) значений в выборке.
Предполагая определенность и, для простоты, уникальность, ниже приведены некоторые из наиболее интересных свойств.
Примером перекошенного распределения является личное богатство : немногие люди очень богаты, но среди них есть и чрезвычайно богатые. Однако многие довольно бедны.
Хорошо известный класс распределений, которые могут быть произвольно искажены, задается логнормальным распределением . Оно получается путем преобразования случайной величины X , имеющей нормальное распределение, в случайную величину Y = e X. Тогда логарифм случайной величины Y распределен нормально, отсюда и название.
Принимая среднее значение μ для X равным 0, медиана Y будет равна 1, независимо от стандартного отклонения σ для X. Это так, поскольку X имеет симметричное распределение , поэтому его медиана также равна 0. Преобразование из X в Y является монотонным, и поэтому мы находим медиану e 0 = 1 для Y.
Когда X имеет стандартное отклонение σ = 0,25, распределение Y слабо асимметрично. Используя формулы для логнормального распределения , находим:
Действительно, медиана составляет примерно одну треть от среднего значения до моды.
Когда X имеет большее стандартное отклонение, σ = 1 , распределение Y сильно искажено. Теперь
Здесь правило Пирсона не работает.
Ван Цвет вывел неравенство, которое обеспечивает достаточные условия для того, чтобы это неравенство выполнялось. [8] Неравенство
выполняется, если
для всех x , где F() — кумулятивная функция распределения.
Для унимодального распределения можно показать, что медиана и среднее значение лежат в пределах (3/5) 1/2 ≈ 0,7746 стандартных отклонений друг от друга. [9] В символах,
где - абсолютное значение.
Аналогичное соотношение существует между медианой и модой: они лежат в пределах 3 1/2 ≈ 1,732 стандартных отклонений друг от друга:
Термин «режим» впервые был введен Карлом Пирсоном в 1895 году. [10]
Пирсон использует термин «мода» взаимозаменяемо с «максимальной ординатой» . В сноске он говорит: «Я нашел удобным использовать термин « мода» для абсциссы, соответствующей ординате максимальной частоты».