На обычном языке среднее значение — это одно число или значение, которое лучше всего представляет набор данных. Тип среднего значения, наиболее типично репрезентативного для списка чисел, — это среднее арифметическое — сумма чисел, деленная на количество чисел в списке. Например, среднее значение чисел 2, 3, 4, 7 и 9 (в сумме 25) равно 5. В зависимости от контекста наиболее репрезентативной статистикой , которую можно принять за среднее значение, может быть еще одна мера центральной тенденции . такие как средний диапазон , медиана , мода или среднее геометрическое . Например, средний личный доход часто указывается как медианный — число, ниже которого находится 50% личных доходов, а выше которого — 50% личных доходов — потому что среднее значение будет выше, если включить в него личные доходы нескольких миллиардеров . По этой причине рекомендуется избегать использования слова «среднее» при обсуждении показателей центральной тенденции и указывать, какой тип показателя среднего используется.
Если все числа в списке — одно и то же число, то их среднее значение также равно этому числу. Это свойство является общим для каждого из многих типов средних значений.
Еще одним универсальным свойством является монотонность : если два списка чисел A и B имеют одинаковую длину, и каждая запись списка A по крайней мере такого же размера, как и соответствующая запись в списке B , то среднее значение списка A не меньше, чем среднее значение списка. Б. _ Кроме того, все средние значения удовлетворяют линейной однородности : если все числа списка умножить на одно и то же положительное число, то его среднее значение изменится на один и тот же коэффициент.
В некоторых типах среднего значения элементам списка присваиваются разные веса перед определением среднего значения. К ним относятся взвешенное среднее арифметическое , взвешенное среднее геометрическое и взвешенная медиана . Также для некоторых типов скользящих средних вес элемента зависит от его положения в списке. Однако большинство типов средних значений удовлетворяют нечувствительности к перестановкам : все элементы одинаково учитываются при определении их среднего значения, и их позиции в списке не имеют значения; среднее значение (1, 2, 3, 4, 6) такое же, как и (3, 2, 6, 4, 1).
Среднее арифметическое , среднее геометрическое и среднее гармоническое известны под общим названием «средние Пифагора» .
Мода , медиана и средний диапазон часто используются в дополнение к среднему значению в качестве оценок центральной тенденции в описательной статистике . Все это можно рассматривать как минимизацию вариаций в той или иной мере; см. Центральную тенденцию § Решения вариационных задач .
Наиболее часто встречающееся число в списке называется модой. Например, режим списка (1, 2, 2, 3, 3, 3, 4) равен 3. Может случиться так, что есть два или более чисел, которые встречаются одинаково часто и чаще, чем любое другое число. В этом случае не существует согласованного определения режима. Некоторые авторы говорят, что все они являются модусами, а некоторые говорят, что модусов нет.
Медиана — это среднее число группы, если они расположены по порядку. (Если чисел четное, берется среднее значение двух средних.)
Таким образом, чтобы найти медиану, упорядочите список в соответствии с величиной его элементов, а затем несколько раз удалите пару, состоящую из самого высокого и самого низкого значений, пока не останется одно или два значения. Если осталось ровно одно значение, это медиана; если два значения, медиана — это среднее арифметическое этих двух. Этот метод берет список 1, 7, 3, 13 и приказывает ему прочитать 1, 3, 7, 13. Затем 1 и 13 удаляются, чтобы получить список 3, 7. Поскольку в этом оставшемся списке два элемента, медиана — это их среднее арифметическое, (3 + 7)/2 = 5.
Средний диапазон — это среднее арифметическое самого высокого и самого низкого значений набора.
Таблица математических символов поясняет символы, используемые ниже.
Другие, более сложные средние значения: тримедиана , тримедиана и нормализованное среднее значение с их обобщениями. [1]
Можно создать собственную среднюю метрику, используя обобщенное f -mean :
где f — любая обратимая функция. Среднее гармоническое является примером этого, используя f ( x ) = 1/ x , а среднее геометрическое — другим, используя f ( x ) = log x .
Однако этот метод расчета средних не является достаточно универсальным, чтобы охватить все средние значения. Более общий метод [2] [ неудачная проверка ] для определения среднего значения принимает любую функцию g ( x 1 , x 2 , ..., x n ) из списка аргументов, которая является непрерывной , строго возрастающей по каждому аргументу и симметричной. (инвариантен относительно перестановки аргументов). Среднее значение y тогда является значением, которое при замене каждого члена списка приводит к одному и тому же значению функции: g ( y , y , ..., y ) = g ( x 1 , x 2 , ..., x н ) . Это наиболее общее определение по-прежнему отражает важное свойство всех средних значений: среднее значение списка идентичных элементов и есть сам этот элемент. Функция g ( x 1 , x 2 , ..., x n ) = x 1 + x 2 + ··· + x n дает среднее арифметическое. Функция g ( x 1 , x 2 , ..., x n ) = x 1 x 2 ··· x n (где элементы списка являются положительными числами) обеспечивает среднее геометрическое. Функция g ( x 1 , x 2 , ..., x n ) = ( x 1 −1 + x 2 −1 + ··· + x n −1 ) −1 ) (где элементы списка являются положительными числами) обеспечивает гармоническое среднее. [2]
Типом среднего показателя, используемого в финансах, является средний процент доходности. Это пример среднего геометрического. Когда доходность является годовой, это называется совокупным годовым темпом роста (CAGR). Например, если мы рассматриваем двухлетний период, а доходность инвестиций в первый год составляет -10%, а доходность во второй год составляет +60%, то можно получить среднюю процентную доходность или CAGR, R . решив уравнение: (1 – 10%) × (1 + 60%) = (1 – 0,1) × (1 + 0,6) = (1 + R ) × (1 + R ) . Значение R , которое делает это уравнение верным, составляет 0,2 или 20%. Это означает, что общий доход за двухлетний период такой же, как если бы каждый год наблюдался 20%-ный рост. Порядок лет не имеет значения: средняя процентная доходность +60% и -10% представляет собой тот же результат, что и для -10% и +60%.
Этот метод можно обобщить на примеры, в которых периоды не равны. Например, рассмотрим период в полгода, за который доходность составляет -23%, и период в два с половиной года, за который доходность составляет +13%. Средняя процентная доходность за объединенный период представляет собой годовую доходность R , которая является решением следующего уравнения: (1 - 0,23) 0,5 × (1 + 0,13) 2,5 = (1 + R ) 0,5+2,5 , что дает средняя доходность R составляет 0,0600 или 6,00%.
Учитывая временные ряды , такие как ежедневные цены на фондовом рынке или годовые температуры, люди часто хотят создать более плавный ряд. [3] Это помогает показать основные тенденции или, возможно, периодическое поведение. Самый простой способ сделать это — скользящее среднее : выбирают число n и создают новую серию, взяв среднее арифметическое первых n значений, затем перемещаясь на одну позицию вперед, отбрасывая самое старое значение и вводя новое значение в другое. конец списка и так далее. Это простейшая форма скользящей средней. Более сложные формы предполагают использование средневзвешенного значения . Взвешивание можно использовать для усиления или подавления различных периодических характеристик, и в литературе по фильтрации существует очень обширный анализ того, какие взвешивания следует использовать . В цифровой обработке сигналов термин «скользящее среднее» используется, даже если сумма весов не равна 1,0 (поэтому выходной ряд представляет собой масштабированную версию средних значений). [4] Причина этого в том, что аналитика обычно интересует только тенденция или периодическое поведение.
Первый зарегистрированный случай, когда среднее арифметическое было расширено с 2 до n случаев для использования оценки , был в шестнадцатом веке. Начиная с конца шестнадцатого века, он постепенно стал распространенным методом уменьшения ошибок измерений в различных областях. [5] [6] В то время астрономы хотели узнать реальную величину на основе зашумленных измерений, таких как положение планеты или диаметр Луны. Используя среднее значение нескольких измеренных значений, ученые предположили, что погрешности составляют относительно небольшое количество по сравнению с суммой всех измеренных значений. Метод взятия среднего для уменьшения ошибок наблюдения действительно был разработан главным образом в астрономии. [5] [7] Возможным предшественником среднего арифметического является средний диапазон (среднее значение двух крайних значений), используемый, например, в арабской астрономии девятого-одиннадцатого веков, а также в металлургии и навигации. [6]
Однако существуют различные более старые расплывчатые упоминания об использовании среднего арифметического значения (которые не так ясны, но вполне могут иметь отношение к нашему современному определению среднего арифметического). В тексте IV века было написано следующее (текст в квадратных скобках — возможно, недостающий текст, который может прояснить смысл): [8]
Существуют еще более старые потенциальные ссылки. Имеются записи, что примерно с 700 г. до н. э. купцы и грузоотправители договорились, что ущерб грузу и кораблю (их «вклад» в случае повреждения морем) должен быть разделен между собой поровну. [7] Это могло быть рассчитано с использованием среднего значения, хотя, похоже, прямых записей о расчетах нет.
Корень в арабском языке встречается как عوار ʿawār , дефект или что-либо дефектное или поврежденное, включая частично испорченный товар; и عواري ʿawārī (также عوارة ʿawara ) = « состояние частичного повреждения или относящееся к нему ». [а] В западных языках история этого слова начинается со средневековой морской торговли на Средиземноморье. Генуя XII и XIII веков. Латинское слово avaria означало «ущерб, потери и ненормальные расходы, возникающие в связи с торговым морским путешествием»; и такое же значение авария имеет в Марселе в 1210 г., в Барселоне в 1258 г. и во Флоренции конца 13 в. [b] Французское авари 15-го века имело то же значение и породило английское «averay» (1491 г.) и английское «average» (1502 г.) с тем же значением. Сегодня итальянская авария , каталонская авария и французская авария по-прежнему имеют основное значение «ущерб». Огромная трансформация значения в английском языке началась с практики западных договоров торгового морского права позднего средневековья и раннего Нового времени, согласно которой, если корабль попадал в сильный шторм, часть товаров приходилось выбрасывать за борт, чтобы сделать корабль легче и безопаснее. , то соразмерно должны были пострадать все купцы, товар которых находился на корабле (а не тот, чей товар был выброшен за борт); и в более общем плане должно было быть пропорциональное распределение любой аварии . Отсюда это слово было принято британскими страховщиками, кредиторами и торговцами для обозначения своих убытков как распределенных по всему их портфелю активов и имеющих среднюю долю. Сегодняшнее значение развилось из этого и началось в середине 18 века и началось в английском языке. [б] [9]
Морской ущерб – это либо частная авария , которую несет только владелец поврежденного имущества, либо общая авария , когда владелец может требовать пропорционального вклада от всех сторон морского предприятия. Тип расчетов, используемых при корректировке общего среднего показателя, привел к использованию слова «среднее» для обозначения «среднего арифметического».
Второе употребление в английском языке, задокументированное еще в 1674 году и иногда пишущееся как «авериш», означает остатки и второй рост полевых культур, которые считались подходящими для употребления в пищу тягловыми животными («аверс»). [10]
Существует более раннее (по крайней мере, с 11 века) несвязанное использование этого слова. Похоже, это старый юридический термин, обозначающий подневную трудовую повинность арендатора перед шерифом, вероятно, англизированный от слова «avera», найденного в английской « Книге судного дня» (1085 г.).
Однако в Оксфордском словаре английского языка говорится, что производные от немецкого hafen Haven и арабского ʿawâr потеря, ущерб «полностью устранены», и это слово имеет романское происхождение. [11]
Из-за вышеупомянутого разговорного характера термина «среднее значение» этот термин может использоваться для запутывания истинного значения данных и предложения различных ответов на вопросы, основанных на используемом методе усреднения (чаще всего среднее арифметическое, медиана или мода). В своей статье «Под предлогом лжи: статистика как художественное доказательство» преподаватель Питтсбургского университета Дэниел Либертц отмечает, что по этой причине статистическая информация часто игнорируется в риторических аргументах. [12] Однако из-за их убедительности средние значения и другие статистические значения не следует полностью отбрасывать, а вместо этого использовать и интерпретировать с осторожностью. Либертц предлагает нам критически относиться не только к статистической информации, такой как средние значения, но и к языку, используемому для описания данных и их использования, говоря: «Если статистика опирается на интерпретацию, ораторам следует предлагать своей аудитории интерпретировать, а не настаивать на интерпретация». [12] Во многих случаях приводятся данные и конкретные расчеты, которые помогают облегчить интерпретацию с учетом аудитории.