stringtranslate.com

Преобразование данных (статистика)

Диаграмма рассеяния , на которой площади суверенных государств и зависимых территорий мира нанесены на вертикальную ось, а их население — на горизонтальную. Верхний график использует необработанные данные. На нижнем графике данные о площади и населении были преобразованы с использованием логарифмической функции.

В статистике преобразование данных — это применение детерминированной математической функции к каждой точке в наборе данных , то есть каждая точка данных z i заменяется преобразованным значением y i = f ( z i ), где f — функция. Преобразования обычно применяются для того, чтобы данные казались более близкими к предположениям процедуры статистического вывода , которая должна быть применена, или для улучшения интерпретируемости или внешнего вида графиков .

Почти всегда функция, используемая для преобразования данных, является обратимой и, как правило, непрерывной . Преобразование обычно применяется к набору сопоставимых измерений. Например, если мы работаем с данными о доходах людей в некоторой денежной единице, было бы обычным делом преобразовать значение дохода каждого человека с помощью логарифмической функции.

Мотивация

Руководство по тому, как следует преобразовывать данные или следует ли вообще применять преобразование, должно исходить из конкретного статистического анализа, который будет выполняться. Например, простой способ построить приблизительный 95% доверительный интервал для среднего значения совокупности — взять среднее значение выборки плюс или минус две единицы стандартной ошибки . Однако используемый здесь постоянный множитель 2 относится к нормальному распределению и применим только в том случае, если среднее значение выборки изменяется приблизительно нормально. Центральная предельная теорема утверждает, что во многих ситуациях среднее значение выборки изменяется нормально, если размер выборки достаточно велик. Однако, если совокупность существенно перекошена , а размер выборки не более чем умеренный, приближение, предоставляемое центральной предельной теоремой, может быть плохим, и полученный доверительный интервал, скорее всего, будет иметь неправильную вероятность покрытия . Таким образом, когда есть доказательства существенного перекоса в данных, обычно преобразуют данные в симметричное распределение [1] перед построением доверительного интервала. При желании доверительный интервал для квантилей (например, медиану) можно затем преобразовать обратно в исходную шкалу, используя обратное преобразование, примененное к данным. [2] [3]

Данные также можно преобразовать, чтобы их было легче визуализировать. Например, предположим, что у нас есть диаграмма рассеяния, на которой точками являются страны мира, а отображаемые значения данных — площадь и население каждой страны. Если диаграмма построена с использованием непреобразованных данных (например, квадратных километров для площади и количества людей для населения), большинство стран будут отображены в виде плотного скопления точек в нижнем левом углу графика. Несколько стран с очень большой площадью и/или населением будут разбросаны тонким слоем по большей части области графика. Простое изменение масштаба единиц (например, до тысяч квадратных километров или до миллионов человек) не изменит этого. Однако после логарифмических преобразований как площади, так и населения точки будут распределены на графике более равномерно.

Другая причина применения преобразования данных — улучшение интерпретируемости, даже если не требуется проводить формальный статистический анализ или визуализацию. Например, предположим, что мы сравниваем автомобили с точки зрения их топливной экономичности. Эти данные обычно представляются как «километры на литр» или «мили на галлон». Однако, если цель состоит в том, чтобы оценить, сколько дополнительного топлива человек будет использовать за год при вождении одного автомобиля по сравнению с другим, более естественно работать с данными, преобразованными с помощью применения обратной функции , получая литры на километр или галлоны на милю.

В регрессе

Преобразование данных может использоваться в качестве корректирующей меры, чтобы сделать данные пригодными для моделирования с помощью линейной регрессии , если исходные данные нарушают одно или несколько предположений линейной регрессии. [4] Например, простейшие модели линейной регрессии предполагают линейную связь между ожидаемым значением Y ( переменной отклика, которая должна быть предсказана) и каждой независимой переменной (когда другие независимые переменные остаются фиксированными). Если линейность не соблюдается, даже приблизительно, иногда можно преобразовать либо независимые, либо зависимые переменные в модели регрессии, чтобы улучшить линейность. [5] Например, добавление квадратичных функций исходных независимых переменных может привести к линейной связи с ожидаемым значением Y , что приводит к модели полиномиальной регрессии , частному случаю линейной регрессии.

Другим предположением линейной регрессии является гомоскедастичность , то есть дисперсия ошибок должна быть одинаковой независимо от значений предикторов. Если это предположение нарушается (т. е. если данные гетероскедастичны ), то можно найти преобразование только Y или преобразования как X ( переменных -предиктора ), так и Y , так что предположение гомоскедастичности (в дополнение к предположению линейности) будет верным для преобразованных переменных [5] , и поэтому линейная регрессия может быть применена к ним.

Еще одним применением преобразования данных является решение проблемы отсутствия нормальности в терминах ошибок. Одномерная нормальность не нужна для того, чтобы оценки наименьших квадратов параметров регрессии были значимыми (см. теорему Гаусса–Маркова ). Однако доверительные интервалы и проверки гипотез будут иметь лучшие статистические свойства, если переменные демонстрируют многомерную нормальность . Преобразования, которые стабилизируют дисперсию терминов ошибок (т. е. те, которые решают проблему гетероскедатичности), часто также помогают сделать термины ошибок приблизительно нормальными. [5] [6]

Примеры

Уравнение:

Значение: увеличение X на единицу связано со средним увеличением Y на b единиц.

Уравнение:

(Возводя обе части уравнения в степень: )
Значение: Единичное увеличение X связано со средним увеличением b единиц или, что эквивалентно, Y увеличивается в среднем на мультипликативный коэффициент . Для наглядности, если бы в приведенном выше преобразовании вместо натурального логарифма использовался логарифм с основанием 10 и для обозначения коэффициентов регрессии использовались бы те же символы ( a и b ), то единичное увеличение X привело бы к увеличению Y в среднем в раз. Если бы b было равно 1, то это означало бы 10-кратное увеличение Y для единичного увеличения X

Уравнение:

Значение: k-кратное увеличение X связано со средним увеличением единиц Y. Для наглядности, если бы в приведенном выше преобразовании вместо натурального логарифма использовался десятичный логарифм и те же символы ( a и b ) использовались для обозначения коэффициентов регрессии, то десятикратное увеличение X привело бы к среднему увеличению единиц Y.

Уравнение:

(Возводя обе части уравнения в степень: )
Значение: k-кратное увеличение X в среднем связано с мультипликативным увеличением Y. Таким образом, если X удваивается, это приведет к изменению Y на мультипликативный коэффициент . [7]

Альтернатива

Обобщенные линейные модели (GLM) обеспечивают гибкое обобщение обычной линейной регрессии, которое позволяет использовать переменные отклика, имеющие модели распределения ошибок, отличные от нормального распределения. GLM позволяют связать линейную модель с переменной отклика через функцию связи и позволяют величине дисперсии каждого измерения быть функцией его прогнозируемого значения. [8] [9]

Обычные случаи

Логарифмическое преобразование и преобразование квадратного корня обычно используются для положительных данных, а мультипликативное обратное преобразование ( обратное преобразование ) может использоваться для ненулевых данных. Степенное преобразование представляет собой семейство преобразований, параметризованных неотрицательным значением λ, которое включает логарифмическое, квадратное корневое и мультипликативное обратное преобразования как особые случаи. Чтобы подойти к преобразованию данных систематически, можно использовать статистические методы оценки для оценки параметра λ в степенном преобразовании, тем самым определяя преобразование, которое является приблизительно наиболее подходящим в данной ситуации. Поскольку семейство степенных преобразований также включает тождественное преобразование, этот подход также может указать, будет ли лучше всего анализировать данные без преобразования. В регрессионном анализе этот подход известен как преобразование Бокса–Кокса .

Обратное преобразование, некоторые степенные преобразования, такие как преобразование Йео–Джонсона , и некоторые другие преобразования, такие как применение обратного гиперболического синуса , могут быть осмысленно применены к данным, которые включают как положительные, так и отрицательные значения [10] (степенное преобразование обратимо по всем действительным числам, если λ — нечетное целое число). Однако, когда наблюдаются как отрицательные, так и положительные значения, иногда принято начинать с добавления константы ко всем значениям, создавая набор неотрицательных данных, к которым можно применить любое степенное преобразование. [3]

Распространенная ситуация, когда применяется преобразование данных, — это когда интересующее значение варьируется в пределах нескольких порядков величины . Многие физические и социальные явления демонстрируют такое поведение — доходы, популяции видов, размеры галактик и объемы осадков, и это лишь некоторые из них. Степенные преобразования, и в частности логарифм, часто могут использоваться для индуцирования симметрии в таких данных. Логарифм часто предпочитают, потому что его результат легко интерпретировать в терминах «кратных изменений».

Логарифм также оказывает полезное влияние на отношения. Если мы сравниваем положительные величины X и Y , используя отношение X  /  Y , то если X  <  Y , отношение находится в интервале (0,1), тогда как если X  >  Y , отношение находится в полуоси (1,∞), где отношение 1 соответствует равенству. В анализе, где X и Y рассматриваются симметрично, логарифмическое отношение log( X  /  Y ) равно нулю в случае равенства, и оно обладает тем свойством, что если X в K раз больше Y , логарифмическое отношение равно нулю, как и в ситуации, когда Y в K раз больше X (логарифмические отношения равны log( K ) и −log( K ) в этих двух ситуациях).

Если значения естественным образом ограничены диапазоном от 0 до 1, не включая конечные точки, то может быть целесообразно логит-преобразование : это дает значения в диапазоне (−∞,∞).

Возвращение к нормальности

1. Не всегда необходимо или желательно преобразовывать набор данных, чтобы он напоминал нормальное распределение. Однако, если желательны симметрия или нормальность, их часто можно вызвать с помощью одного из степенных преобразований.

2. Функция лингвистической мощности распределена в соответствии с законом Ципфа-Мандельброта . Распределение чрезвычайно остроконечное и лептокуртичное , поэтому исследователям пришлось отвернуться от статистики, чтобы решить, например, проблемы атрибуции авторства . Тем не менее, использование гауссовой статистики вполне возможно путем применения преобразования данных. [11]

3. Чтобы оценить, была ли достигнута нормальность после преобразования, можно использовать любой из стандартных тестов на нормальность . Графический подход обычно более информативен, чем формальный статистический тест, и поэтому для оценки соответствия набора данных нормальной популяции обычно используется нормальный квантильный график . В качестве альтернативы также были предложены эмпирические правила, основанные на асимметрии выборки и эксцессе . [12] [13]

Преобразование в равномерное распределение или произвольное распределение

Если мы наблюдаем набор из n значений X 1 , ..., X n без связей (т. е. имеется n различных значений), мы можем заменить X i преобразованным значением Y i = k , где k определяется таким образом, что X i является k по величине среди всех значений X. Это называется преобразованием ранга [14] и создает данные с идеальным соответствием равномерному распределению . Этот подход имеет популяционный аналог.

Используя преобразование интеграла вероятности , если X — любая случайная величина , а Fкумулятивная функция распределения X , то, пока F обратима, случайная величина U = F ( X ) следует равномерному распределению на единичном интервале [ 0,1].

Из равномерного распределения мы можем перейти к любому распределению с обратимой кумулятивной функцией распределения. Если G — обратимая кумулятивная функция распределения, а U — равномерно распределенная случайная величина, то случайная величина G −1 ( U ) имеет G в качестве своей кумулятивной функции распределения.

Объединяя эти два выражения, если X — любая случайная величина, F — обратимая кумулятивная функция распределения X , а G — обратимая кумулятивная функция распределения, то случайная величина G −1 ( F ( X )) имеет G в качестве своей кумулятивной функции распределения.

Преобразования, стабилизирующие дисперсию

Многие типы статистических данных демонстрируют « зависимость дисперсии от среднего», что означает, что дисперсия различна для значений данных с разными ожидаемыми значениями . Например, при сравнении разных групп населения в мире дисперсия дохода имеет тенденцию увеличиваться со средним доходом. Если мы рассмотрим ряд небольших территориальных единиц (например, округа в Соединенных Штатах) и получим среднее значение и дисперсию доходов в каждом округе, то обычно округа с более высоким средним доходом также имеют более высокие дисперсии.

Преобразование , стабилизирующее дисперсию, направлено на устранение зависимости дисперсии от среднего значения, так что дисперсия становится постоянной относительно среднего значения. Примерами преобразований, стабилизирующих дисперсию, являются преобразование Фишера для коэффициента корреляции выборки, преобразование квадратного корня или преобразование Анскомба для данных Пуассона (данных подсчета), преобразование Бокса–Кокса для регрессионного анализа и преобразование квадратного корня арксинуса или угловое преобразование для пропорций ( биномиальных данных). Хотя преобразование квадратного корня арксинуса обычно используется для статистического анализа пропорциональных данных, оно не рекомендуется, поскольку логистическая регрессия или логит-преобразование больше подходят для биномиальных или небиномиальных пропорций соответственно, особенно из-за уменьшения ошибки типа II . [15] [3]

Преобразования для многомерных данных

Одномерные функции могут быть применены поточечно к многомерным данным для изменения их маргинальных распределений. Также возможно изменить некоторые атрибуты многомерного распределения с помощью соответствующим образом построенного преобразования. Например, при работе с временными рядами и другими типами последовательных данных обычно различают данные для улучшения стационарности . Если данные, сгенерированные случайным вектором X, наблюдаются как векторы X i наблюдений с ковариационной матрицей Σ, можно использовать линейное преобразование для декорреляции данных. Для этого используется разложение Холецкого для выражения Σ = A A' . Тогда преобразованный вектор Y i = A −1 X i имеет единичную матрицу в качестве своей ковариационной матрицы.

Смотрите также

Ссылки

  1. ^ Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогностическое моделирование . Нью-Йорк. doi :10.1007/978-1-4614-6849-3. ISBN 9781461468493. LCCN  2013933452. OCLC  844349710. S2CID  60246745.{{cite book}}: CS1 maint: location missing publisher (link)
  2. ^ Альтман, Дуглас Г.; Блэнд, Дж. Мартин (1996-04-27). "Статистические заметки: преобразования, средние значения и доверительные интервалы". BMJ . 312 (7038): 1079. doi :10.1136/bmj.312.7038.1079. ISSN  0959-8138. PMC 2350916 . PMID  8616417. 
  3. ^ abc "Преобразования данных - Справочник по биологической статистике". www.biostathandbook.com . Получено 19.03.2019 .
  4. ^ "Урок 9: Преобразования данных | STAT 501". newonlinecourses.science.psu.edu . Получено 17.03.2019 .
  5. ^ abc Катнер, Майкл Х.; Нахтсхайм, Кристофер Дж.; Нетер, Джон; Ли, Уильям (2005). Прикладные линейные статистические модели (5-е изд.). Бостон: McGraw-Hill Irwin. С. 129–133. ISBN 0072386886. LCCN  2004052447. OCLC  55502728.
  6. ^ Альтман, Дуглас Г.; Блэнд, Дж. Мартин (1996-03-23). ​​«Статистические заметки: Преобразование данных». BMJ . 312 (7033): 770. doi :10.1136/bmj.312.7033.770. ISSN  0959-8138. PMC 2350481 . PMID  8605469. 
  7. ^ "9.3 - Логарифмическое преобразование предиктора и отклика | STAT 501". newonlinecourses.science.psu.edu . Получено 17.03.2019 .
  8. ^ Тернер, Хизер (2008). «Введение в обобщенные линейные модели» (PDF) .
  9. ^ Ло, Стесон; Эндрюс, Салли (2015-08-07). «Трансформировать или не трансформировать: использование обобщенных линейных смешанных моделей для анализа данных о времени реакции». Frontiers in Psychology . 6 : 1171. doi : 10.3389/fpsyg.2015.01171 . ISSN  1664-1078. PMC 4528092. PMID 26300841  . 
  10. ^ "Трансформации: введение". fmwww.bc.edu . Получено 2019-03-19 .
  11. ^ Ван Дроогенбрук Ф.Дж., «Необходимая перефразировка закона Ципфа-Мандельброта для решения задач атрибуции авторства с помощью гауссовой статистики» (2019) [1]
  12. ^ Ким, Хэ-Янг (2013-02-01). "Статистические заметки для клинических исследователей: оценка нормального распределения (2) с использованием асимметрии и эксцесса". Restorative Dentistry & Endodontics . 38 (1): 52–54. doi :10.5395/rde.2013.38.1.52. ISSN  2234-7658. PMC 3591587. PMID 23495371  . 
  13. ^ "Проверка нормальности, включая асимметрию и эксцесс". imaging.mrc-cbu.cam.ac.uk . Получено 18.03.2019 .
  14. ^ "Новый взгляд на статистику: непараметрические модели: трансформация рангов". www.sportsci.org . Получено 23.03.2019 .
  15. ^ Уортон, Д.; Хуэй, Ф. (2011). «Арксинус ослиный: анализ пропорций в экологии». Экология . 92 (1): 3–10. doi :10.1890/10-0340.1. hdl : 1885/152287 . PMID  21560670.

Внешние ссылки