stringtranslate.com

Закон Бенфорда

Последовательность убывающих синих полос на светло-сером фоне сетки.
Распределение первых цифр по закону Бенфорда. Каждая полоса представляет цифру, а высота полосы — это процент чисел, начинающихся с этой цифры.
Частота первой значащей цифры физических констант в зависимости от закона Бенфорда

Закон Бенфорда , также известный как закон Ньюкомба-Бенфорда , закон аномальных чисел или закон первой цифры , представляет собой наблюдение о том, что во многих реальных наборах числовых данных первая цифра , вероятно, будет маленькой. [1] В наборах, подчиняющихся закону, цифра 1 появляется в качестве старшей значащей цифры примерно в 30% случаев, а 9 появляется в качестве старшей значащей цифры менее чем в 5% случаев. Если бы цифры были распределены равномерно, каждая из них встречалась бы примерно в 11,1% случаев. [2] Закон Бенфорда также делает прогнозы относительно распределения вторых и третьих цифр, комбинаций цифр и т. д.

На графике справа показан закон Бенфорда для системы счисления с основанием 10 , один из бесконечного множества случаев обобщенного закона относительно чисел, выраженных в произвольных (целых) основаниях, что исключает возможность того, что это явление может быть артефактом системы счисления с основанием 10. . Дальнейшие обобщения, опубликованные в 1995 году [3] , включали аналогичные утверждения как для n- й ведущей цифры, так и для совместного распределения первых n цифр, последнее из которых приводит к следствию, в котором показано, что значащие цифры являются статистически зависимой величиной.

Было показано, что этот результат применим к широкому спектру наборов данных, включая счета за электроэнергию, уличные адреса, цены на акции, цены на жилье, численность населения, уровень смертности, длину рек, а также физические и математические константы . [4] Как и другие общие принципы, касающиеся природных данных (например, тот факт, что многие наборы данных хорошо аппроксимируются нормальным распределением ), существуют наглядные примеры и объяснения, охватывающие многие случаи применения закона Бенфорда, хотя есть и множество других. случаи применения закона Бенфорда, которые не поддаются простому объяснению. [5] [6] Закон Бенфорда имеет тенденцию быть наиболее точным, когда значения распределены по нескольким порядкам величины , особенно если процесс генерации чисел описывается степенным законом (который распространен в природе).

Закон назван в честь физика Фрэнка Бенфорда , который сформулировал его в 1938 году в статье под названием «Закон аномальных чисел» [7] , хотя ранее он был сформулирован Саймоном Ньюкомбом в 1881 году. [8] [9]

Закон аналогичен по своей концепции, хотя и не идентичен по распространению, закону Ципфа .

Определение

Прямоугольник со смещенной жирной осью в левом нижнем углу и светло-серыми линиями, обозначающими логарифмы.
Логарифмическая шкала . Если равномерно выбрать случайную позицию x на этой числовой прямой, примерно в 30% случаев первая цифра числа будет равна 1.

Говорят, что набор чисел удовлетворяет закону Бенфорда, если старшая цифра  d ( d  ∈ {1,..., 9} ) встречается с вероятностью [10]

Таким образом, ведущие цифры в таком наборе имеют следующее распределение:

Величина пропорциональна промежутку между d и d  + 1 в логарифмическом масштабе . Следовательно, именно такое распределение и ожидается, если логарифмы чисел (но не сами числа) распределены равномерно и случайным образом .

Например, число x , ограниченное диапазоном от 1 до 10, начинается с цифры 1, если 1 ≤  x  < 2 , и начинается с цифры 9, если 9 ≤  x  < 10 . Следовательно, x начинается с цифры 1, если log 1 ≤ log  x  < log 2 , или начинается с 9, если log 9 ≤ log  x  < log 10 . Интервал [log 1, log 2] намного шире интервала [log 9, log 10] (0,30 и 0,05 соответственно); поэтому, если log x распределен равномерно и случайным образом, он с гораздо большей вероятностью попадет в более широкий интервал, чем в более узкий интервал, т. е. с большей вероятностью начнется с 1, чем с 9; вероятности пропорциональны ширине интервалов, что дает приведенное выше уравнение (а также обобщение на другие основы, кроме десятичной).

Закон Бенфорда иногда формулируется в более строгой форме, утверждая, что дробная часть логарифма данных обычно близка к равномерному распределению между 0 и 1; Отсюда можно вывести основное утверждение о распределении первых цифр. [5]

В других базах

Графики P ( d ) для начальной цифры d в различных основаниях. [11] Пунктирная линия показывает, что P ( d ) было равномерным распределением. (На изображении SVG наведите указатель мыши на график, чтобы отобразить значение для каждой точки.)

Расширение закона Бенфорда предсказывает распределение первых цифр в других системах счисления , помимо десятичной ; фактически, любая база b  ≥ 2 . Общая форма: [12]

Для систем счисления b = 2, 1 ( двоичная и унарная ) закон Бенфорда верен, но тривиален: все двоичные и унарные числа (за исключением 0 или пустого набора) начинаются с цифры 1. (С другой стороны, обобщение преобразования закона Бенфорда во вторую и последующие цифры нетривиальна даже для двоичных чисел. [13] )

Примеры

Распределение первых цифр (в %, красные столбцы) среди населения 237 стран мира по состоянию на июль 2010 г. Черные точки указывают на распределение, предсказанное законом Бенфорда.

Изучение списка высот 58 самых высоких сооружений в мире по категориям показывает, что 1, безусловно, является наиболее распространенной ведущей цифрой, независимо от единицы измерения (см. «Инвариантность масштаба» ниже):

Другой пример — старшая цифра 2 n . Последовательность первых 96 ведущих цифр (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1, ... (последовательность A008952 в OEIS )) демонстрирует более близкое соответствие закону Бенфорда, чем можно было бы ожидать для случайных последовательностей одинаковой длины, поскольку он получен из геометрической последовательности. [14]

История

Открытие закона Бенфорда относится к 1881 году, когда канадско-американский астроном Саймон Ньюкомб заметил, что в таблицах логарифмов более ранние страницы (начинающиеся с 1) изношены гораздо больше, чем остальные. [8] Опубликованный результат Ньюкомба является первым известным примером этого наблюдения и включает также распределение по второй цифре. Ньюкомб предложил закон, согласно которому вероятность того, что одно число N является первой цифрой числа, равна log( N  + 1) − log( N ).

Это явление снова было отмечено в 1938 году физиком Фрэнком Бенфордом [7] , который проверил его на данных из 20 различных областей и получил за это признание. Его набор данных включал площади поверхности 335 рек, размеры 3259 популяций США, 104 физические константы , 1800 молекулярных масс , 5000 записей из математического справочника, 308 чисел, содержащихся в выпуске Reader's Digest , уличные адреса первых 342 человек, внесенных в список американских ученых , и 418 показателей смертности. Общее количество наблюдений, использованных в статье, составило 20 229. Это открытие позже было названо в честь Бенфорда (что сделало его примером закона Стиглера ).

В 1995 году Тед Хилл доказал упомянутый ниже результат о смешанных распределениях. [15] [16]

Пояснения

Закон Бенфорда имеет тенденцию наиболее точно применяться к данным, охватывающим несколько порядков величины . Как правило, чем больше порядков величины равномерно охватывают данные, тем точнее применяется закон Бенфорда. Например, можно ожидать, что закон Бенфорда будет применяться к списку чисел, представляющих население поселений Великобритании. Но если «поселение» определяется как деревня с населением от 300 до 999 человек, то закон Бенфорда не будет применяться. [17] [18]

Рассмотрим распределения вероятностей, показанные ниже, в логарифмическом масштабе . В каждом случае общая площадь, выделенная красным, представляет собой относительную вероятность того, что первая цифра равна 1, а общая площадь, выделенная синим, представляет собой относительную вероятность того, что первая цифра равна 8. Для первого распределения размер областей красного и синие примерно пропорциональны ширине каждой красной и синей полос. Следовательно, числа, полученные из этого распределения, будут примерно соответствовать закону Бенфорда. С другой стороны, для второго распределения соотношение площадей красного и синего цвета сильно отличается от соотношения ширин каждого красного и синего столбца. Скорее, относительные площади красного и синего цвета определяются больше высотой столбцов, чем шириной. Соответственно, первые цифры этого распределения совершенно не удовлетворяют закону Бенфорда. [18]

Таким образом, реальные распределения, охватывающие несколько порядков величины довольно равномерно (например, цены на фондовом рынке и численность населения деревень, поселков и городов), вероятно, будут очень точно удовлетворять закону Бенфорда. С другой стороны, распределение большей частью или полностью в пределах одного порядка величины (например, показателей IQ или роста взрослых людей) вряд ли будет очень точно удовлетворять закону Бенфорда, если вообще будет. [17] [18] Однако разница между применимыми и неприменимыми режимами не является резкой границей: по мере сужения распределения отклонения от закона Бенфорда постепенно увеличиваются.

(Это обсуждение не является полным объяснением закона Бенфорда, поскольку оно не объясняет, почему так часто встречаются наборы данных, которые, если их представить в виде вероятностного распределения логарифма переменной, являются относительно однородными на несколько порядков величины. [19 ] ] )

Объяснение энтропии Кригера – Кафри

В 1970 году Вольфганг Кригер доказал то, что сейчас называется теоремой о генераторе Кригера. [20] [21] Теорему о генераторе Кригера можно рассматривать как обоснование предположения в модели шара и ящика Кафри о том, что в данной базе с фиксированным количеством цифр 0, 1, ..., n , ..., , цифра n эквивалентна ящику Кафри, содержащему n невзаимодействующих шаров. Другие ученые и статистики предложили объяснения, связанные с энтропией [ какие? ] для закона Бенфорда. [22] [23] [10] [24]

Мультипликативные колебания

Многие реальные примеры закона Бенфорда возникают в результате мультипликативных флуктуаций. [25] Например, если цена акции начинается со 100 долларов, а затем каждый день она умножается на случайно выбранный коэффициент от 0,99 до 1,01, то в течение длительного периода распределение вероятностей ее цены будет удовлетворять закону Бенфорда со все большей и большей точностью. .

Причина в том, что логарифм цены акции претерпевает случайное блуждание , поэтому со временем его распределение вероятностей будет становиться все более широким и гладким (см. выше). [25] (С технической точки зрения центральная предельная теорема гласит, что умножение все большего и большего количества случайных величин приведет к созданию логарифмически нормального распределения с все большей и большей дисперсией, поэтому в конечном итоге оно почти равномерно покрывает многие порядки величины.) Чтобы быть уверенным в приблизительном согласии согласно закону Бенфорда распределение должно быть приблизительно инвариантным при масштабировании с любым коэффициентом до 10; набор данных с логнормально- распределенным распределением и широкой дисперсией будет обладать этим приблизительным свойством.

В отличие от мультипликативных флуктуаций, аддитивные флуктуации не приводят к закону Бенфорда: вместо этого они приводят к нормальным распределениям вероятностей (опять же по центральной предельной теореме ), которые не удовлетворяют закону Бенфорда. Напротив, описанная выше гипотетическая цена акции может быть записана как произведение многих случайных переменных (т.е. коэффициента изменения цены за каждый день), поэтому она, скорее всего , вполне соответствует закону Бенфорда.

Множественные распределения вероятностей

Антон Форман предоставил альтернативное объяснение, обратив внимание на взаимосвязь между распределением значащих цифр и распределением наблюдаемой переменной . В ходе моделирования он показал, что распределения случайной величины с длинным правым хвостом совместимы с законом Ньюкомба – Бенфорда и что для распределений отношения двух случайных величин соответствие обычно улучшается. [26] Для чисел, полученных из определенных распределений ( показатель IQ , человеческий рост), закон Бенфорда не выполняется, поскольку эти переменные подчиняются нормальному распределению, которое, как известно, не удовлетворяет закону Бенфорда, [9] поскольку нормальное распределение не может охватывать несколько порядков величины, и мантиссы их логарифмов не будут (даже приблизительно) распределены равномерно. Однако если «смешать» числа из этих распределений, например, взяв числа из газетных статей, закон Бенфорда проявляется снова. Это также можно доказать математически: если неоднократно «случайно» выбирать распределение вероятностей (из некоррелированного набора), а затем случайным образом выбирать число в соответствии с этим распределением, результирующий список чисел будет подчиняться закону Бенфорда. [15] [27] Аналогичное вероятностное объяснение появления закона Бенфорда в числах повседневной жизни было выдвинуто, показав, что он возникает естественным образом, когда рассматривается смесь равномерных распределений. [28]

Инвариантность

В списке длин распределение первых цифр чисел в списке может быть в целом одинаковым независимо от того, выражены ли все длины в метрах, ярдах, футах, дюймах и т. д. То же самое относится и к денежным единицам.

Это не всегда так. Например, рост взрослых людей почти всегда начинается с 1 или 2 при измерении в метрах и почти всегда начинается с 4, 5, 6 или 7 при измерении в футах. Но в списке длин, равномерно распределенном на многие порядки величины (например, в списке из 1000 длин, упомянутом в научных работах и ​​включающем измерения молекул, бактерий, растений и галактик), разумно ожидать распределения первых цифр быть одинаковыми независимо от того, записаны ли длины в метрах или в футах.

Когда распределение первых цифр набора данных масштабно-инвариантно (независимо от единиц, в которых выражены данные), оно всегда определяется законом Бенфорда. [29] [30]

Например, первая (ненулевая) цифра в вышеупомянутом списке длин должна иметь одинаковое распределение независимо от того, является ли единицей измерения фут или ярд. Но в ярде три фута, поэтому вероятность того, что первая цифра длины в ярдах равна 1, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 3, 4 или 5; аналогично вероятность того, что первая цифра длины в ярдах равна 2, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 6, 7 или 8. Применение этого ко всем возможным масштабам измерений дает логарифмическое распределение. закона Бенфорда.

Закон Бенфорда для первых цифр является базовым инвариантом для систем счисления. Существуют условия и доказательства суммарной инвариантности, обратной инвариантности, а также инвариантности сложения и вычитания. [31] [32]

Приложения

Выявление мошенничества в бухгалтерском учете

В 1972 году Хэл Вариан предположил, что закон можно использовать для выявления возможного мошенничества в списках социально-экономических данных, представляемых в поддержку решений по государственному планированию. Основываясь на правдоподобном предположении, что люди, которые выдумывают цифры, склонны распределять свои цифры довольно равномерно, простое сравнение распределения частот первых цифр по данным с ожидаемым распределением в соответствии с законом Бенфорда должно выявить любые аномальные результаты. [33]

Использование в уголовных процессах

В Соединенных Штатах доказательства, основанные на законе Бенфорда, допускались в уголовных делах на федеральном уровне, уровне штата и на местном уровне. [34]

Данные выборов

Уолтер Мебейн , политолог и статистик из Мичиганского университета, был первым, кто применил второй значный тест закона Бенфорда (2BL-тест) в избирательной экспертизе . [35] Такой анализ считается простым, хотя и не надежным методом выявления нарушений в результатах выборов. [36] В литературе не было достигнуто научного консенсуса в поддержку применимости закона Бенфорда к выборам. В исследовании 2011 года политологов Джозефа Декерта, Михаила Мягкова и Питера К. Ордешука утверждалось, что закон Бенфорда проблематичен и вводит в заблуждение как статистический индикатор фальсификаций на выборах. [37] Их метод подвергся критике со стороны Мебане в ответ, хотя он согласился, что существует множество предостережений относительно применения закона Бенфорда к данным выборов. [38]

Закон Бенфорда был использован в качестве доказательства фальсификаций на иранских выборах 2009 года . [39] Анализ, проведенный Mebane, показал, что вторые цифры подсчета голосов за президента Махмуда Ахмадинежада , победителя выборов, имели тенденцию значительно отличаться от ожиданий закона Бенфорда, и что урны с очень небольшим количеством недействительных бюллетеней имели большую влияние на результаты, что свидетельствует о широкомасштабных вбросах бюллетеней . [40] Другое исследование использовало бутстрап -моделирование и обнаружило, что кандидат Мехди Карруби получил почти в два раза больше голосов, начиная с цифры 7, чем можно было бы ожидать в соответствии с законом Бенфорда, [41] в то время как анализ Колумбийского университета пришел к выводу, что вероятность того, что честные выборы приведут к слишком небольшому количеству несмежных цифр, а подозрительные отклонения в частоте последних цифр, обнаруженные на президентских выборах в Иране в 2009 году, составят менее 0,5 процента. [42] Закон Бенфорда также применялся для судебно-медицинской экспертизы и выявления мошенничества на данных губернаторских выборов в Калифорнии в 2003 году , [43] президентских выборов в США в 2000 и 2004 годах , [44] и федеральных выборов в Германии в 2009 году ; [45] Было обнаружено, что тест закона Бенфорда «стоит серьезно отнестись как статистический тест на мошенничество», хотя «не чувствителен к искажениям, которые, как мы знаем, существенно повлияли на многие голоса». [44] [ необходимо дальнейшее объяснение ]

Закон Бенфорда также неправильно применялся для обвинений в фальсификации выборов. При применении закона к результатам выборов Джо Байдена в Чикаго , Милуоки и других населенных пунктах на президентских выборах в США в 2020 году распределение первой цифры не соответствовало закону Бенфорда. Неправильное применение было результатом рассмотрения данных, которые были тесно связаны по диапазону, что нарушает предположение, заложенное в законе Бенфорда, о том, что диапазон данных должен быть большим. Тест первой цифры был применен к данным на уровне избирательных участков, но поскольку избирательные участки редко получают более нескольких тысяч голосов или менее нескольких десятков, нельзя ожидать, что закон Бенфорда будет применим. По словам Мебане, «широко известно, что первые цифры подсчета голосов на избирательных участках бесполезны для диагностики фальсификаций на выборах». [46] [47]

Макроэкономические данные

Аналогичным образом, макроэкономические данные, которые правительство Греции предоставило Европейскому Союзу перед вступлением в еврозону , оказались, вероятно, сфальсифицированными с использованием закона Бенфорда, хотя и спустя годы после вступления страны в еврозону. [48] ​​[49]

Анализ цифр цен

Исследователи использовали закон Бенфорда для выявления психологических моделей ценообразования в общеевропейском исследовании цен на потребительские товары до и после введения евро в 2002 году. [50] Идея заключалась в том, что без психологического ценообразования первые две или три цифры цены количества предметов должно подчиняться закону Бенфорда. Следовательно, если распределение цифр отклоняется от закона Бенфорда (например, много девяток), это означает, что торговцы, возможно, использовали психологическое ценообразование.

Когда в 2002 году евро заменил местные валюты , на короткий период времени цены на товары в евро просто конвертировались из цен на товары в местных валютах до замены. Поскольку по существу невозможно одновременно использовать психологическое ценообразование как для цен в евро, так и для цен в местной валюте, в течение переходного периода психологическое ценообразование будет нарушено, даже если оно существовало раньше. Его можно будет восстановить только после того, как потребители снова привыкнут к ценам в единой валюте, на этот раз в евро.

Как и ожидали исследователи, распределение первой цифры цены соответствовало закону Бенфорда, но распределение второй и третьей цифр значительно отклонялось от закона Бенфорда до введения, затем отклонялось меньше во время введения, а затем снова отклонялось после введения.

Данные генома

Количество открытых рамок считывания и их связь с размером генома различаются у эукариот и прокариот : первые демонстрируют лог-линейную зависимость, а вторые - линейную зависимость. Закон Бенфорда использовался для проверки этого наблюдения и прекрасно соответствовал данным в обоих случаях. [51]

Обнаружение научного мошенничества

Проверка коэффициентов регрессии в опубликованных статьях показала согласие с законом Бенфорда. [52] В качестве группы сравнения испытуемых попросили произвести статистические оценки. Сфабрикованные результаты соответствовали закону Бенфорда о первых цифрах, но не подчинялись закону Бенфорда о вторых цифрах.

Статистические тесты

Хотя критерий хи-квадрат использовался для проверки соответствия закону Бенфорда, он имеет низкую статистическую мощность при использовании с небольшими выборками.

Критерий Колмогорова-Смирнова и тест Койпера более эффективны при небольшом размере выборки, особенно когда используется поправочный коэффициент Стивенса. [53] Эти тесты могут быть чрезмерно консервативными при применении к дискретным распределениям. Значения для теста Бенфорда были получены Морроу. [54] Критические значения статистики испытаний показаны ниже:

Эти критические значения обеспечивают минимальные значения тестовой статистики, необходимые для отклонения гипотезы о соответствии закону Бенфорда на заданных уровнях значимости .

Были опубликованы два альтернативных теста, специфичных для этого закона: во-первых, статистика max ( m ) [55] определяется выражением

В исходной формуле Леемиса ведущий фактор не фигурирует; [55] оно было добавлено Морроу в более поздней статье. [54]

Во-вторых, статистика расстояния ( d ) [56] определяется выражением

где FSD — первая значащая цифра, а N — размер выборки. Морроу определил критические значения для обеих этих статистик, которые показаны ниже: [54]

Морроу также показал, что для любой случайной величины X (с непрерывной PDF ), разделенной на ее стандартное отклонение ( σ ), можно найти некоторое значение A так, что вероятность распределения первой значащей цифры случайной величины будет отличаться от Закон Бенфорда меньше, чем ε > 0. [54] Значение A зависит от значения ε и распределения случайной величины.

Предложен метод выявления мошенничества в бухгалтерском учете, основанный на бутстрэппинге и регрессии. [57]

Если цель состоит в том, чтобы прийти к согласию с законом Бенфорда, а не к несогласию, то упомянутые выше критерии согласия не подходят. В этом случае следует применять специальные тесты на эквивалентность . Эмпирическое распределение называется эквивалентным закону Бенфорда, если расстояние (например, полное вариационное расстояние или обычное евклидово расстояние) между функциями массы вероятности достаточно мало. Этот метод проверки с применением закона Бенфорда описан у Островского. [58]

Область применения

Распределения, которые, как известно, подчиняются закону Бенфорда.

Некоторые хорошо известные бесконечные целочисленные последовательности доказуемо точно удовлетворяют закону Бенфорда (в асимптотическом пределе , когда в последовательность входит все больше и больше членов). Среди них числа Фибоначчи , [59] [60] факториалы , [ 61] степени 2, [62] [14] и степени почти любого другого числа. [62]

Аналогично, некоторые непрерывные процессы точно удовлетворяют закону Бенфорда (в асимптотическом пределе, поскольку процесс продолжается во времени). Одним из них является процесс экспоненциального роста или убывания : если величина экспоненциально увеличивается или уменьшается во времени, то процент времени, в течение которого она имеет каждую первую цифру, асимптотически удовлетворяет закону Бенфорда (т.е. точность увеличивается по мере продолжения процесса во времени).

Распределения, о которых известно, что они не подчиняются закону Бенфорда.

Квадратные корни и обратные величины последовательных натуральных чисел не подчиняются этому закону. [63] Простые числа в конечном диапазоне подчиняются обобщенному закону Бенфорда, который приближается к единообразию по мере того, как размер диапазона приближается к бесконечности. [64] Списки местных телефонных номеров нарушают закон Бенфорда. [65] Закон Бенфорда нарушается населением всех населенных пунктов с численностью не менее 2500 особей из пяти штатов США по переписям 1960 и 1970 годов, где только 19 % начиналось с цифры 1, а 20 % начиналось с цифры 2, поскольку усечение на уровне 2500 вносит статистическую погрешность. [63] Конечные цифры в отчетах о патологии нарушают закон Бенфорда из-за округления. [66]

Распределения, не охватывающие несколько порядков, не подчиняются закону Бенфорда. Примеры включают рост, вес и показатели IQ. [9] [67]

Критерии распределения, которые, как ожидается, и не будут подчиняться закону Бенфорда

Был предложен ряд критериев, применимых, в частности, к данным бухгалтерского учета, в которых можно ожидать применения закона Бенфорда. [68]

Распределения, которые, как можно ожидать, будут подчиняться закону Бенфорда.
Распределения, которые, как ожидается, не будут подчиняться закону Бенфорда.

Теорема Бенфорда о соблюдении закона

С математической точки зрения закон Бенфорда применяется, если проверяемое распределение соответствует «теореме о соответствии закону Бенфорда». [17] Вывод говорит, что закон Бенфорда соблюдается, если преобразование Фурье логарифма функции плотности вероятности равно нулю для всех целых значений. В частности, это выполняется, если преобразование Фурье равно нулю (или незначительно) при n  ≥ 1. Это выполняется, если распределение широкое (поскольку широкое распределение подразумевает узкое преобразование Фурье). Смит резюмирует так (стр. 716):

Закону Бенфорда соответствуют распределения, широкие по сравнению с единичным расстоянием в логарифмическом масштабе. Точно так же закону не подчиняются распределения, узкие по сравнению с единичным расстоянием… Если распределение широкое по сравнению с единичным расстоянием на логарифмической оси, это означает, что разброс в наборе рассматриваемых чисел намного больше десяти.

Короче говоря, закон Бенфорда требует, чтобы числа в измеряемом распределении имели разброс по крайней мере на порядок величины.

Тесты с распространенными дистрибутивами

Закон Бенфорда был эмпирически проверен на числах (до 10-го знака), порождаемых рядом важных распределений, включая равномерное распределение , экспоненциальное распределение , нормальное распределение и другие. [9]

Равномерное распределение, как и следовало ожидать, не подчиняется закону Бенфорда. Напротив, распределение отношений двух равномерных распределений хорошо описывается законом Бенфорда.

Ни нормальное распределение, ни распределение отношений двух нормальных распределений ( распределение Коши ) не подчиняются закону Бенфорда. Хотя полунормальное распределение не подчиняется закону Бенфорда, соотношение отношений двух полунормальных распределений подчиняется. Ни усеченное вправо нормальное распределение, ни распределение отношений двух усеченных вправо нормальных распределений не могут быть хорошо описаны законом Бенфорда. Это неудивительно, поскольку это распределение ориентировано на большие числа.

Закон Бенфорда также хорошо описывает экспоненциальное распределение и распределение отношений двух экспоненциальных распределений. Подбор распределения хи-квадрат зависит от степеней свободы (df) с хорошим согласием при df = 1 и уменьшением согласия по мере увеличения df. F - распределение хорошо подходит для низких степеней свободы. С увеличением dfs соответствие уменьшается, но гораздо медленнее, чем распределение хи-квадрат. Подбор логарифмически нормального распределения зависит от среднего значения и дисперсии распределения. Дисперсия оказывает гораздо большее влияние на соответствие, чем среднее значение. Большие значения обоих параметров приводят к лучшему согласию с законом. Отношение двух логнормальных распределений является логарифмически нормальным, поэтому это распределение не исследовалось.

Другие распределения, которые были исследованы, включают распределение Мута, распределение Гомпертца , распределение Вейбулла , гамма-распределение , логарифмическое логистическое распределение и экспоненциальное степенное распределение , все из которых демонстрируют разумное согласие с законом. [55] [69] Распределение Гамбеля – плотность увеличивается с увеличением значения случайной величины – не согласуется с этим законом. [69]

Обобщение до цифр после первой

Логарифмический график вероятности того, что число начинается с цифры(ов) n для распределения, удовлетворяющего закону Бенфорда. Точки показывают точную формулу: P ( n ) = log 10 (1 + 1/ n ). График стремится к пунктирной асимптоте, проходящей через (1, log 10  e ) с наклоном −1 в логарифмическом масштабе. Пример, выделенный желтым цветом, показывает, что вероятность числа, начинающегося с 314, составляет около 0,00138. Пунктирные линии показывают вероятности равномерного распределения для сравнения. (На изображении SVG наведите указатель мыши на точку, чтобы отобразить ее значения.)

Можно распространить закон на цифры, выходящие за пределы первой. [70] В частности, для любого заданного количества цифр вероятность встретить число, начинающееся со строки цифр n такой длины – без учета ведущих нулей – определяется выражением

Таким образом, вероятность того, что число начинается с цифр 3, 1, 4 (некоторые примеры: 3,14, 3,142, π , 314280,7 и 0,00314005), равна log 10 (1 + 1/314) ≈ 0,00138 , как в блоке с лог-логарифм справа.  

Этот результат можно использовать для определения вероятности того, что определенная цифра встречается в заданной позиции числа. Например, вероятность того, что в качестве второй цифры встретится цифра «2», равна [70]

А вероятность того, что d ( d  = 0, 1, ..., 9) встретится в качестве n -й ( n  > 1) цифры, равна

Распределение n -й цифры по мере увеличения n быстро приближается к равномерному распределению с 10% для каждой из десяти цифр, как показано ниже. [70] Четырех цифр часто достаточно, чтобы предположить равномерное распределение 10%, поскольку «0» появляется в 10,0176% случаев в четвертой цифре, а «9» появляется в 9,9824% случаев.

Моменты

По этому закону были рассчитаны средние значения и моменты случайных величин для цифр от 1 до 9: [71]

Для двузначного распределения по закону Бенфорда также известны эти значения: [72]

Доступна таблица точных вероятностей совместного появления первых двух цифр в соответствии с законом Бенфорда [72] , а также популяционная корреляция между первой и второй цифрами: [72] ρ = 0,0561 .

В популярной культуре

Закон Бенфорда появился как сюжетный ход в некоторых популярных развлечениях двадцать первого века.

Смотрите также

Рекомендации

  1. ^ Арно Бергер и Теодор П. Хилл, Закон Бенфорда наносит ответный удар: простого объяснения математической жемчужине не видно, 2011.
  2. ^ Вайсштейн, Эрик В. «Закон Бенфорда». MathWorld, веб-ресурс Wolfram . Проверено 7 июня 2015 г.
  3. ^ Хилл, Теодор (1995). «Статистический вывод закона значащих цифр». Статистическая наука . 10 (4). дои : 10.1214/ss/1177009869 .
  4. ^ Пол Х. Квам, Брани Видакович, Непараметрическая статистика с приложениями к науке и технике , с. 158.
  5. ^ аб Бергер, Арно; Хилл, Теодор П. (30 июня 2020 г.). «Математика закона Бенфорда: букварь». Стат. Методы Примен . 30 (3): 779–795. arXiv : 1909.07527 . дои : 10.1007/s10260-020-00532-8. S2CID  202583554.
  6. ^ Цай, Чжаодун; Фауст, Мэтью; Хильдебранд, AJ; Ли, Цзюньсянь; Чжан, Юань (15 марта 2020 г.). «Удивительная точность закона Бенфорда в математике». Американский математический ежемесячник . 127 (3): 217–237. arXiv : 1907.08894 . дои : 10.1080/00029890.2020.1690387. ISSN  0002-9890. S2CID  198147766.
  7. ^ аб Фрэнк Бенфорд (март 1938 г.). «Закон аномальных чисел». Учеб. Являюсь. Филос. Соц. 78 (4): 551–572. JSTOR  984802.
  8. ^ аб Саймон Ньюкомб (1881). «Обратите внимание на частоту использования разных цифр в натуральных числах». Американский журнал математики . 4 (1/4): 39–40. Бибкод : 1881AmJM....4...39N. дои : 10.2307/2369148. JSTOR  2369148. S2CID  124556624.
  9. ^ abcd Форман, АК (2010). Моррис, Ричард Джеймс (ред.). «Закон Ньюкомба – Бенфорда в его отношении к некоторым общим распределениям». ПЛОС ОДИН . 5 (5): е10541. Бибкод : 2010PLoSO...510541F. дои : 10.1371/journal.pone.0010541 . ПМЦ 2866333 . ПМИД  20479878. 
  10. ^ аб Миллер, Стивен Дж. , изд. (9 июня 2015 г.). Закон Бенфорда: теория и приложения. Издательство Принстонского университета. п. 309. ИСБН 978-1-4008-6659-5.
  11. ^ Это должны быть полосы, но для ясности они показаны линиями.
  12. ^ Пимбли, Дж. М. (2014). «Закон Бенфорда как логарифмическое преобразование» (PDF) . Максвелл Консалтинг, ООО . Архивировано (PDF) из оригинала 9 октября 2022 года . Проверено 15 ноября 2020 г.
  13. ^ Хосравани, А. (2012). Трансформационная инвариантность переменных Бенфорда и их численное моделирование . Новейшие исследования в области автоматического управления и электроники. стр. 57–61. ISBN 978-1-61804-080-0.
  14. ^ ab О том, что первые 100 степеней двойки приблизительно удовлетворяют закону Бенфорда, упоминает Ральф Рэйми. Рэйми, Ральф А. (1976). «Задача о первой цифре». Американский математический ежемесячник . 83 (7): 521–538. дои : 10.2307/2319349. JSTOR  2319349.
  15. ^ ab Теодор П. Хилл (1995). «Статистический вывод закона значащих цифр». Статистическая наука . 10 (4): 354–363. дои : 10.1214/ss/1177009869 . МР  1421567.
  16. ^ Хилл, Теодор П. (1995). «Базовая инвариантность подразумевает закон Бенфорда». Труды Американского математического общества . 123 (3): 887–895. дои : 10.1090/S0002-9939-1995-1233974-8 . ISSN  0002-9939.
  17. ^ abc Стивен В. Смит. «Глава 34: Объяснение закона Бенфорда. Возможности обработки сигналов». Руководство для ученых и инженеров по цифровой обработке сигналов . Проверено 15 декабря 2012 г.
  18. ^ abc Fewster, RM (2009). «Простое объяснение закона Бенфорда» (PDF) . Американский статистик . 63 (1): 26–32. CiteSeerX 10.1.1.572.6719 . дои : 10.1198/tast.2009.0005. S2CID  39595550. Архивировано (PDF) из оригинала 9 октября 2022 года. 
  19. ^ Арно Бергер и Теодор П. Хилл, Закон Бенфорда наносит ответный удар: простого объяснения математической жемчужины не видно, 2011. Авторы описывают этот аргумент, но говорят, что он «по-прежнему оставляет открытым вопрос о том, почему разумно предположить, что логарифм разброс, в отличие от самого разброса — или, скажем, логарифмического разброса — должен быть большим» и что «предположение большого разброса в логарифмическом масштабе эквивалентно предположению приблизительного соответствия [закону Бенфорда]» (курсив добавлен) , то, чему, по их словам, не хватает «простого объяснения».
  20. ^ Кригер, Вольфганг (1970). «Об энтропии и генераторах преобразований, сохраняющих меру». Труды Американского математического общества . 149 (2): 453. doi : 10.1090/S0002-9947-1970-0259068-3 . ISSN  0002-9947.
  21. Даунарович, Томаш (12 мая 2011 г.). Энтропия в динамических системах. Издательство Кембриджского университета. п. 106. ИСБН 978-1-139-50087-6.
  22. ^ Смородинский, Меир (1971). «Глава IX. Энтропия и генераторы. Теорема Кригера». Эргодическая теория, энтропия . Конспект лекций по математике. Том. 214. Берлин, Гейдельберг: Шпрингер. дои : 10.1007/BFb0066096.
  23. ^ Джолион, Жан-Мишель (2001). «Образы и закон Бенфорда». Журнал математического изображения и видения . 14 (1): 73–81. дои : 10.1023/А: 1008363415314. ISSN  0924-9907. S2CID  34151059.
  24. ^ Лемонс, Дон С. (2019). «Термодинамика закона первой цифры Бенфорда». Американский журнал физики . 87 (10): 787–790. arXiv : 1604.05715 . Бибкод : 2019AmJPh..87..787L. дои : 10.1119/1.5116005. ISSN  0002-9505. S2CID  119207367.
  25. ^ аб Л. Пьетронеро; Э. Тосатти; В. Тосатти; А. Веспиньяни (2001). «Объяснение неравномерности распределения чисел в природе: законы Бенфорда и Ципфа». Физика А. 293 (1–2): 297–304. arXiv : cond-mat/9808305 . Бибкод : 2001PhyA..293..297P. дои : 10.1016/S0378-4371(00)00633-6.
  26. ^ Форман, АК (2010). «Закон Ньюкомба – Бенфорда в его отношении к некоторым общим распределениям». ПЛОС ОДИН . 5 (5): е10541. Бибкод : 2010PLoSO...510541F. дои : 10.1371/journal.pone.0010541 . ПМЦ 2866333 . ПМИД  20479878. 
  27. ^ Теодор П. Хилл (июль – август 1998 г.). «Феномен первой цифры» (PDF) . Американский учёный . 86 (4): 358. Бибкод : 1998AmSci..86..358H. дои : 10.1511/1998.4.358. S2CID  13553246.
  28. ^ Жанвресс, Элиза; Тьерри (2004). «От равномерного распределения к закону Бенфорда» (PDF) . Журнал прикладной вероятности . 41 (4): 1203–1210. дои : 10.1239/яп/1101840566. MR  2122815. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 13 августа 2015 г.
  29. ^ Пинкхэм, Роджер С. (1961). «О распределении первых значащих цифр». Анна. Математика. Статист . 32 (4): 1223–1230. дои : 10.1214/aoms/1177704862 .
  30. ^ аб Вайсштейн, Эрик В. «Закон Бенфорда». mathworld.wolfram.com .
  31. ^ Джамейн, Адриан (сентябрь 2001 г.). «Закон Бенфорда» (PDF) . Имперский колледж Лондона . Архивировано (PDF) из оригинала 9 октября 2022 года . Проверено 15 ноября 2020 г.
  32. ^ Бергер, Арно (июнь 2011 г.). «Основная теория закона Бенфорда». Вероятностные исследования . 8 (2011): 1–126.
  33. ^ Вариан, Хэл (1972). «Закон Бенфорда (Письма в редакцию)». Американский статистик . 26 (3): 65. дои : 10.1080/00031305.1972.10478934.
  34. ^ «От Бенфорда до Эрдеша». Радиолаборатория . Эпизод 09.10.2009. 30 сентября 2009 г.
  35. ^ Уолтер Р. Мебейн-младший, «Экспертиза выборов: подсчет голосов и закон Бенфорда» (18 июля 2006 г.).
  36. ^ «Экспертиза выборов», The Economist (22 февраля 2007 г.).
  37. ^ Декерт, Джозеф; Мягков Михаил; Ордешук, Питер К. (2011). «Закон Бенфорда и выявление фальсификаций на выборах». Политический анализ . 19 (3): 245–268. дои : 10.1093/pan/mpr014 . ISSN  1047-1987.
  38. ^ Мебане, Уолтер Р. (2011). «Комментарий к статье «Закон Бенфорда и обнаружение фальсификаций на выборах»». Политический анализ . 19 (3): 269–272. дои : 10.1093/pan/mpr024 .
  39. Стивен Баттерсби Статистика намекает на фальсификацию на выборах в Иране New Scientist, 24 июня 2009 г.
  40. ^ Уолтер Р. Мебейн-младший, «Записка о президентских выборах в Иране, июнь 2009 г.» (Мичиганский университет, 29 июня 2009 г.), стр. 22–23.
  41. ^ Рукема, Будевейн Ф. (2014). «Аномалия первой цифры на президентских выборах в Иране 2009 года». Журнал прикладной статистики . 41 : 164–199. arXiv : 0906.2789 . Бибкод : 2014JApS...41..164R. дои : 10.1080/02664763.2013.838664. S2CID  88519550.
  42. ^ Бернд Бебер и Александра Скакко, «Дьявол кроется в цифрах: доказательства того, что выборы в Иране были сфальсифицированы», The Washington Post (20 июня 2009 г.).
  43. ^ Марк Дж. Нигрини, Закон Бенфорда: приложения для судебно-бухгалтерского учета, аудита и обнаружения мошенничества (Хобокен, Нью-Джерси: Wiley, 2012), стр. 132–35.
  44. ^ ab Уолтер Р. Мебейн-младший, «Криминалистика выборов: тест закона Бенфорда по второй цифре и недавние президентские выборы в США» в книге « Подтасовка выборов: обнаружение и сдерживание манипуляций на выборах » под редакцией Р. Майкла Альвареса и др. (Вашингтон, округ Колумбия: Brookings Institution Press, 2008), стр. 162–81. PDF
  45. ^ Сикано, Сусуму; Мак, Верена (2011). «Когда тест закона Бенфорда по второй цифре сигнализирует о фальсификации выборов? Факты или вводящие в заблуждение результаты теста». Jahrbücher für Nationalökonomie und Statistik . 231 (5–6): 719–732. doi : 10.1515/jbnst-2011-5-610. S2CID  153896048.
  46. ^ «Проверка фактов: отклонение от закона Бенфорда не доказывает фальсификацию выборов» . Рейтер . 10 ноября 2020 г.
  47. ^ Дейси, Джеймс (19 ноября 2020 г.). «Закон Бенфорда и президентские выборы в США 2020 года: ничего необычного». Мир физики .
  48. ^ Уильям Гудман, Обещания и подводные камни закона Бенфорда, Значение , Королевское статистическое общество (июнь 2016 г.), стр. 38.
  49. Голдакр, Бен (16 сентября 2011 г.). «Специальный трюк, который помогает выявить подозрительную статистику». Хранитель . Проверено 1 февраля 2019 г.
  50. ^ Сехити, Тарек эль; Хельцль, Эрик; Кирхлер, Эрих (1 декабря 2005 г.). «Динамика цен после номинального шока: закон Бенфорда и психологическое ценообразование после введения евро». Международный журнал исследований в области маркетинга . 22 (4): 471–480. doi :10.1016/j.ijresmar.2005.09.002. S2CID  154273305.
  51. ^ Монах, JL; Гольдман, Т; Перес-Меркадер, Дж (2012). «Размеры генома и распределение Бенфорда». ПЛОС ОДИН . 7 (5): e36624. arXiv : 1205.6512 . Бибкод : 2012PLoSO...736624F. дои : 10.1371/journal.pone.0036624 . ПМЦ 3356352 . ПМИД  22629319. 
  52. ^ Дикманн, А (2007). «Не первая цифра! Использование закона Бенфорда для обнаружения поддельных научных данных». J Appl Stat . 34 (3): 321–329. дои : 10.1080/02664760601004940. hdl : 20.500.11850/310246 . S2CID  117402608.
  53. ^ Стивенс, Массачусетс (1970). «Использование статистики Колмогорова – Смирнова, Крамера – фон Мизеса и соответствующей статистики без обширных таблиц». Журнал Королевского статистического общества, серия B. 32 (1): 115–122.
  54. ^ abcd Морроу, Джон (август 2014 г.). Закон Бенфорда, семейства распределений и тестовый базис. Лондон, Великобритания . Проверено 11 марта 2022 г.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  55. ^ abc Лимис, LM; Шмайсер, Б.В.; Эванс, Д.Л. (2000). «Распределения выживания, удовлетворяющие закону Бенфорда». Американский статистик . 54 (4): 236–241. дои : 10.1080/00031305.2000.10474554. S2CID  122607770.
  56. ^ Чо, WKT; Гейнс, Би Джей (2007). «Нарушение закона (Бенфорда): статистическое выявление мошенничества при финансировании избирательных кампаний». Американский статистик . 61 (3): 218–223. дои : 10.1198/000313007X223496. S2CID  7938920.
  57. ^ Да, ЕС; Хедрик, TC; Минабуро, С. (2011). «Эффективный и действенный аналитический метод: процедура бутстреп-регрессии и закон Бенфорда». J. Бухгалтерская экспертиза и расследования . 3 (3).
  58. Островский, Владимир (май 2017 г.). «Проверка эквивалентности полиномиальных распределений». Статистика и вероятностные буквы . 124 : 77–82. дои : 10.1016/j.spl.2017.01.004. S2CID  126293429.
  59. ^ Вашингтон, округ Колумбия (1981). «Закон Бенфорда для чисел Фибоначчи и Лукаса». Ежеквартальный журнал Фибоначчи . 19 (2): 175–177.
  60. ^ Дункан, RL (1967). «Применение равномерного распределения к числам Фибоначчи». Ежеквартальный журнал Фибоначчи . 5 : 137–140.
  61. ^ Саркар, ПБ (1973). «Наблюдение за значащими цифрами биномиальных коэффициентов и факториалов». Санкхья Б. 35 : 363–364.
  62. ^ ab В общем, последовательность k 1 , k 2 , k 3 и т. д. в точности удовлетворяет закону Бенфорда при условии, что log 10 k является иррациональным числом . Это прямое следствие теоремы о равнораспределении .
  63. ^ Аб Рэйми, Ральф А. (август – сентябрь 1976 г.). «Задача о первой цифре». Американский математический ежемесячник . 83 (7): 521–538. дои : 10.2307/2319349. JSTOR  2319349.
  64. ^ Зыга, Лиза; Физика.орг. «Новая закономерность найдена в простых числах». физ.орг . Проверено 23 января 2022 г.
  65. ^ Чо, Венди К. Тэм; Гейнс, Брайан Дж. (2007). «Нарушение закона (Бенфорда): статистическое обнаружение мошенничества в финансировании избирательных кампаний». Американский статистик . 61 (3): 218–223. дои : 10.1198/000313007X223496. ISSN  0003-1305. JSTOR  27643897. S2CID  7938920 . Проверено 8 марта 2022 г.
  66. ^ Пиво, Тревор В. (2009). «Предпочтение конечных цифр: остерегайтесь закона Бенфорда». Дж. Клин. Патол. 62 (2): 192. doi :10.1136/jcp.2008.061721. PMID  19181640. S2CID  206987736.
  67. Синглтон, Томми В. (1 мая 2011 г.). «Понимание и применение закона Бенфорда», журнал ISACA , Ассоциация аудита и контроля информационных систем . Проверено 9 ноября 2020 г.
  68. ^ Дурчи, К; Хиллисон, В; Пачини, К. (2004). «Эффективное использование закона Бенфорда для выявления мошенничества в бухгалтерских данных». J Судебно-бухгалтерский учет . 5 : 17–34.
  69. ^ аб Дюмбген, Л; Лейенбергер, К. (2008). «Явные оценки ошибки аппроксимации в законе Бенфорда». Электронные коммуникации в теории вероятности . 13 : 99–112. arXiv : 0705.4488 . дои : 10.1214/ECP.v13-1358. S2CID  2596996.
  70. ^ abc Hill, Теодор П. (1995). «Феномен значащей цифры». Американский математический ежемесячник . 102 (4): 322–327. дои : 10.1080/00029890.1995.11990578. JSTOR  2974952.
  71. ^ Скотт, PD; Фасли, М. (2001) «Закон Бенфорда: эмпирическое исследование и новое объяснение». Архивировано 13 декабря 2014 года в Wayback Machine . Технический отчет CSM 349, факультет компьютерных наук, Univ. Эссекс
  72. ^ abc Су, IS; Хедрик, TC (2010). «Сравнительный анализ бутстрепа и традиционных статистических процедур, применяемых к цифровому анализу на основе закона Бенфорда» (PDF) . Журнал судебно-медицинской экспертизы и бухгалтерских расследований . 2 (2): 144–175.

дальнейшее чтение

Внешние ссылки