stringtranslate.com

Проблема немецкого танка

Во время Второй мировой войны производство немецких танков, таких как « Пантера» , было точно оценено разведкой союзников с использованием статистических методов.

В статистической теории оценки задача немецкого танка состоит в оценке максимума дискретного равномерного распределения путем выборки без замены . Проще говоря, предположим, что существует неизвестное количество элементов, которые последовательно пронумерованы от 1 до N. Берется случайная выборка этих элементов и наблюдаются их порядковые номера; проблема состоит в том, чтобы оценить N на основе этих наблюдаемых чисел.

К проблеме можно подойти, используя либо частотный вывод , либо байесовский вывод , что приводит к разным результатам. Оценка максимума совокупности на основе одной выборки дает разные результаты, тогда как оценка на основе нескольких выборок представляет собой практический вопрос оценки, ответ на который прост (особенно в частотной настройке), но не очевиден (особенно в байесовской настройке).

Проблема названа в честь ее исторического применения союзными войсками во Второй мировой войне для оценки ежемесячного темпа производства немецких танков на основе очень ограниченных данных. При этом использовалась производственная практика присвоения и прикрепления возрастающих последовательностей серийных номеров к компонентам танка (шасси, коробке передач, двигателю, колесам), при этом некоторые танки в конечном итоге были захвачены в бою союзными войсками.

Предположения

Предполагается, что противник изготовил серию танков, отмеченных последовательными целыми номерами, начиная с серийного номера 1. Кроме того, независимо от даты изготовления танка, истории службы или серийного номера, который он носит, распределение по серийным номерам становится выявляемая при анализе, является однородной до момента проведения анализа.

Пример

Предполагаемая численность населения (N). Количество наблюдений в выборке равно k . Самый большой серийный номер образца — m . Частотный анализ показан пунктирными линиями. Байесовский анализ имеет сплошные желтые линии со средним значением и штриховкой, чтобы показать диапазон от минимально возможного значения до среднего плюс 1 стандартное отклонение). В примере показано, что если наблюдаются четыре резервуара и самый высокий серийный номер равен «60», частотный анализ предсказывает 74, тогда как байесовский анализ предсказывает среднее значение 88,5 и стандартное отклонение 138,72 - 88,5 = 50,22 и минимум 60 резервуаров. В файле SVG наведите указатель мыши на график, чтобы выделить его.

Предполагая, что танкам присвоены последовательные серийные номера, начинающиеся с 1, предположим, что захвачено четыре танка, которые имеют серийные номера: 19, 40, 42 и 60.

Частотный подход (с использованием несмещенной оценки с минимальной дисперсией ) предсказывает , что общее количество произведенных танков будет:

Байесовский подход (с использованием равномерного априора над целыми числами для любого достаточно большого ) предсказывает, что среднее количество произведенных резервуаров будет очень похоже на частотный прогноз:

тогда как байесовское среднее предсказывает, что количество произведенных танков будет:

Пусть N равно общему количеству танков, которые, по прогнозам, будут произведены, m равно наибольшему наблюдаемому серийному номеру, а k равно количеству захваченных танков.

Частотный прогноз рассчитывается как:

Байесовская медиана рассчитывается как:

Байесовское среднее рассчитывается как:

Эти байесовские величины получены из байесовского апостериорного распределения:

Эта функция вероятностной массы имеет положительную асимметрию , связанную с тем, что имеется не менее 60 танков. Из-за этой асимметрии среднее значение может оказаться не самой значимой оценкой. Медиана в этом примере равна 74,5, что близко соответствует частотной формуле. Используя приближение Стирлинга , апостериорную величину можно аппроксимировать экспоненциально убывающей функцией n ,

что приводит к следующему приближению для медианы:

и следующие приближения для среднего и стандартного отклонения:

Исторический пример проблемы

Танки «Пантера» загружаются для отправки в строевые части, 1943 год.

В ходе Второй мировой войны западные союзники прилагали постоянные усилия по определению масштабов немецкого производства и подходили к этому двумя основными способами: обычным сбором разведданных и статистической оценкой. Во многих случаях статистический анализ существенно превосходил обычный интеллект. В некоторых случаях традиционные разведывательные данные использовались в сочетании со статистическими методами, как это было в случае оценки производства танков «Пантера» незадолго до дня «Д» .

Командование союзников считало, что танки Panzer V («Пантера»), замеченные в Италии, с их высокоскоростными длинноствольными 75-мм/L70 орудиями, были необычными тяжелыми танками и их можно будет увидеть только на севере Франции в небольшом количестве, почти так же. кстати как Тигра меня видели в Тунисе. Армия США была уверена, что танк «Шерман» продолжит показывать хорошие результаты, как и в случае с танками Panzer III и Panzer IV в Северной Африке и на Сицилии. [a] Незадолго до дня «Д» ходили слухи, что использовалось большое количество танков Panzer V.

Чтобы определить, правда ли это, союзники попытались оценить количество производимых танков. Для этого они использовали серийные номера трофейных или уничтоженных танков. Основными используемыми числами были номера коробок передач, поскольку они располагались в двух непрерывных последовательностях. Также использовались номера шасси и двигателя, хотя их использование было более сложным. Для перекрестной проверки анализа использовались различные другие компоненты. Аналогичный анализ был проведен на колесах, которые были пронумерованы последовательно (т.е. 1, 2, 3, ...,  N ). [2] [б] [3] [4]

Анализ колес цистерн позволил оценить количество использовавшихся форм для колес. Затем в ходе дискуссии с британскими производителями опорных катков было оценено количество колес, которые можно было бы изготовить из такого количества форм, что дало количество танков, производившихся каждый месяц. Анализ колес двух танков (по 32 опорных катка каждый, всего 64 опорных катка) позволил оценить, что в феврале 1944 года было произведено 270 танков, что значительно больше, чем предполагалось ранее. [5]

Немецкие записи после войны показали, что производство за февраль 1944 года составило 276 штук . этот тип статистического анализа.

Оценка производства была не единственным применением анализа серийных номеров. Он также использовался для более общего понимания немецкого производства, включая количество заводов, относительную важность заводов, длину цепочки поставок (основанную на задержке между производством и использованием), изменения в производстве и использование ресурсов, таких как каучук.

Конкретные данные

По общепринятым оценкам разведки союзников, с июня 1940 года по сентябрь 1942 года немцы производили около 1400 танков в месяц. Применяя приведенную ниже формулу к серийным номерам трофейных танков, это число было рассчитано как 246 в месяц. После войны данные по захваченному немецкому производству из министерства Альберта Шпеера показали, что фактическое число составляло 245. [3]

Оценки на некоторые конкретные месяцы даны следующим образом: [7]

Подобные анализы

Производство ракет Фау-2 было точно оценено статистическими методами.

Подобный анализ серийных номеров использовался для другой военной техники во время Второй мировой войны, наиболее успешно для ракеты Фау-2 . [8]

Заводская маркировка на советской военной технике анализировалась во время Корейской войны , а также немецкой разведкой во время Второй мировой войны. [9]

В 1980-е годы некоторым американцам был предоставлен доступ к линии производства израильских танков «Меркава» . Производственные номера были засекречены, но танки имели серийные номера, позволяющие оценить объем производства. [10]

Формула использовалась в невоенном контексте, например, для оценки количества построенных компьютеров Commodore 64 , где результат (12,5 миллионов) соответствует нижней оценке. [11]

Контрмеры

Чтобы затруднить анализ серийных номеров, серийные номера можно исключить или уменьшить полезную вспомогательную информацию. В качестве альтернативы можно использовать серийные номера, устойчивые к криптоанализу, наиболее эффективно путем случайного выбора чисел без замены из списка, который намного превышает количество созданных объектов, или путем создания случайных чисел и проверки их по списку уже присвоенных номеров; коллизии вероятны, если только количество возможных цифр не превышает более чем в два раза количество цифр в количестве произведенных объектов (где серийный номер может быть в любой базе); см. проблему с днем ​​рождения . [d] Для этого можно использовать криптографически безопасный генератор псевдослучайных чисел . Все эти методы требуют таблицы поиска (или взлома шифра) для возврата от серийного номера к производственному заказу, что усложняет использование серийных номеров: например, невозможно вспомнить диапазон серийных номеров, но каждый из них необходимо искать индивидуально. или созданный список.

Альтернативно, последовательные серийные номера могут быть зашифрованы с помощью простого шифра замены , который позволяет легко декодировать, но также легко взламывается с помощью частотного анализа : даже если начинать с произвольной точки, открытый текст имеет шаблон (а именно, числа идут последовательно). Один из примеров приведен в романе Кена Фоллетта «Код до нуля» , где шифрование серийных номеров ракеты «Юпитер-С» осуществляется следующим образом:

Кодовое слово здесь — Хантсвилл (без повторяющихся букв), чтобы получить 10-буквенный ключ. [12] Таким образом, ракета номер 13 была «HN», а ракета номер 24 — «UT».

Частотный анализ

Несмещенная оценка с минимальной дисперсией

Для точечной оценки (оценка одного значения для суммы ) несмещенная оценка с минимальной дисперсией (оценка MVUE или UMVU) определяется следующим образом: [e]

где m — наибольший наблюдаемый серийный номер ( максимум выборки ), а k — количество наблюдаемых резервуаров ( размер выборки ). [10] [13] Обратите внимание, что после обнаружения серийного номера он больше не находится в пуле и больше не будет наблюдаться.

Это имеет дисперсию [10]

таким образом, стандартное отклонение составляет примерно N / k , ожидаемый размер разрыва между отсортированными наблюдениями в выборке.

Интуитивно формулу можно понимать как выборочный максимум плюс средний разрыв между наблюдениями в выборке, при этом выборочный максимум выбирается в качестве начальной оценки, поскольку он является оценщиком максимального правдоподобия , [f] с добавлением разрыва для компенсации отрицательное смещение максимума выборки в качестве оценки максимума совокупности, [g] и записанное как

Это можно визуализировать, представив, что наблюдения в выборке равномерно распределены по всему диапазону, а дополнительные наблюдения находятся сразу за пределами диапазона при 0 и N  + 1. Если начать с начального разрыва между 0 и самым низким наблюдением в выборке ( минимум выборки), средний разрыв между последовательными наблюдениями в выборке составляет ; существо , потому что сами наблюдения не учитываются при вычислении разрыва между наблюдениями. [ч] . Вывод ожидаемого значения и дисперсии выборочного максимума показаны на странице дискретного равномерного распределения .

Эта философия формализована и обобщена в методе оценки максимального расстояния ; аналогичная эвристика используется для построения положения на графике Q – Q , отображая точки выборки в точке k /( n + 1) , которая находится равномерно на равномерном распределении, с пробелом в конце.

Доверительные интервалы

Вместо точечной оценки или в дополнение к ней можно выполнять интервальную оценку , например доверительные интервалы . Их легко вычислить, основываясь на наблюдении, что вероятность того, что k наблюдений в выборке попадут в интервал, охватывающий p диапазона (0 ≤  p  ≤ 1), равна p k (предполагая в этом разделе, что выборки производятся с заменой, чтобы упростить вычисления; если розыгрыши без замены, это завышает вероятность, и интервалы будут слишком консервативными).

Таким образом, выборочное распределение квантиля выборочного максимума представляет собой график x 1/ k от 0 до 1: от p -го до q -го квантиля выборочного максимума m представляют собой интервал [ p 1/ k Nq 1/ к Н ]. Инвертирование этого значения дает соответствующий доверительный интервал для максимума популяции [ m / q 1/ km / p 1/ k ].

Например, если взять симметричный 95% интервал p = 2,5% и q = 97,5% для k = 5, получим 0,025 1/5 ≈ 0,48, 0,975 1/5 ≈ 0,995, поэтому доверительный интервал составляет примерно [1,005 м , 2,08 м ] . Нижняя граница очень близка к m , поэтому более информативным является асимметричный доверительный интервал от p = 5% до 100%; для k = 5 это дает 0,05 1/5 ≈ 0,55 и интервал [ m , 1,82 m ].

В более общем смысле, (смещенный вниз) 95% доверительный интервал равен [ m , m /0,05 1/ k ] = [ m , m ·20 1/k ]. Для диапазона значений k , используя для справки точечную оценку UMVU (плюс 1 для разборчивости), это дает:

Непосредственные наблюдения:

Обратите внимание, что m / k нельзя использовать просто так (или, скорее, ( m  +  m / k  − 1)/ k ) в качестве оценки стандартной ошибки SE , поскольку стандартная ошибка оценщика основана на максимуме совокупности (параметре) и использование оценки для оценки ошибки в этой самой оценке является круговым рассуждением .

Байесовский анализ

Байесовский подход к проблеме немецких танков [14] заключается в рассмотрении апостериорной вероятности того, что количество вражеских танков равно , когда число наблюдаемых танков равно , а максимальный наблюдаемый серийный номер равен .

Ответ на эту задачу зависит от выбора априора для . Можно продолжить, используя правильное априорное распределение по положительным целым числам, например, распределение Пуассона или отрицательное биномиальное распределение, где можно получить замкнутую формулу для апостериорного среднего и апостериорной дисперсии. [15] Ниже мы вместо этого примем ограниченный равномерный априор.

Для краткости далее пишется .

Условная возможность

Правило условной вероятности дает

Вероятность того, что M знает N и K

Выражение

– условная вероятность того, что максимальное наблюдаемое серийное число, , равно , когда известно, что количество танков противника, , равно , и известно, что количество наблюдаемых танков противника, , равно .

Это

где – биномиальный коэффициент , – скобка Айверсона .

Выражение можно получить следующим образом: отвечает на вопрос: «Какова вероятность того, что конкретный серийный номер окажется наибольшим числом, наблюдаемым в выборке танков, при общем количестве танков?»

Можно думать, что размер выборки представляет собой результат отдельных отборов без замены. Предположим , что наблюдается по номеру розыгрыша . Вероятность этого события равна:

Как видно из правой части, это выражение независимо и, следовательно, одинаково для каждого . Как видно из разных розыгрышей, вероятность того, что какой-либо конкретный из наблюдаемых розыгрышей окажется самым большим, в раз превышает вышеуказанную вероятность:

Вероятность того, что M знает только K

Выражение представляет собой вероятность того, что максимальный серийный номер будет равен моменту, когда танки были обнаружены, но до того, как серийные номера были фактически обнаружены.

Выражение можно переписать с использованием других величин, исключив все возможные значения .

Априорная вероятность того, что N знает только K

Мы предполагаем, что оно фиксировано заранее, поэтому нам не нужно учитывать какое-либо распределение по . Таким образом, наш априор может зависеть от .

Выражение

является достоверность того, что общее количество танков равно , когда известно, что количество наблюдаемых танков равно , но до того, как были обнаружены серийные номера. Предположим, что это некоторое дискретное равномерное распределение

Верхний предел должен быть конечным, поскольку функция

не является функцией распределения массы. Наш результат ниже не будет зависеть от .

Апостериорная вероятность того, что N знает M и K

При условии, что , чтобы априорные данные согласовывались с наблюдаемыми данными:

При суммирование приближается (которое конечно, если k  ≥ 2). Таким образом, для достаточно больших имеем

При k  ≥ 1 режим распределения количества танков противника m .

При k  ≥ 2 достоверность того, что количество танков противника равно , равна

Достоверность того, что количество вражеских танков N больше n , равна

Среднее значение и стандартное отклонение

Для k  ≥ 3 N имеет конечное среднее значение :

Для k  ≥ 4 N имеет конечное стандартное отклонение :

Эти формулы выведены ниже.

Формула суммирования

Следующее тождество с биномиальным коэффициентом используется ниже для упрощения ряда , относящегося к проблеме немецких танков.

Эта формула суммы в некоторой степени аналогична интегральной формуле

Эти формулы применимы для k  > 1.

Один танк

Случайное наблюдение за одним танком из популяции из n танков дает серийный номер m с вероятностью 1/ n для m  ≤  n и нулевой вероятностью для m  >  n . Используя обозначение скобок Айверсона , это записывается

Это условная функция распределения вероятности по массе .

Если рассматривать функцию n при фиксированном m, то это функция правдоподобия.

Оценка максимального правдоподобия для общего количества резервуаров равна N 0  =  m , что явно является необъективной оценкой, поскольку истинное число может быть больше, потенциально намного больше, но не может быть меньше.

Предельная вероятность (т. е. маргинальная по всем моделям) бесконечна и является хвостом гармонического ряда .

но

где номер гармоники .

Функция распределения массы доверия зависит от априорного предела :

Среднее значение

Два танка

Если наблюдаются два танка, а не один, то вероятность того, что больший из двух наблюдаемых серийных номеров равен m , равна

Если рассматривать функцию n при фиксированном m , то это функция правдоподобия.

Общая вероятность равна

а функция распределения по массе доверия равна

Медиана удовлетворяет _

так

и поэтому медиана

но среднее значение бесконечно

Много танков

Функция распределения массы доверия

Условная вероятность того, что наибольшее из k наблюдений, взятых из порядковых номеров {1,..., n }, равно m , равна

Функция правдоподобия n — это то же выражение

Полная вероятность конечна для k ≥ 2:

Функция распределения массы доверия равна

Дополнительная кумулятивная функция распределения — это вероятность того, что N > x

Кумулятивная функция распределения – это вероятность того, что Nx

Порядок величины

Порядок количества танков противника равен

Статистическая неопределенность

Статистическая неопределенность — это стандартное отклонение , удовлетворяющее уравнению

Так

и

Отношение дисперсии к среднему просто

Смотрите также

дальнейшее чтение

Примечания

  1. В заявлении о политике Сухопутных бронетанковых войск от ноября 1943 года делается вывод: «Рекомендация об ограничении количества танков с 90-мм пушкой не поддерживается по следующим причинам: Танк М4 широко провозглашается лучшим танком на поле боя сегодня. ...Похоже, что наши войска не боятся немецкого танка Mark VI (Тигр). Для танка Т26 не может быть иного основания, кроме концепции дуэли танк против танка, которая считается необоснованным и ненужным». [1]
  2. ^ Нижняя граница была неизвестна, но для упрощения обсуждения эта деталь обычно опускается, считая нижнюю границу известной равной 1.
  3. ^ Ruggles & Brodie - это в основном практический анализ и резюме, а не математический - проблема оценки упоминается только в сноске 3 на странице 82, где они оценивают максимум как «выборочный максимум + средний разрыв».
  4. ^ Как обсуждалось в разделе «Атака дня рождения» , можно ожидать столкновения после чисел 1,25 H , если выбирать из H возможных выходов. Этот квадратный корень соответствует половине цифр. Например, в любой системе счисления квадратный корень из 100-значного числа примерно равен 50-значному числу.
  5. ^ В непрерывном распределении нет члена -1.
  6. ^ Учитывая определенный набор наблюдений, этот набор, скорее всего, произойдет, если максимум совокупности является максимумом выборки, а не более высоким значением (оно не может быть ниже).
  7. ^ Максимум выборки никогда не превышает максимум совокупности, но может быть меньше, следовательно, это смещенная оценка : она имеет тенденцию недооценивать максимум совокупности.
  8. ^ Например, разрыв между 2 и 7 составляет (7 - 2) - 1 = 4, состоящий из 3, 4, 5 и 6.

Рекомендации

  1. ^ Заявление о политике AGF. Начальник штаба АГФ. Ноябрь 1943 года. МХИ.
  2. ^ Рагглз и Броди, 1947, стр. 73–74.
  3. ^ ab «Гэвин Дэвис занимается математикой - Как статистическая формула выиграла войну». Хранитель . 20 июля 2006 г. Проверено 6 июля 2014 г.
  4. Мэтьюз, Роберт (23 мая 1998 г.), «Сыщики данных идут на войну, боковая панель в статье «Скрытые истины»», New Scientist , заархивировано из оригинала 18 апреля 2001 г.
  5. Боб Каррутерс (1 марта 2012 г.). Пантера V в бою. Книги Коды. стр. 94–. ISBN 978-1-908538-15-4.
  6. ^ Рагглс и Броди, 1947, стр. 82–83.
  7. ^ Рагглс и Броди, 1947, с. 89.
  8. ^ Рагглс и Броди, 1947, стр. 90–91.
  9. ^ Волц 2008.
  10. ^ abc Джонсон 1994.
  11. ^ «Сколько компьютеров Commodore 64 было действительно продано?» pagetable.com . 1 февраля 2011 года. Архивировано из оригинала 6 марта 2016 года . Проверено 6 июля 2014 г.
  12. ^ «Ракеты и ракеты». www.spaceline.org .
  13. ^ Джойс, Смарт. «Немецкая танковая проблема». Средняя школа Логана . Архивировано из оригинала 24 апреля 2012 года . Проверено 8 июля 2014 г.
  14. ^ Саймон, Кори (2023). «Байесовский подход к проблеме немецких танков». Математический интеллект . arXiv : 2301.00046 . дои : 10.1007/s00283-023-10274-6 .
  15. ^ Хёле, М.; Хелд, Л. (2006). «Байесовская оценка численности населения» (PDF) . Технический отчет SFB 386, № 399, Статистический факультет Мюнхенского университета . Проверено 17 апреля 2016 г.

Цитируемые работы