stringtranslate.com

Статистика случайных перестановок

Статистика случайных перестановок , такая как структура цикла случайной перестановки, имеет фундаментальное значение в анализе алгоритмов , особенно алгоритмов сортировки, которые работают со случайными перестановками. Предположим, например, что мы используем quickselect (двоюродный брат quicksort ) для выбора случайного элемента случайной перестановки. Quickselect выполнит частичную сортировку массива, поскольку он разбивает массив в соответствии с опорной точкой. Следовательно, перестановка будет менее неупорядоченной после выполнения quickselect. Количество оставшегося беспорядка можно проанализировать с помощью генерирующих функций. Эти генерирующие функции фундаментальным образом зависят от генерирующих функций статистики случайной перестановки. Следовательно, крайне важно вычислить эти генерирующие функции.

Статья о случайных перестановках содержит введение в случайные перестановки.

Фундаментальное отношение

Перестановки — это наборы помеченных циклов. Используя помеченный случай фундаментальной теоремы Флажоле–Седжвика и записывая для набора перестановок и для набора синглтонов, мы имеем

Переводя в экспоненциальные производящие функции (EGF), мы имеем

где мы использовали тот факт, что EGF комбинаторного вида перестановок (существует n ! перестановок из n элементов) равен

Это уравнение позволяет вывести большое количество статистик перестановок. Во-первых, отбрасывая члены из , т. е. exp, мы можем ограничить количество циклов , которые содержит перестановка, например, ограничивая EGF до мы получаем перестановки, содержащие два цикла. Во-вторых, обратите внимание, что EGF помеченных циклов, т. е. из , возникает из -за того, что существует k ! /  k помеченных циклов. Это означает, что отбрасывая члены из этой производящей функции, мы можем ограничить размер циклов , которые встречаются в перестановке, и получить EGF перестановок, содержащих только циклы заданного размера.

Вместо удаления и выбора циклов можно также присвоить различные веса циклам разного размера. Если — весовая функция, зависящая только от размера цикла k , то для краткости мы пишем

Определив значение b для перестановки как сумму ее значений в циклах, мы можем пометить циклы длины k с помощью u b ( k ) и получить двухпеременную производящую функцию

Это «смешанная» производящая функция: это экспоненциальная производящая функция по z и обычная производящая функция по вторичному параметру u. Дифференцируя и оценивая при u  = 1, имеем

Это функция генерации вероятности ожидания b . Другими словами, коэффициент в этом степенном ряду является ожидаемым значением b при перестановках в , при условии, что каждая перестановка выбирается с одинаковой вероятностью .

В этой статье используется оператор извлечения коэффициентов [ z n ], описанный на странице формальных степенных рядов .

Число перестановок, являющихся инволюциями

Инволюция — это перестановка σ, такая что σ 2 = 1 при композиции перестановок. Из этого следует, что σ может содержать только циклы длины один или два, т.е. экспоненциальная производящая функция g ( z ) этих перестановок равна [1]

Это дает явную формулу для общего числа инволюций среди перестановок σ ∈  S n : [1]

Деление на n ! дает вероятность того, что случайная перестановка является инволюцией. Эти числа известны как телефонные номера .

Число перестановок, которыемкорни единства

Это обобщает концепцию инволюции. Корень m-й степени из единицы — это перестановка σ, такая что σ m = 1 при композиции перестановок. Теперь каждый раз, когда мы применяем σ, мы движемся на один шаг параллельно по всем его циклам. Цикл длины d, примененный d раз, производит тождественную перестановку на d элементах ( d неподвижных точках), и d — наименьшее значение, чтобы сделать это. Следовательно, m должно быть кратно всем размерам цикла d , т. е. единственными возможными циклами являются те, длина которых d является делителем m . Отсюда следует, что EGF g ( x ) этих перестановок равен

Когда m = p , где p — простое число, это упрощается до

Число перестановок порядка точнок

Это можно сделать с помощью инверсии Мёбиуса . Работая с той же концепцией, что и в предыдущей записи, мы замечаем, что комбинаторный вид перестановок, порядок которых делит k, задается как

При переводе в экспоненциальные производящие функции мы получаем ЭФР перестановок, порядок которых делит k , что равно

Теперь мы можем использовать эту производящую функцию для подсчета перестановок порядка точно k . Пусть будет числом перестановок на n , порядок которых точно d , а числом перестановок на n — числом перестановок, порядок которых делит k . Тогда мы имеем

Из инверсии Мёбиуса следует , что

Поэтому у нас есть EGF

Требуемое количество затем определяется как

Эта формула дает, например, для k  = 6 EGF

с последовательностью значений, начинающейся с n  = 5

(последовательность A061121 в OEIS )

Для k  = 8 получаем EGF

с последовательностью значений, начинающейся с n  = 8

(последовательность A061122 в OEIS )

Наконец, для k  = 12 мы получаем EGF

с последовательностью значений, начинающейся с n  = 7

(последовательность A061125 в OEIS )

Число перестановок, являющихся расстройствами

Предположим, что на вечеринке присутствуют n человек, каждый из которых принес зонтик. В конце вечеринки каждый берет зонтик из стопки зонтиков и уходит. Какова вероятность того, что никто не ушел со своим зонтиком? Эта задача эквивалентна подсчету перестановок без неподвижных точек (называемых расстройствами ), и, следовательно, EGF, где мы вычитаем неподвижные точки (циклы длины 1), удаляя член z из фундаментального соотношения, равен

Умножение на суммы коэффициентов , таким образом , общее число расстройств определяется по формуле:

Следовательно, существует около расстройств и вероятность того, что случайная перестановка является расстройством, равна

Этот результат также может быть доказан включением-исключением . Используя множества , где для обозначения множества перестановок, которые фиксируют p , мы имеем

Эта формула подсчитывает количество перестановок, имеющих хотя бы одну неподвижную точку. Мощность следующая:

Следовательно, число перестановок без неподвижной точки равно

или

и у нас есть претензия.

Существует обобщение этих чисел, известное как числа rencontres , то есть число перестановок, содержащих m неподвижных точек. Соответствующий EGF получается путем маркировки циклов размера один переменной u , то есть выбора b ( k ) равным единице для и нулю в противном случае, что дает производящую функцию множества перестановок по числу неподвижных точек:

Из этого следует, что

и, следовательно,

Это сразу подразумевает, что

для больших n , m фиксировано.

Порядок случайной перестановки

Если P — перестановка, то порядок P это наименьшее положительное целое число n, для которого есть тождественная перестановка. Это наименьшее общее кратное длин циклов P.

Теорема Гоха и Шмутца [2] утверждает, что если — ожидаемый порядок случайной перестановки размера n , то

где константа c равна

Расстройства, содержащие четное и нечетное число циклов

Мы можем использовать ту же конструкцию, что и в предыдущем разделе, чтобы вычислить число нарушений, содержащих четное число циклов, и число, содержащее нечетное число циклов. Для этого нам нужно отметить все циклы и вычесть фиксированные точки, что даст

Теперь некоторые очень простые рассуждения показывают, что EGF определяется как

Таким образом, мы имеем

который является

Вычитая из , находим

Разница между этими двумя ( и ) заключается в следующем:

Сто заключенных

Начальник тюрьмы хочет освободить место в своей тюрьме и думает освободить сто заключенных, тем самым освободив сто камер. Поэтому он собирает сто заключенных и просит их сыграть в следующую игру: он выстраивает в ряд сто урн, каждая из которых содержит имя одного заключенного, где имя каждого заключенного встречается ровно один раз. Игра проходит следующим образом: каждому заключенному разрешается заглянуть в пятьдесят урн. Если он или она не найдет своего имени ни в одной из пятидесяти урн, все заключенные будут немедленно казнены, в противном случае игра продолжается. У заключенных есть несколько минут, чтобы выбрать стратегию, зная, что после начала игры они не смогут общаться друг с другом, каким-либо образом помечать урны или перемещать урны или имена внутри них. Выбирая урны наугад, их шансы на выживание почти равны нулю, но есть стратегия, дающая им 30% шансов на выживание, предполагая, что имена назначаются урнам случайным образом — какая она?

Прежде всего, вероятность выживания при использовании случайного выбора равна

так что это определенно непрактичная стратегия.

Стратегия выживания 30% заключается в том, чтобы считать содержимое урн перестановкой заключенных и проходить циклы. Чтобы упростить запись, присвойте каждому заключенному номер, например, отсортировав их имена в алфавитном порядке. После этого урны можно считать содержащими номера, а не имена. Теперь ясно, что содержимое урн определяет перестановку. Первый заключенный открывает первую урну. Если он находит свое имя, он закончил и выживает. В противном случае он открывает урну с номером, который он нашел в первой урне. Процесс повторяется: заключенный открывает урну и выживает, если находит свое имя, в противном случае он открывает урну с только что полученным номером, до предела в пятьдесят урн. Второй заключенный начинает с урны номер два, третий с урны номер три и так далее. Эта стратегия в точности эквивалентна обходу циклов перестановки, представленной урнами. Каждый заключенный начинает с урны с его номером и продолжает проходить свой цикл до предела в пятьдесят урн. Номер урны, содержащей его номер, является прообразом этого номера при перестановке. Следовательно, заключенные выживают, если все циклы перестановки содержат не более пятидесяти элементов. Мы должны показать, что эта вероятность составляет не менее 30%.

Обратите внимание, что это предполагает, что надзиратель выбирает перестановку случайным образом; если надзиратель предвидит эту стратегию, он может просто выбрать перестановку с циклом длиной 51. Чтобы обойти это, заключенные могут заранее договориться о случайной перестановке своих имен.

Мы рассматриваем общий случай заключенных и урн, которые открываются. Сначала мы вычисляем дополнительную вероятность, т.е. что существует цикл из более чем элементов. Имея это в виду, мы вводим

или

так что желаемая вероятность равна

поскольку цикл из более чем элементов обязательно будет уникальным. Используя тот факт, что , мы находим, что

что дает

Наконец, используя интегральную оценку, такую ​​как суммирование Эйлера–Маклорена , или асимптотическое разложение n- го гармонического числа , получаем

так что

или не менее 30%, как заявлено.

Связанный результат заключается в том, что асимптотически ожидаемая длина самого длинного цикла равна λn, где λ — константа Голомба–Дикмана , приблизительно 0,62.

Этот пример принадлежит Анне Галь и Петеру Бро Милтерсену; для получения дополнительной информации см. статью Питера Винклера и обсуждение на Les-Mathematiques.net . Для получения ссылок на эти источники см. ссылки на 100 заключенных.

Вышеуказанное вычисление может быть выполнено более простым и прямым способом, следующим образом: сначала отметим, что перестановка элементов содержит не более одного цикла длины строго большей, чем . Таким образом, если мы обозначим

затем

Для число перестановок, содержащих цикл длины ровно равно

Объяснение: — это число способов выбора элементов, составляющих цикл; — это число способов расположения элементов в цикле; — это число способов перестановки оставшихся элементов. Здесь нет двойного счета, поскольку существует не более одного цикла длины , когда . Таким образом,

Мы приходим к выводу, что

Вариация задачи о 100 заключенных (ключи и ящики)

Существует тесно связанная задача, которая хорошо подходит для представленного здесь метода. Допустим, у вас есть n упорядоченных коробок. Каждая коробка содержит ключ к какой-то другой коробке или, возможно, сама дает перестановку ключей. Вам разрешено выбрать k из этих n коробок одновременно и взломать их одновременно, получив доступ к k ключам. Какова вероятность того, что с помощью этих ключей вы сможете открыть все n коробок, где вы используете найденный ключ, чтобы открыть коробку, к которой он принадлежит, и повторить.

Математическая постановка этой задачи выглядит следующим образом: выбрать случайную перестановку из n элементов и k значений из диапазона от 1 до n , также случайным образом, назвать эти метки. Какова вероятность того, что на каждом цикле перестановки будет хотя бы одна метка? Утверждается, что эта вероятность равна k/n .

Вид перестановок по циклам, где отмечено некоторое непустое подмножество каждого цикла, имеет спецификацию

Индекс во внутренней сумме начинается с единицы, поскольку в каждом цикле должна быть хотя бы одна отметка.

Переводя спецификацию в производящие функции, мы получаем двумерную производящую функцию

Это упрощает

или

Для того, чтобы извлечь коэффициенты из этого перепишем так

Теперь следует, что

и, следовательно,

Разделите на, чтобы получить

Нам не нужно делить на n!, так как z экспоненциален .

Число перестановок, содержащихмциклы

Применяем фундаментальную теорему Флажоле–Седжвика , т.е. теорему о помеченном перечислении с , к множеству

получаем производящую функцию

Термин

дает знаковые числа Стерлинга первого рода и является ЭФР беззнаковых чисел Стерлинга первого рода, т.е.

Мы можем вычислить OGF знаковых чисел Стерлинга для фиксированного n , т.е.

Начать с

что дает

Суммируя это, получаем

Используя формулу, содержащую логарифм для слева, определение справа и биномиальную теорему , получаем

Сравнивая коэффициенты и используя определение биномиального коэффициента , мы окончательно имеем

падающий факториал . Вычисление ОГФ беззнаковых чисел Стирлинга первого рода работает аналогичным образом.

Ожидаемое количество циклов заданного размерам

В этой задаче мы используем двумерную производящую функцию g ( zu ), как описано во введении. Значение b для цикла не размера m равно нулю, и единице для цикла размера m . Мы имеем

или

Это означает, что ожидаемое число циклов размера m в перестановке длины n, меньшей m, равно нулю (очевидно). Случайная перестановка длины не менее m содержит в среднем 1/ m циклов длины m . В частности, случайная перестановка содержит около одной фиксированной точки.

Следовательно, OGF ожидаемого числа циклов длиной меньше или равной m равен

где H mm- й гармонический номер . Следовательно, ожидаемое число циклов длины не более m в случайной перестановке составляет около ln  m .

Моменты неподвижных точек

Смешанная ФГ множества перестановок по числу неподвижных точек равна

Пусть случайная величина X будет числом неподвижных точек случайной перестановки. Используя числа Стерлинга второго рода , мы имеем следующую формулу для m -го момента X :

где - падающий факториал . Используя , имеем

который равен нулю, когда , и единице в противном случае. Следовательно, только члены с вносят вклад в сумму. Это дает

Ожидаемое количество фиксированных точек в случайной перестановке, возведенное в некоторую степеньк

Предположим, вы выбираете случайную перестановку и возводите ее в некоторую степень , с положительным целым числом и спрашиваете об ожидаемом количестве фиксированных точек в результате. Обозначим это значение как .

Для каждого делителя цикла длины, при возведении в степень, получается фиксированная точка. Поэтому нам нужно пометить эти циклы знаком Чтобы проиллюстрировать это, рассмотрим

Мы получаем

который является

Еще раз продолжая, как описано во введении, мы находим

который является

Вывод состоит в том, что для и в среднем имеется четыре неподвижные точки.

Общая процедура такова:

Продолжая как и прежде, мы находим

Мы показали, что значение равно ( количеству делителей числа ) , как только оно начинается с числа для и увеличивается на единицу каждый раз, когда сталкивается с делителем числа до самого себя.

Ожидаемое число циклов любой длины случайной перестановки

Мы строим двумерную производящую функцию , используя , где — единица для всех циклов (каждый цикл вносит единицу в общее число циклов).

Обратите внимание, что имеет закрытую форму

и генерирует беззнаковые числа Стерлинга первого рода .

У нас есть

Следовательно, ожидаемое число циклов равно гармоническому числу , или около .

Число перестановок с циклом длиной большен/2

(Обратите внимание, что в разделе «Сто заключенных» содержится точно такая же задача с очень похожим расчетом, а также более простое элементарное доказательство.)

Начнем еще раз с экспоненциальной производящей функции , на этот раз класса перестановок по размеру, где циклы длиной более отмечены переменной :

Может быть только один цикл длиной больше , поэтому ответ на вопрос дается формулой

или

который является

Показатель степени в члене, возведенном в степень, больше, чем и, следовательно, никакое значение не может внести вклад в

Из этого следует, что ответ:

Сумма имеет альтернативное представление, которое встречается, например, в OEIS OEIS : A024167 .

наконец-то даю

Ожидаемое число транспозиций случайной перестановки

Мы можем использовать разложение перестановки на непересекающиеся циклы, чтобы разложить ее на множители как произведение транспозиций, заменив цикл длины k на k  − 1 транспозиций. Например, цикл разлагается как . Функция для циклов равна и мы получаем

и

Следовательно, ожидаемое число транспозиций равно

где — Гармоническое число . Мы также могли бы получить эту формулу, заметив, что число транспозиций получается путем сложения длин всех циклов (что дает n ) и вычитания одного для каждого цикла (что дает по предыдущему разделу).

Обратите внимание, что снова генерирует беззнаковые числа Стерлинга первого рода , но в обратном порядке. Точнее, мы имеем

Чтобы увидеть это, обратите внимание, что приведенное выше эквивалентно

и что

который, как мы видели, является ЭФР беззнаковых чисел Стирлинга первого рода в разделе о перестановках, состоящих ровно из m циклов.

Ожидаемый размер цикла случайного элемента

Мы выбираем случайный элемент q случайной перестановки и спрашиваем об ожидаемом размере цикла, который содержит q . Здесь функция равна , потому что цикл длины k вносит k элементов, которые находятся в циклах длины k . Обратите внимание, что в отличие от предыдущих вычислений, нам нужно усреднить этот параметр после того, как мы извлечем его из генерирующей функции (делим на n ). Мы имеем

Следовательно, ожидаемая длина цикла, содержащего q, равна

Вероятность того, что случайный элемент лежит в цикле размеромм

Этот средний параметр представляет вероятность того, что если мы снова выберем случайный элемент из случайной перестановки, элемент будет лежать на цикле размера m . Функция равна для и нулю в противном случае, поскольку вносят вклад только циклы длины m , а именно m элементов, которые лежат на цикле длины m . Мы имеем

Отсюда следует, что вероятность того, что случайный элемент лежит в цикле длины m, равна

Вероятность того, что случайное подмножество [н] лежит на том же цикле

Выберите случайное подмножество Q из [ n ], содержащее m элементов и случайную перестановку, и спросите о вероятности того, что все элементы Q лежат в одном цикле. Это еще один средний параметр. Функция b ( k ) равна , поскольку цикл длины k вносит подмножества размера m , где для k < m . Это дает

Усредняя, ​​получаем, что вероятность того, что элементы Q находятся в одном цикле, равна

или

В частности, вероятность того, что два элемента p < q находятся в одном цикле, равна 1/2.

Число перестановок, содержащих четное число четных циклов

Мы можем использовать фундаментальную теорему Флажоле-Седжвика напрямую и вычислить более сложную статистику перестановок. (Проверьте эту страницу для объяснения того, как вычисляются операторы, которые мы будем использовать.) Например, набор перестановок, содержащих четное число четных циклов, задается как

Переводя в экспоненциальные производящие функции (EGF), получаем

или

Это упрощает

или

Это говорит о том, что существует одна перестановка размера ноль, содержащая четное число четных циклов (пустая перестановка, которая содержит ноль циклов четной длины), одна такая перестановка размера один (неподвижная точка, которая также содержит ноль циклов четной длины), и что для существуют такие перестановки.


Перестановки, которые являются квадратами

Рассмотрим, что происходит, когда мы возводим перестановку в квадрат. Неподвижные точки отображаются в неподвижные точки. Нечетные циклы отображаются в нечетные циклы в соответствии один к одному, например, превращается в . Четные циклы разделяются на два и производят пару циклов размером в два раза меньше исходного цикла, например, превращается в . Следовательно, перестановки, которые являются квадратами, могут содержать любое количество нечетных циклов и четное количество циклов размером два, четное количество циклов размером четыре и т. д., и задаются как

что дает EGF

Нечетные инварианты цикла

Типы перестановок, представленные в предыдущих двух разделах, то есть перестановки, содержащие четное число четных циклов, и перестановки, являющиеся квадратами, являются примерами так называемых инвариантов нечетных циклов , изученных Сун и Чжаном (см. внешние ссылки). Термин инвариант нечетного цикла просто означает, что принадлежность к соответствующему комбинаторному классу не зависит от размера и числа нечетных циклов, встречающихся в перестановке. Фактически мы можем доказать, что все инварианты нечетных циклов подчиняются простой рекуррентности, которую мы выведем. Во-первых, вот еще несколько примеров инвариантов нечетных циклов.

Перестановки, в которых сумма длин четных циклов равна шести

Этот класс имеет спецификацию

и производящая функция

Первые несколько значений:

Перестановки, в которых все четные циклы имеют одинаковую длину

Этот класс имеет спецификацию

и производящая функция

Здесь есть семантический нюанс. Мы могли бы считать перестановки, не содержащие четных циклов, принадлежащими к этому классу, поскольку ноль — четный . Первые несколько значений — это

Перестановки, где максимальная длина четного цикла равна четырем

Этот класс имеет спецификацию

и производящая функция

Первые несколько значений:

Рецидив

Внимательно рассмотрите, как построены спецификации компонента четного цикла. Лучше всего рассматривать их в терминах деревьев синтаксического анализа. Эти деревья имеют три уровня. Узлы на самом нижнем уровне представляют собой суммы произведений циклов четной длины синглтона . Узлы на среднем уровне представляют собой ограничения оператора множества. Наконец, узел на верхнем уровне суммирует произведения вкладов со среднего уровня. Обратите внимание, что ограничения оператора множества, примененные к генерирующей функции, которая является четной, сохранят эту особенность, т. е. произведут другую четную генерирующую функцию. Но все входы для операторов множеств являются четными, поскольку они возникают из циклов четной длины. Результатом является то, что все задействованные генерирующие функции имеют вид

где — четная функция. Это означает, что

тоже четный, и, следовательно,

Вычисляя и извлекая коэффициенты, находим, что

что дает повторение

Задача с соревнований Патнэма 2005 года

Ссылка на сайт соревнования Патнэма находится в разделе Внешние ссылки. Задача требует доказательства того, что

где сумма берется по всем перестановкам , — знак , т.е. если четно, а если нечетно, а — число неподвижных точек .

Теперь знак дается формулой

где произведение берется по всем циклам c из , как объяснено, например, на странице о четных и нечетных перестановках .

Поэтому мы рассматриваем комбинаторный класс

где обозначает единицу минус длина способствующего цикла, а обозначает неподвижные точки. Переводя на производящие функции, получаем

или

Теперь у нас есть

и, следовательно, искомое количество определяется как

Выполнив вычисления, получаем

или

Извлекая коэффициенты, находим, что коэффициент равен нулю. Константа равна единице, что не согласуется с формулой (должна быть равна нулю). Для положительных, однако, получаем

или

что является желаемым результатом.

В качестве интересного отступления от темы отметим, что можно использовать для оценки следующего определителя матрицы :

где . Вспомним формулу для определителя:

Теперь значение произведения справа для перестановки равно , где f — число неподвижных точек . Следовательно

что дает

и наконец

Разница между числом циклов в четных и нечетных перестановках

Здесь мы стремимся показать, что эта разница определяется выражением

Напомним, что знак перестановки задается формулой

где произведение пробегает циклы c из непересекающейся композиции циклов .

Отсюда следует, что комбинаторный вид , отражающий знаки и количество циклов множества перестановок, задается выражением

где мы использовали для маркировки знаков и подсчета циклов.

Переводя на производящие функции, мы имеем

Это упрощает

который является

Теперь две производящие функции и четных и нечетных перестановок по количеству циклов задаются как

и

Нам требуется количество

который является

Наконец, извлекая коэффициенты из этой производящей функции, получаем

который является

что в свою очередь

На этом доказательство завершено.

Обобщения

Аналогичная статистика доступна для случайных эндоморфизмов на конечном множестве. [3] [4]

Смотрите также

Ссылки

  1. ^ ab Chowla, S. ; Herstein, IN ; Moore, WK (1951), «О рекурсиях, связанных с симметрическими группами. I», Canadian Journal of Mathematics , 3 : 328–334, doi : 10.4153/CJM-1951-038-3 , MR  0041849, S2CID  123802787
  2. ^ Goh, William MY; Schmutz, Eric (1991). «Ожидаемый порядок случайной перестановки». Бюллетень Лондонского математического общества . 23 (1): 34–42. doi :10.1112/blms/23.1.34. Архивировано из оригинала 25 февраля 2020 г.Альтернативный URL-адрес
  3. ^ Бернард Харрис (1960). «Распределения вероятностей, связанные со случайными отображениями». Ann. Math. Statist . 31 (4): 1045–1062. doi : 10.1214/aoms/1177705677 .
  4. ^ Филипп Флажоле, Эндрю М. Одлизко (1989). Статистика случайного картирования (Отчет об исследовании RR-1114). ИНРИА. инрия-00075445.

Внешние ссылки

100 заключенных