Детерминированный ациклический конечный автомат

Строки «tap», «taps», «top» и «tops» хранятся в префиксном дереве (слева) и DAFSA (справа), EOW означает конец слова.

В информатике детерминированный ациклический конечный автомат ( DAFSA ) ^[1] — это структура данных , которая представляет набор строк и позволяет выполнять операцию запроса, которая проверяет, принадлежит ли заданная строка набору за время, пропорциональное ее длине. Существуют алгоритмы для построения и поддержки таких автоматов ^[1] , сохраняя их минимальность . DAFSA — это повторное открытие структуры данных, называемой направленным ациклическим графом слов (DAWG) ^[2] , хотя такое же название уже было дано другой структуре данных, которая связана с суффиксным автоматом ^[3] .

DAFSA — это особый случай конечного распознавателя , который принимает форму направленного ациклического графа с одной исходной вершиной (вершиной без входящих ребер), в котором каждое ребро графа помечено буквой или символом, и в котором каждая вершина имеет не более одного исходящего ребра для каждой возможной буквы или символа. Строки, представленные DAFSA, образованы символами на путях в графе от исходной вершины до любой вершины стока (вершины без исходящих ребер). Фактически, детерминированный конечный автомат является ациклическим тогда и только тогда, когда он распознает конечное множество строк . ^[1]

История

Блумер и др ^{. [3]} впервые определили термин «направленный ациклический граф слов» (DAWG) в 1983 году. Аппель и Якобсен ^[2] использовали то же название для другой структуры данных в 1988 году. Независимо от более ранней работы, Дачук и др. ^[1] заново открыли последнюю структуру данных в 2000 году, но назвали ее DAFSA.

Сравнение с попытками

Позволяя достигать одних и тех же вершин несколькими путями, DAFSA может использовать значительно меньше вершин, чем сильно связанная структура данных trie . Рассмотрим, например, четыре английских слова "tap", "taps", "top" и "tops". Trie для этих четырех слов будет иметь 12 вершин, по одной для каждой из строк, сформированных как префикс одного из этих слов, или для одного из слов, за которым следует маркер конца строки. Однако DAFSA может представлять эти же четыре слова, используя только шесть вершин v _i для 0 ≤ i ≤ 5 и следующие ребра: ребро от v ₀ до v _1, помеченное как "t", два ребра от v ₁ до v _2, помеченные как "a" и "o", ребро от v ₂ до v _3, помеченное как "p", ребро от v ₃ до v _4, помеченное как "s", и ребра от v ₃ и v ₄ до v _5, помеченные маркером конца строки. Существует компромисс между памятью и функциональностью, поскольку стандартный DAFSA может сказать вам, существует ли в нем слово, но он не может указать вам на вспомогательную информацию об этом слове, тогда как trie может.

Основное различие между DAFSA и trie заключается в устранении избыточности суффиксов и инфиксов при хранении строк . Trie устраняет избыточность префиксов, поскольку все общие префиксы являются общими для строк, например, между doctor и doctorate префикс doctor является общим. В DAFSA общие суффиксы также являются общими для слов, которые имеют одинаковый набор возможных суффиксов друг у друга. Для наборов словарей общих английских слов это приводит к значительному сокращению использования памяти.

Поскольку конечные узлы DAFSA могут быть достигнуты несколькими путями, DAFSA не может напрямую хранить вспомогательную информацию, относящуюся к каждому пути, например, частоту слова в английском языке. Однако, если для каждого узла мы сохраним количество уникальных путей через эту точку в структуре, мы можем использовать его для получения индекса слова или слова по его индексу. ^[4] Затем вспомогательная информация может быть сохранена в массиве.

Ссылки

^ abcd Ян Дачук, Стоян Михов, Брюс Уотсон и Ричард Уотсон (2000). Инкрементальное построение минимальных ациклических конечных автоматов. Computational Linguistics 26 (1):3-16.
^ ab Appel, Andrew; Jacobsen, Guy (1988). Самая быстрая в мире программа для игры в скрэббл. Communications of the ACM, 31 (5): 572–578
^ ab Ансельм Блумер, Джанет Блумер, Анджей Эренфойхт, Дэвид Хаусслер, Росс М. Макконнелл (1983). Конечные автоматы линейного размера для множества всех подслов слова — обзор результатов. Bull Europ. Assoc. Theoret. Comput. Sci., 21 : 12-20
^ Ковальтовски, Т.; CL Луккези (1993). «Применение конечных автоматов, представляющих большие словари». Software-Practice and Experience . 1993 : 15–30. CiteSeerX 10.1.1.56.5272 .

Блумер, А.; Блумер, Дж.; Хаусслер, Д.; Эренфойхт, А.; Чен, М.Т.; Сейферас, Дж. (1985), «Наименьший автомат, распознающий подслова текста», Теоретическая информатика , 40 : 31–55, doi :10.1016/0304-3975(85)90157-4
Аппель, Эндрю; Якобсен, Гай (1988), «Самая быстрая в мире программа для игры в скрэббл» (PDF) , Сообщения ACM , 31 (5): 572–578, doi :10.1145/42411.42420. Одно из первых упоминаний структуры данных.
Jansen, Cees JA; Boekee, Dick E. (1990), «О значении направленного ациклического графа слов в криптологии», Advances in Cryptology – AUSCRYPT '90 , Lecture Notes in Computer Science , т. 453, Springer-Verlag , стр. 318–326, doi :10.1007/BFb0030372, ISBN 3-540-53000-2.
Эпифанио, Кьяра; Миньози, Филиппо; Шалит, Джеффри; Вентурини, Илария (2004), «Графы Штурма и гипотеза Мозера», в Калуде, Кристиан С.; Калуд, Елена; Дайнин, Майкл Дж. (ред.), Развитие теории языка. Труды 8-й международной конференции (DLT 2004), Окленд, Новая Зеландия, декабрь 2004 г. , Конспекты лекций по информатике, том. 3340, Springer-Verlag , стр. 175–187, ISBN. 3-540-24014-4, Збл 1117.68454
Тресольди, Тиаго (2020), «DAFSA: библиотека Python для детерминированных ациклических конечных автоматов», Журнал программного обеспечения с открытым исходным кодом , 5 (46): 1986, doi : 10.21105/joss.01986 , hdl : 21.11116/0000-0005-AD0D-BРеализация Python с открытым исходным кодом .

Внешние ссылки

На Викискладе есть медиафайлы по теме Детерминированный ациклический конечный автомат .

«Направленный ациклический граф слов или DAWG» – Джон Пол Адамовский учит, как построить DAFSA с использованием массива целых чисел (Архивировано 22 июля 2022 г. на Wayback Machine )
«Caroline Word Graph или CWG» – Джон Пол Адамовски учит, как построить хэш-функцию DAFSA, используя новую кодировку с несколькими целочисленными массивами (Архивировано 27 июля 2022 г. на Wayback Machine )