Алгоритм поиска строк

В информатике алгоритмы поиска строк , иногда называемые алгоритмами сопоставления строк , представляют собой важный класс строковых алгоритмов , которые пытаются найти место, где одна или несколько строк (также называемых шаблонами) находятся внутри более крупной строки или текста.

Базовый пример поиска строк — это когда шаблон и искомый текст представляют собой массивы элементов алфавита ( конечного множества ) Σ. Σ может быть алфавитом человеческого языка, например, буквы от A до Z , а другие приложения могут использовать двоичный алфавит (Σ = {0,1}) или алфавит ДНК (Σ = {A,C,G,T}). в биоинформатике .

На практике на метод допустимого алгоритма поиска строк может влиять кодирование строки. В частности, если используется кодировка переменной ширины , поиск N- го символа может занять больше времени, возможно, потребуется время , пропорциональное N. Это может значительно замедлить работу некоторых алгоритмов поиска. Одним из многих возможных решений является поиск последовательности кодовых единиц, но это может привести к ложным совпадениям, если только кодирование специально не предназначено для предотвращения этого. ^{[ нужна цитата ]}

Обзор

Самый простой случай поиска строк включает в себя одну (часто очень длинную) строку, иногда называемую haystack , и одну (часто очень короткую) строку, иногда называемую иголкой . Цель состоит в том, чтобы найти одно или несколько вхождений иглы в стоге сена. Например, можно выполнить поиск с точностью до:

Некоторые книги нужно попробовать, другие — проглотить, а некоторые — пережевать и переварить.

Можно запросить первое вхождение слова «to», которое является четвертым словом; или все вхождения, которых 3; или последнее, то есть пятое слово с конца.

Однако очень часто добавляются различные ограничения. Например, можно захотеть сопоставить «иглу» только в том случае, если она состоит из одного (или нескольких) полных слов - возможно, определяемых как отсутствие других букв, непосредственно прилегающих с обеих сторон. В этом случае поиск по словам «hew» или «low» для приведенного выше примера предложения не будет успешным, даже если эти литеральные строки действительно встречаются.

Другой распространенный пример включает «нормализацию». Во многих случаях поиск такой фразы, как «быть», должен быть успешным даже в тех местах, где между «быть» и «быть» есть что-то еще:

Более одного места
Другие символы «пробела», такие как табуляция, неразрывные пробелы, разрывы строк и т. д.
Реже дефис или мягкий дефис.
В структурированных текстах, тегах или даже произвольно больших, но «круглых» вещах, таких как сноски, номера списков или другие маркеры, встроенные изображения и т. д.

Многие системы символов включают символы, которые являются синонимами (по крайней мере, для некоторых целей):

Алфавиты на основе латиницы различают строчные и прописные буквы, но для многих целей ожидается, что строковый поиск будет игнорировать это различие.
Многие языки включают лигатуры , где один составной символ эквивалентен двум или более другим символам.
Многие системы письма включают диакритические знаки, такие как ударения или гласные , которые могут различаться по своему использованию или иметь различную важность при сопоставлении.
Последовательности ДНК могут включать некодирующие сегменты, которые для некоторых целей можно игнорировать, или полиморфизмы, которые не приводят к изменению кодируемых белков, что может не считаться истинным различием для некоторых других целей.
В некоторых языках есть правила, согласно которым в начале, середине или конце слов должен использоваться другой символ или форма символа.

Наконец, для строк, представляющих естественный язык, задействуются аспекты самого языка. Например, можно захотеть найти все вхождения «слова», несмотря на то, что оно имеет альтернативные варианты написания, префиксы или суффиксы и т. д.

Другой, более сложный тип поиска — это поиск по регулярным выражениям , при котором пользователь создает шаблон символов или других символов, и любое совпадение с шаблоном должно выполнять поиск. Например, чтобы уловить как американское английское слово «color», так и его британский эквивалент «color», вместо поиска двух разных литеральных строк можно использовать регулярное выражение, например:

цвет

где "?" обычно делает предыдущий символ («u») необязательным.

В этой статье в основном обсуждаются алгоритмы для более простых видов поиска строк.

Аналогичная проблема, возникшая в области биоинформатики и геномики, — максимально точное сопоставление (MEM). ^[1] Учитывая две строки, MEM представляют собой общие подстроки, которые нельзя расширить влево или вправо, не вызывая несоответствия. ^[2]

Примеры алгоритмов поиска

Наивный поиск строк

Простой и неэффективный способ увидеть, где одна строка находится внутри другой, — это проверять каждый индекс один за другим. Сначала мы видим, существует ли копия иглы, начинающаяся с первого символа стога сена; если нет, мы смотрим, есть ли копия иглы, начинающаяся со второго символа стога сена, и так далее. В обычном случае нам нужно посмотреть только на один или два символа для каждой неправильной позиции, чтобы увидеть, что это неправильная позиция, поэтому в среднем случае это занимает O ( n + m ) шагов, где n — длина стог сена и m – длина иглы; но в худшем случае поиск строки типа «aaaab» в строке типа «aaaaaaaaab» занимает O ( nm )

Поиск на основе конечного автомата

В этом подходе возврата назад можно избежать за счет построения детерминированного конечного автомата (DFA), который распознает сохраненную строку поиска. Их создание дорого (обычно они создаются с использованием конструкции powerset ), но их очень быстро использовать. Например, DFA , показанный справа, распознает слово «МАМА». На практике этот подход часто обобщается для поиска произвольных регулярных выражений .

Незавершённые версии

Кнут-Моррис-Пратт вычисляет ДКА , который распознает входные данные со строкой, которую нужно найти в качестве суффикса, Бойер-Мур начинает поиск с конца иглы, поэтому обычно на каждом шаге он может перескакивать вперед на всю длину иглы. Баеза-Йейтс отслеживает, были ли предыдущие символы j префиксом строки поиска, и поэтому может быть адаптирован для поиска нечеткой строки . Алгоритм битового ввода представляет собой применение подхода Баеза-Йейтса.

Индексные методы

Алгоритмы более быстрого поиска предварительно обрабатывают текст. После построения индекса подстроки , например суффиксного дерева или суффиксного массива , можно быстро найти вхождения шаблона. Например, суффиксное дерево может быть построено во времени, и все вхождения шаблона могут быть найдены во времени при условии, что алфавит имеет постоянный размер и все внутренние узлы суффиксного дерева знают, какие листья находятся под ними. Последнее можно выполнить, запустив алгоритм DFS из корня суффиксного дерева. $\Theta (n)$ $z$ $O(m)$

Другие варианты

Некоторые методы поиска, например триграммный поиск , предназначены для поиска показателя «близости» между строкой поиска и текстом, а не «совпадения/несовпадения». Иногда их называют «нечеткими» поисками .

Классификация алгоритмов поиска

Классификация по ряду закономерностей

Различные алгоритмы можно классифицировать по количеству используемых шаблонов.

Одношаблонные алгоритмы

В следующей компиляции m — это длина шаблона, n — длина текста, доступного для поиска, а k = |Σ| размер алфавита.

1. ^ Асимптотические времена выражаются с использованием обозначений O, Ω и Θ .

2. ^ Используется для реализации функций поиска memmem и strstr в стандартных библиотеках C glibc ^[6] и musl ^[7] .

3. ^ Может быть расширен для обработки приблизительного сопоставления строк и (потенциально бесконечных) наборов шаблонов, представленных в обычных языках . ^[^{нужна цитата}^]

Алгоритм поиска строк Бойера-Мура был стандартным эталоном в практической литературе по поиску строк. ^[8]

Алгоритмы, использующие конечный набор шаблонов

В следующей компиляции M — длина самого длинного шаблона, m — их общая длина, n — длина текста, доступного для поиска, o — количество вхождений.

Алгоритмы, использующие бесконечное количество шаблонов

Естественно, что в этом случае закономерности невозможно перечислить конечно. Обычно они представлены регулярной грамматикой или регулярным выражением .

Классификация по использованию программ предварительной обработки

Возможны и другие подходы к классификации. Один из наиболее распространенных использует предварительную обработку в качестве основного критерия.

Классификация по стратегиям сопоставления

Другой классифицирует алгоритмы по их стратегии сопоставления: ^[12]

Сначала сопоставьте префикс (Кнут-Моррис-Пратт, Shift-И, Ахо-Корасик)
Сначала сопоставьте суффикс (Бойер – Мур и варианты, Комментц-Вальтер)
Сначала сопоставьте лучший фактор (BNDM, BOM, Set-BOM)
Другая стратегия (Наивная, Рабина-Карпа)

Смотрите также

Внешние ссылки

В Wikimedia Commons есть медиафайлы, связанные с алгоритмом поиска строк .

Огромный список ссылок на соответствие шаблону Последнее обновление: 27.12.2008 20:18:38
Большой (поддерживаемый) список алгоритмов сопоставления строк
Список алгоритмов сопоставления строк NIST
StringSearch — высокопроизводительные алгоритмы сопоставления с образцом на Java — Реализации многих алгоритмов сопоставления строк на Java (BNDM, Boyer-Moore-Horspool, Boyer-Moore-Horspool-Raita, Shift-Or)
StringsAndChars — реализации многих алгоритмов сопоставления строк (для одного и нескольких шаблонов) в Java.
Алгоритмы точного сопоставления строк — анимация на Java, подробное описание и реализация многих алгоритмов на языке C.
(PDF) Улучшенное приблизительное сопоставление одиночных и множественных строк. Архивировано 11 марта 2017 г. на Wayback Machine.
Kalign2: высокопроизводительное множественное выравнивание белковых и нуклеотидных последовательностей, позволяющее использовать внешние функции.
NyoTengu — высокопроизводительный алгоритм сопоставления с образцом на C — Реализация векторных и скалярных алгоритмов сопоставления строк на C