Общий формат для строк соответствия
Key Word In Context ( KWIC ) — наиболее распространённый формат для строк конкорданса . Термин KWIC был придуман Гансом Петером Луном . [1] Система была основана на концепции, называемой «ключевое слово в заголовке» , которая была впервые предложена для библиотек Манчестера в 1864 году Андреа Крестадоро . [2]
Индекс KWIC формируется путем сортировки и выравнивания слов в названии статьи, чтобы каждое слово (кроме стоп-слов ) в названии можно было искать в алфавитном порядке в индексе. [3] Это был полезный метод индексации для технических руководств до того, как компьютерный полнотекстовый поиск стал обычным явлением.
Например, поисковый запрос, включающий все слова в примере определения («KWIC — это аббревиатура от Key Word In Context, наиболее распространенный формат для строк конкорданса») и слоган Википедии на английском языке («the free encyclopedia»), поиск по странице Википедии может привести к индексу KWIC следующим образом. Индекс KWIC обычно использует широкую компоновку, чтобы обеспечить отображение максимальной информации «в контексте» (не показано в следующем примере).
Индекс KWIC является частным случаем переставленного индекса . [4] Этот термин относится к тому факту, что он индексирует все циклические перестановки заголовков. Книги, состоящие из множества коротких разделов с собственными описательными заголовками, в частности, сборники страниц руководств , часто заканчивались переставленным разделом индекса , что позволяло читателю легко находить раздел по любому слову из его заголовка. Эта практика, также известная как «ключевое слово вне контекста» ( KWOC ), больше не распространена.
Ключевое слово в контексте (KWAC)
Ключевое слово в контексте (KWIC)
Ключевое слово вне контекста (KWOC)
Ссылки в литературе
Примечание: Первая ссылка не показывает индекс KWIC, если вы не платите за просмотр статьи. Вторая ссылка вообще не указывает статью.
- Дэвид Л. Парнас использует индекс KWIC в качестве примера того, как выполнять модульное проектирование в своей статье «О критериях, которые следует использовать при разложении систем на модули», доступной в виде классической статьи ACM.
- Кристофер Д. Мэннинг и Хинрих Шютце описывают индекс KWIC и компьютерное согласование в разделе 1.4.5 своей книги « Основы статистической обработки естественного языка ». Кембридж, Массачусетс: MIT Press, 1999. ISBN 9780262133609. Они цитируют статью Х. П. Луна от 1960 года «Указатель ключевых слов в контексте для технической литературы (индекс kwic)».
- Согласно Concordantia et Indices Missalium Romanorum преподобного Джерарда О'Коннора , «большинство конкордансов, созданных в последнее время и с помощью компьютерного программного обеспечения, используют как форматы KWIC (ключевое слово в контексте), так и KWICn (ключевое слово в центре), в которых ключевое слово, обычно выделенное жирным шрифтом, указывается в последовательном месте в ограниченном объеме контекстного текста, т. е. три [или] четыре слова текста до ключевого слова и такой же объем текста после него. Этот формат чрезвычайно полезен тем, что ключевое слово легко идентифицируется вместе с его контекстом. ... Конкорданс Римского Миссала создается в форматах KWIC и KWICn и примечателен тем, что каждая словоформа указывается в том виде, в котором она встречается в тексте, то есть она нелемматизирована ».
Смотрите также
Ссылки
- ^ Мэннинг, CD; Шютце, H. (1999). Основы статистической обработки естественного языка . Издательство MIT. стр. 35.
- ^ «Расширенные методы индексирования и реферирования». Atlantic Publishers & Distributors. 1989. стр. 41. Получено 26 марта 2019 г. – через Google Books.
- ^ "KWIC indexes and concordances". Архивировано из оригинала 2016-06-06 . Получено 2016-06-17 .
- ^ "3. Теория индексации KWIC". Infohost.nmt.edu . Архивировано из оригинала 14 мая 2019 . Получено 26 марта 2019 .