Межъязыковый поиск информации ( CLIR ) — это подполе поиска информации , занимающееся поиском информации, написанной на языке, отличном от языка запроса пользователя. [1]
Термин «межъязыковой поиск информации» имеет множество синонимов, из которых, пожалуй, наиболее частыми являются следующие: межъязыковый поиск информации, транслингвальный поиск информации, многоязычный поиск информации. Термин «многоязычный поиск информации» в более широком смысле относится как к технологии поиска многоязычных коллекций, так и к технологии, которая была перенесена для обработки материалов с одного языка на другой. Термин «многоязычный поиск информации» (MLIR) предполагает изучение систем, которые принимают запросы на информацию на разных языках и возвращают объекты (текст и другие носители) на разных языках, переведенные на язык пользователя. Межъязыковый поиск информации более конкретно относится к случаю использования, когда пользователи формулируют свои информационные потребности на одном языке, а система извлекает соответствующие документы на другом. Для этого большинство систем CLIR используют различные методы перевода. Методы CLIR можно разделить на разные категории в зависимости от разных ресурсов перевода: [2]
Системы CLIR усовершенствовались настолько, что самые точные многоязычные и межъязыковые специальные системы поиска информации сегодня почти так же эффективны, как одноязычные системы. [3] Другие связанные задачи доступа к информации, такие как мониторинг мультимедиа , фильтрация и маршрутизация информации , анализ настроений и извлечение информации , требуют более сложных моделей и, как правило, большей обработки и анализа интересующих информационных элементов. Большая часть этой обработки должна учитывать специфику целевых языков, на которых она развернута.
В основном различные механизмы изменения человеческого языка создают проблемы покрытия для систем поиска информации: тексты в коллекции могут относиться к интересующей теме, но использовать термины или выражения, которые не соответствуют выражению информационной потребности, заданной пользователем. Это может быть верно даже в одноязычном случае, но это особенно верно при межъязыковом поиске информации, когда пользователи могут знать целевой язык лишь в некоторой степени. Было обнаружено, что преимущества технологии CLIR для пользователей с низким или средним уровнем владения целевым языком выше, чем для тех, кто владеет им свободно. [4] Конкретные технологии, используемые для служб CLIR, включают морфологический анализ для обработки изменений , разложения или составного разделения для обработки составных терминов , а также механизмы перевода для перевода запроса с одного языка на другой.
Первый семинар по CLIR прошел в Цюрихе во время конференции SIGIR-96. [5] Семинары проводятся ежегодно с 2000 года на заседаниях Форума межъязыковой оценки (CLEF). Исследователи также собираются на ежегодную конференцию по текстовому поиску (TREC), чтобы обсудить свои выводы относительно различных систем и методов поиска информации, и конференция послужила отправной точкой для подобласти CLIR. [6] Первые эксперименты CLIR были проведены в TREC-6, проходившем в Национальном институте стандартов и технологий (NIST) 19–21 ноября 1997 года. [7]
В Google Search была функция межъязыкового поиска, которая была удалена в 2013 году. [8]