Идентификация языка

При обработке естественного языка идентификация языка или угадывание языка — это проблема определения того, на каком естественном языке находится данный контент. Вычислительные подходы к этой проблеме рассматривают ее как особый случай категоризации текста , решаемый с помощью различных статистических методов.

Обзор

Существует несколько статистических подходов к идентификации языка, использующих различные методы классификации данных. Один из методов — сравнить сжимаемость текста со сжимаемостью текстов на наборе известных языков. Этот подход известен как измерение расстояния на основе взаимной информации. Тот же метод можно использовать и для эмпирического построения генеалогических деревьев языков, которые точно соответствуют деревьям, построенным историческими методами. ^{[ нужна цитация ]} Измерение расстояния на основе взаимной информации по существу эквивалентно более традиционным методам, основанным на моделях, и обычно не считается ни новым, ни лучшим, чем более простые методы.

Другой метод, описанный Кавнаром и Тренклом (1994) и Даннингом (1994), заключается в создании языковой n-граммной модели из «обучающего текста» для каждого из языков. Эти модели могут быть основаны на символах (Кавнар и Тренкл) или закодированных байтах (Даннинг); в последнем интегрированы идентификация языка и обнаружение кодировки символов . Затем для любого фрагмента текста, который необходимо идентифицировать, создается аналогичная модель, и эта модель сравнивается с каждой сохраненной языковой моделью. Наиболее вероятным является тот язык, модель которого наиболее похожа на модель из текста, который необходимо идентифицировать. Этот подход может быть проблематичным, если входной текст написан на языке, для которого не существует модели. В этом случае метод может вернуть в качестве результата другой, «наиболее похожий» язык. Также проблематичными для любого подхода являются фрагменты входного текста, состоящие из нескольких языков, как это часто бывает в Интернете.

Более современный метод см. в Řehůřek and Kolkus (2009). Этот метод может обнаружить несколько языков в неструктурированном фрагменте текста и надежно работает с короткими текстами, состоящими всего из нескольких слов: с этим сталкиваются подходы с использованием n-грамм .

Более старый статистический метод Грефенштетта был основан на преобладании определенных служебных слов (например, «the» в английском языке).

Распространенный нестатистический интуитивный подход (хотя и весьма неопределенный) заключается в поиске общих комбинаций букв, отличительных диакритических знаков или знаков препинания. ^[1]^[2]

Определение похожих языков

Одним из самых узких мест систем языковой идентификации является различие между близкородственными языками. Подобные языки, такие как болгарский и македонский или индонезийский и малайский, имеют значительное лексическое и структурное совпадение, что затрудняет различие между ними.

В 2014 году была организована совместная задача DSL ^[3] по предоставлению набора данных (Tan et al., 2014), содержащего 13 различных языков (и языковых разновидностей) в шести языковых группах: группа A (боснийский, хорватский, сербский), группа B ( индонезийский, малазийский), группа C (чешский, словацкий), группа D (бразильский португальский, европейский португальский), группа E (полуостровной испанский, аргентинский испанский), группа F (американский английский, британский английский). Лучшая система достигла производительности более 95% результатов (Goutte et al., 2014). Результаты общей задачи DSL описаны в Zampieri et al. 2014.

Программное обеспечение

Apache OpenNLP включает статистический детектор на основе символьных грамм и поставляется с моделью, которая может различать 103 языка.
Apache Tika содержит детектор языков для 18 языков.

Идентификация языка

Обзор

Определение похожих языков

Программное обеспечение

Смотрите также

Рекомендации

Рекомендации