Программное обеспечение для управления корпусом и анализа текста
Sketch Engine — это программное обеспечение для управления корпусами и анализа текста , разработанное компанией Lexical Computing CZ sro с 2003 года. Его цель — дать возможность людям, изучающим языковое поведение ( лексикографам , исследователям корпусной лингвистики , переводчикам или изучающим языки), выполнять поиск в больших коллекциях текстов по сложным и лингвистически мотивированные запросы. Sketch Engine получил свое название в честь одной из ключевых функций — эскизов слов : одностраничных, автоматических, полученных из корпуса сводок грамматического и коллокационного поведения слова. [2] В настоящее время он поддерживает и предоставляет корпуса на более чем 90 языках. [3]
История развития
Sketch Engine — продукт компании Lexical Computing Limited, основанной в 2003 году лексикографом и учёным-исследователем Адамом Килгарриффом . [4] Он начал сотрудничество с Павлом Рыхлым, ученым-компьютерщиком, работающим в Центре обработки естественного языка Масариковского университета , [5] и разработчиком Manatee и Bonito (двух основных частей пакета программного обеспечения), и представил концепцию словесные зарисовки .
С тех пор Sketch Engine стал коммерческим программным обеспечением, однако все основные функции Manatee и Bonito, которые были разработаны к 2003 году (и с тех пор расширены), доступны бесплатно по лицензии GPL в составе пакета NoSketch Engine. [6]
Функции
Список инструментов, доступных в Sketch Engine:
Эскизы слов - одностраничное автоматическое сводное описание грамматического и коллокационного поведения слова.
Разница в словесном эскизе - сравнивает и противопоставляет два слова путем анализа их словосочетания.
Распределительный тезаурус - автоматизированный тезаурус, находящий слова со схожим значением или встречающиеся в одном и том же / похожем контексте.
Поиск по соответствию – находит примеры словоформ, лемм, фраз, тегов или сложных структур.
Поиск словосочетаний - анализ совпадения слов, отображающий наиболее часто встречающиеся слова (по отношению к искомому слову), которые можно рассматривать как кандидаты на словосочетание.
Списки слов — генерирует списки частот, которые можно фильтровать по сложным критериям.
Терминология / Извлечение ключевых слов (как одноязычных, так и двуязычных) – автоматическое извлечение ключевых слов и многословных терминов из текстов (на основе частоты встречаемости и лингвистических критериев)
Диахронический анализ ( Тенденции ) [7] – выявление слов, частота употребления которых претерпевает изменения во времени (показать трендовые слова)
Возможности параллельного корпуса (двуязычного языка) — поиск примеров перевода (корпус EUR-Lex, корпус Europarl , корпус OPUS и т. д.) или построение параллельного корпуса из собственных согласованных текстов.
Анализ типов текста – статистика метаданных в корпусе
Извлечение ключевых слов и терминологии
Это инструмент автоматического извлечения терминов для определения слов, типичных для определенного корпуса, документа или текста. Он поддерживает извлечение однословных и многословных единиц из одноязычных и двуязычных текстов. Функция извлечения терминологии предоставляет список соответствующих терминов на основе сравнения с большим корпусом общего языка. Этот инструмент также представляет собой отдельный сервис, работающий на условиях OneClick со специальным интерфейсом. [8]
Список корпусов текстов
Sketch Engine предоставляет доступ к более чем 700 текстовым корпусам. Существуют как одноязычные, так и многоязычные языковые корпуса разного размера (от тысячи слов до 60 миллиардов слов) и различных источников (Интернет, книги, субтитры, юридические документы и т. д.). В список корпусов входят Британский национальный корпус , Коричневый корпус , Кембриджский академический корпус английского языка и Кембриджский корпус учащихся, корпуса детского языка CHILDES , OpenSubtitles (набор из 60 параллельных корпусов), 24 многоязычных корпуса документов EUR-Lex , TenTen Corpus Family ( многомиллиардные веб-корпорации), корпорации трендов (отслеживание корпораций с ежедневными обновлениями) и т. д.
Архитектура
Тезаурусное облако леммы работает в Sketch Engine
Sketch Engine состоит из трех основных компонентов: базовой системы управления базами данных под названием Manatee, интерфейса поиска с веб-интерфейсом под названием Bonito и веб-интерфейса для создания корпуса и управления им под названием Corpus Architect.[9]
ламантин
Manatee — это система управления базами данных , специально разработанная для эффективного индексирования больших текстовых корпусов. В его основе лежит идея инвертированной индексации (сохранение индекса всех позиций данного слова в тексте). Он использовался для индексации текстовых корпусов, содержащих десятки миллиардов слов. [10]
Поиск корпусов, проиндексированных Manatee, осуществляется путем формулирования запросов на языке корпусных запросов (CQL). [11]
Manatee написан на C++ и предлагает API для ряда других языков программирования, включая Python , Java , Perl и Ruby . Недавно его переписали на Go для более быстрой обработки корпусных запросов. [12]
Бонито
Bonito — это веб-интерфейс для Manatee, обеспечивающий доступ к корпусному поиску. В модели клиент-сервер Manatee является сервером, а Bonito играет роль клиента. Он написан на Python . [9]
Корпус Архитектор
Corpus Architect — это веб-интерфейс, обеспечивающий функции создания корпуса и управления им. Он также написан на Python .
^ Байса, Вит (2017). «Упрощение извлечения терминологии: термины OneClick» (PDF) . Материалы 9-й Международной конференции по корпусной лингвистике .
^ аб Рыхлы, Павел (2007). «Ламантин/бонито – модульный корпусный менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка : 65–70.
^ Помикалек, Ян; Якубичек, Милош; Рыхлый, Павел (2012). «Создание корпуса английского языка на 70 миллиардов слов с помощью ClueWeb» (PDF) . Материалы Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12) .
^ «CQL - Язык корпусных запросов» . Эскизный движок . Lexical Computing sro 15 мая 2015 г. . Проверено 22 января 2018 г.
^ Рыхлый, Павел; Рабара, Радослав (2015). «Параллельная обработка запросов текстового корпуса» (PDF) . Семинар по последним достижениям в обработке славянского естественного языка : 49–58.
^ «Использование вычислительной лексикографии для создания словарей с помощью Sketch Engine». Примеры воздействия REF . Университет Брайтона . Проверено 18 апреля 2015 г.
Похожие публикации
Томас, Джеймс (март 2016 г.). Знакомство с английским языком с помощью Sketch Engine: корпусной подход к изучению языка. Рабочая тетрадь и словарь. Брно: универсальный. ISBN 9788026095798.
Внешние ссылки
Викискладе есть медиафайлы, связанные со Sketch Engine .
Веб-сайт Sketch Engine
Список корпусов, доступных в Sketch Engine
Условия OneClick — онлайн-экстрактор терминов с технологией извлечения терминов из Sketch Engine.