stringtranslate.com

Эскизный движок

Sketch Engine — это программное обеспечение для управления корпусами и анализа текста , разработанное компанией Lexical Computing CZ sro с 2003 года. Его цель — дать возможность людям, изучающим языковое поведение ( лексикографам , исследователям корпусной лингвистики , переводчикам или изучающим языки), выполнять поиск в больших коллекциях текстов по сложным и лингвистически мотивированные запросы. Sketch Engine получил свое название в честь одной из ключевых функций — эскизов слов : одностраничных, автоматических, полученных из корпуса сводок грамматического и коллокационного поведения слова. [2] В настоящее время он поддерживает и предоставляет корпуса на более чем 90 языках. [3]

История развития

Sketch Engine — продукт компании Lexical Computing Limited, основанной в 2003 году лексикографом и учёным-исследователем Адамом Килгарриффом . [4] Он начал сотрудничество с Павлом Рыхлым, ученым-компьютерщиком, работающим в Центре обработки естественного языка Масариковского университета , [5] и разработчиком Manatee и Bonito (двух основных частей пакета программного обеспечения), и представил концепцию словесные зарисовки .

С тех пор Sketch Engine стал коммерческим программным обеспечением, однако все основные функции Manatee и Bonito, которые были разработаны к 2003 году (и с тех пор расширены), доступны бесплатно по лицензии GPL в составе пакета NoSketch Engine. [6]

Функции

Список инструментов, доступных в Sketch Engine:

Извлечение ключевых слов и терминологии

Это инструмент автоматического извлечения терминов для определения слов, типичных для определенного корпуса, документа или текста. Он поддерживает извлечение однословных и многословных единиц из одноязычных и двуязычных текстов. Функция извлечения терминологии предоставляет список соответствующих терминов на основе сравнения с большим корпусом общего языка. Этот инструмент также представляет собой отдельный сервис, работающий на условиях OneClick со специальным интерфейсом. [8]

Список корпусов текстов

Sketch Engine предоставляет доступ к более чем 700 текстовым корпусам. Существуют как одноязычные, так и многоязычные языковые корпуса разного размера (от тысячи слов до 60 миллиардов слов) и различных источников (Интернет, книги, субтитры, юридические документы и т. д.). В список корпусов входят Британский национальный корпус , Коричневый корпус , Кембриджский академический корпус английского языка и Кембриджский корпус учащихся, корпуса детского языка CHILDES , OpenSubtitles (набор из 60 параллельных корпусов), 24 многоязычных корпуса документов EUR-Lex , TenTen Corpus Family ( многомиллиардные веб-корпорации), корпорации трендов (отслеживание корпораций с ежедневными обновлениями) и т. д.

Архитектура

Страница тезауруса Sketch Engine
Тезаурусное облако леммы работает в Sketch Engine

Sketch Engine состоит из трех основных компонентов: базовой системы управления базами данных под названием Manatee, интерфейса поиска с веб-интерфейсом под названием Bonito и веб-интерфейса для создания корпуса и управления им под названием Corpus Architect.[9]

ламантин

Manatee — это система управления базами данных , специально разработанная для эффективного индексирования больших текстовых корпусов. В его основе лежит идея инвертированной индексации (сохранение индекса всех позиций данного слова в тексте). Он использовался для индексации текстовых корпусов, содержащих десятки миллиардов слов. [10]

Поиск корпусов, проиндексированных Manatee, осуществляется путем формулирования запросов на языке корпусных запросов (CQL). [11]

Manatee написан на C++ и предлагает API для ряда других языков программирования, включая Python , Java , Perl и Ruby . Недавно его переписали на Go для более быстрой обработки корпусных запросов. [12]

Бонито

Bonito — это веб-интерфейс для Manatee, обеспечивающий доступ к корпусному поиску. В модели клиент-сервер Manatee является сервером, а Bonito играет роль клиента. Он написан на Python . [9]

Корпус Архитектор

Corpus Architect — это веб-интерфейс, обеспечивающий функции создания корпуса и управления им. Он также написан на Python .

Приложения

Sketch Engine использовался крупными британскими и другими издательствами для создания словарей, таких как Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press или Shogakukan , а четыре из пяти крупнейших издателей словарей Великобритании используют Sketch Engine. [13]

Смотрите также

Рекомендации

  1. ^ Регистрационная палата, поиск в реестре компаний Соединенного Королевства ( название компании: LEXICAL COMPUTING LIMITED или номер компании: 04841901).
  2. ^ Килгаррифф, Адам; Байса, Вит; Бушта, Ян; Якубичек, Милош; Коварж, Войтех; Мишельфейт, Ян; Рыхлый, Павел; Сухомель, Вит (10 июля 2014 г.). «Sketch Engine: десять лет спустя». Лексикография . 1 (1): 7–36. дои : 10.1007/s40607-014-0009-9 . ISSN  2197-4292.
  3. ^ «Языки в Sketch Engine». Эскизный движок . Lexical Computing sro 7 июня 2016 г. . Проверено 22 января 2018 г.
  4. ^ Домашняя страница Адама Килгарриффа.
  5. ^ Центр обработки естественного языка, Масариков университет
  6. ^ Движок NoSketch
  7. ^ Килгаррифф, Адам; Герман, Ондржей; Бушта, Ян; Рыхлый, Павел; Якубичек, Милош (2015). «ДИАКРАН: основа диахронического анализа» (PDF) . Корпусная лингвистика 2015 : 65–70.
  8. ^ Байса, Вит (2017). «Упрощение извлечения терминологии: термины OneClick» (PDF) . Материалы 9-й Международной конференции по корпусной лингвистике .
  9. ^ аб Рыхлы, Павел (2007). «Ламантин/бонито – модульный корпусный менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка : 65–70.
  10. ^ Помикалек, Ян; Якубичек, Милош; Рыхлый, Павел (2012). «Создание корпуса английского языка на 70 миллиардов слов с помощью ClueWeb» (PDF) . Материалы Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12) .
  11. ^ «CQL - Язык корпусных запросов» . Эскизный движок . Lexical Computing sro 15 мая 2015 г. . Проверено 22 января 2018 г.
  12. ^ Рыхлый, Павел; Рабара, Радослав (2015). «Параллельная обработка запросов текстового корпуса» (PDF) . Семинар по последним достижениям в обработке славянского естественного языка : 49–58.
  13. ^ «Использование вычислительной лексикографии для создания словарей с помощью Sketch Engine». Примеры воздействия REF . Университет Брайтона . Проверено 18 апреля 2015 г.

Похожие публикации

Внешние ссылки