stringtranslate.com

Эскизный движок

Sketch Engine — это программное обеспечение для управления корпусами и анализа текста , разработанное Lexical Computing с 2003 года. Его цель — дать возможность людям, изучающим языковое поведение ( лексикографам , исследователям корпусной лингвистики , переводчикам или изучающим языки ), осуществлять поиск в больших текстовых коллекциях в соответствии со сложными и лингвистически мотивированными запросами. Sketch Engine получил свое название в честь одной из ключевых функций — набросков слов : одностраничных, автоматических, полученных из корпуса резюме грамматического и коллокационного поведения слова. [2] В настоящее время он поддерживает и предоставляет корпуса на более чем 90 языках. [3]

История развития

Sketch Engine — продукт Lexical Computing, компании, основанной в 2003 году лексикографом и исследователем Адамом Килгаррифом . [4] Он начал сотрудничество с Павлом Рыхлы, ученым-компьютерщиком, работающим в Центре обработки естественного языка Университета Масарика , [5] и разработчиком Manatee и Bonito (двух основных частей программного пакета). Килгарриф также представил концепцию набросков слов .

С тех пор Sketch Engine является коммерческим программным обеспечением, однако все основные функции Manatee и Bonito, разработанные к 2003 году (и расширенные с тех пор), свободно доступны по лицензии GPL в составе пакета NoSketch Engine. [6]

Функции

Список инструментов, доступных в Sketch Engine:

Извлечение ключевых слов и терминологии

Sketch Engine может выполнять автоматическое извлечение терминов , определяя слова, типичные для определенного корпуса, документа или текста. Отдельные слова и многословные единицы могут быть извлечены из одноязычных или двуязычных текстов. Функция извлечения терминологии предоставляет список соответствующих терминов на основе сравнения с большим корпусом общего языка. Эта функциональность также доступна как отдельная служба под названием OneClick Terms со специальным интерфейсом. [8]

СКЕЛЛ

Бесплатный веб-сервис на основе Sketch Engine, предназначенный для изучающих языки и преподавателей, называется SKELL (ранее SkELL ). Он использует собственную функцию оценки GDEX (Good Dictionary Examples) Sketch Engine для предоставления аутентичных примеров предложений для определенных целевых слов. Результаты извлекаются из специального корпуса высококачественных текстов, охватывающих повседневный, стандартный, формальный и профессиональный язык, и отображаются в виде конкорданса . SKELL также включает упрощенные версии функций эскиза и тезауруса Sketch Engine . [9]

Было высказано предположение, что SKELL можно использовать, например, для того, чтобы помочь студентам понять значение и/или использование слова или фразы; помочь учителям, желающим использовать примеры предложений в классе; обнаружить и исследовать сочетания слов ; создать упражнения по заполнению пробелов ; научить различным видам омонимов и многозначных слов . [10] [11] SKELL был впервые представлен в 2014 году, когда поддерживался только английский язык . [9] Позже была добавлена ​​поддержка для русского , [12] чешского , [13] немецкого , [14] итальянского [15] и эстонского языков . [16]

Список текстовых корпусов

Sketch Engine предоставляет доступ к более чем 700 текстовым корпусам. Существуют как одноязычные, так и многоязычные корпуса разных размеров (от тысяч слов до 60 миллиардов слов) и различных источников (например, веб, книги, субтитры, юридические документы). Список корпусов включает British National Corpus , Brown Corpus , Cambridge Academic English Corpus и Cambridge Learner Corpus, корпусы CHILDES детского языка, OpenSubtitles (набор из 60 параллельных корпусов), 24 многоязычных корпуса документов EUR-Lex , TenTen Corpus Family (многомиллиардные веб-корпуса) и Trends corpora (мониторинг корпусов с ежедневными обновлениями).

Архитектура

Страница тезауруса Sketch Engine
Тезаурусное облако леммы работает в Sketch Engine

Sketch Engine состоит из трех основных компонентов: базовой системы управления базами данных Manatee, веб-интерфейса поиска Bonito и веб-интерфейса для создания и управления корпусами Corpus Architect. [17]

Ламантин

Manatee — это система управления базами данных , специально разработанная для эффективной индексации больших текстовых корпусов. Она основана на идее инвертированной индексации (сохранение индекса всех позиций данного слова в тексте). Она использовалась для индексации текстовых корпусов, содержащих десятки миллиардов слов. [18]

Поиск корпусов, индексированных Manatee, выполняется путем формулирования запросов на языке корпусных запросов (CQL). ​​[19]

Manatee написан на C++ и предлагает API для ряда других языков программирования, включая Python , Java , Perl и Ruby . Недавно он был переписан на Go для более быстрой обработки корпусных запросов. [20]

Бонито

Bonito — это веб-интерфейс для Manatee, предоставляющий доступ к поиску по корпусу. В клиент-серверной модели Manatee является сервером, а Bonito играет роль клиента. Он написан на Python . [17]

Корпус Архитектор

Corpus Architect — веб-интерфейс, предоставляющий функции построения и управления корпусами. Он также написан на Python .

Приложения

Sketch Engine использовался крупными британскими и другими издательствами для создания словарей, таких как Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press или Shogakukan . Четыре из пяти крупнейших издательств словарей в Великобритании используют Sketch Engine. [21]

Ссылки

  1. ^ Поиск в Companies House в регистраторе компаний Соединенного Королевства ( Название компании: LEXICAL COMPUTING LIMITED или номер компании: 04841901)
  2. ^ Килгаррифф, Адам; Байса, Вит; Бушта, Ян; Якубичек, Милош; Коварж, Войтех; Мишельфейт, Ян; Рыхлый, Павел; Сухомель, Вит (10 июля 2014 г.). «Sketch Engine: десять лет спустя». Лексикография . 1 (1): 7–36. дои : 10.1007/s40607-014-0009-9 . ISSN  2197-4292.
  3. ^ "Языки в Sketch Engine". Sketch Engine . Lexical Computing CZ sro 7 июня 2016 г. Получено 22 января 2018 г.
  4. ^ Домашняя страница Адама Килгарриффа
  5. ^ Центр обработки естественного языка, Университет Масарика
  6. ^ NoSketch-движок
  7. ^ Килгаррифф, Адам; Герман, Ондржей; Бушта, Ян; Рыхлый, Павел; Якубичек, Милош (2015). «ДИАКРАН: основа диахронического анализа» (PDF) . Корпусная лингвистика 2015 : 65–70.
  8. ^ Байса, Вит (2017). «Упрощение извлечения терминологии: термины OneClick» (PDF) . Труды 9-й Международной конференции по корпусной лингвистике .
  9. ^ ab Baisa, Vít; Suchomel, Vít (2014). "SkELL:Web Interface for English Language Learning" (PDF) . Восьмой семинар по последним достижениям в обработке естественного языка славянского происхождения . NLP-консалтинг: 63–70.
  10. ^ Браун, Майкл Х. (2016-04-07). "SkELL: Простота использования для учителей и студентов". Корпусная лингвистика 4 EFL . Получено 2018-12-03 .
  11. ^ Браун, Майкл Х. (2016-04-19). "SkELL: Омонимия и полисемия". Корпусная лингвистика 4 EFL . Получено 2018-12-03 .
  12. ^ Валентина, А., Витальевна, БО, Малолетняя, А. П., Ольга, К., & Вит, Б. (2016). RuSkELL: Онлайн-инструмент для изучения русского языка. В трудах XVII Международного конгресса EURALEX. Лексикография и языковое разнообразие (6–10 сентября 2016 г.) (стр. 292–300). Тбилисский государственный университет имени Иванэ Джавахишвили.
  13. ^ Цукр, Михал (2017). Český korpus příkladových vět (Чешский корпус примеров предложений) (магистерская диссертация) (на чешском языке). Брно: Масариков университет , факультет искусств . Проверено 22 июня 2017 г.
  14. ^ "deSkELL – немецкий корпус для SkELL | Sketch Engine". www.sketchengine.eu . Получено 2018-12-03 .
  15. ^ "itSkELL – итальянский корпус для SkELL | Sketch Engine". www.sketchengine.eu . Получено 2018-12-03 .
  16. ^ "etSkELL – Эстонский корпус для SkELL | Sketch Engine". www.sketchengine.eu . Получено 2018-12-03 .
  17. ^ ab Rychlý, Pavel (2007). «Manatee/bonito–a modular corpus manager» (PDF) . 1-й семинар по последним достижениям в обработке естественного языка славянских текстов : 65–70.
  18. ^ Помикалек, Ян; Якубичек, Милош; Рыхлый, Павел (2012). «Создание корпуса английского языка из 70 миллиардов слов с помощью ClueWeb» (PDF) . Материалы Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12) .
  19. ^ "CQL – Corpus Query Language". Sketch Engine . Lexical Computing CZ sro 15 мая 2015 г. Получено 22 января 2018 г.
  20. ^ Рыхли, Павел; Рабара, Радослав (2015). «Параллельная обработка запросов к текстовому корпусу» (PDF) . Семинар по последним достижениям в обработке естественного славянского языка : 49–58.
  21. ^ «Использование вычислительной лексикографии для создания словарей с помощью Sketch Engine». Исследования случаев воздействия REF . Университет Брайтона . Получено 18 апреля 2015 г.

Дальнейшее чтение

Внешние ссылки