Программное обеспечение для управления корпусами и анализа текста
Sketch Engine — это программное обеспечение для управления корпусами и анализа текста , разработанное Lexical Computing с 2003 года. Его цель — дать возможность людям, изучающим языковое поведение ( лексикографам , исследователям корпусной лингвистики , переводчикам или изучающим языки ), осуществлять поиск в больших текстовых коллекциях в соответствии со сложными и лингвистически мотивированными запросами. Sketch Engine получил свое название в честь одной из ключевых функций — набросков слов : одностраничных, автоматических, полученных из корпуса резюме грамматического и коллокационного поведения слова. [2] В настоящее время он поддерживает и предоставляет корпуса на более чем 90 языках. [3]
История развития
Sketch Engine — продукт Lexical Computing, компании, основанной в 2003 году лексикографом и исследователем Адамом Килгаррифом . [4] Он начал сотрудничество с Павлом Рыхлы, ученым-компьютерщиком, работающим в Центре обработки естественного языка Университета Масарика , [5] и разработчиком Manatee и Bonito (двух основных частей программного пакета). Килгарриф также представил концепцию набросков слов .
С тех пор Sketch Engine является коммерческим программным обеспечением, однако все основные функции Manatee и Bonito, разработанные к 2003 году (и расширенные с тех пор), свободно доступны по лицензии GPL в составе пакета NoSketch Engine. [6]
Функции
Список инструментов, доступных в Sketch Engine:
Эскизы слов – одностраничное автоматическое резюме грамматического и словосочетательного поведения слова.
Различие в схемах слов – сравнивает и сопоставляет два слова, анализируя их сочетания.
Дистрибутивный тезаурус – автоматизированный тезаурус для поиска слов со схожим значением или встречающихся в том же/похожем контексте.
Поиск соответствия – находит вхождения словоформы , леммы , фразы, тега или сложной структуры.
Поиск словосочетаний – анализ совместного употребления слов, отображающий наиболее часто встречающиеся слова (для искомого слова), которые можно рассматривать как кандидатов на словосочетания.
Списки слов – генерирует списки частот, которые можно фильтровать по сложным критериям.
Терминология / Извлечение ключевых слов (как одноязычных, так и двуязычных) – автоматическое извлечение ключевых слов и многословных терминов из текстов (на основе подсчета частотности и лингвистических критериев)
Диахронический анализ ( Тенденции ) [7] – выявление слов, частота употребления которых меняется с течением времени (показать трендовые слова)
Анализ типа текста – статистика метаданных в корпусе
Извлечение ключевых слов и терминологии
Sketch Engine может выполнять автоматическое извлечение терминов , определяя слова, типичные для определенного корпуса, документа или текста. Отдельные слова и многословные единицы могут быть извлечены из одноязычных или двуязычных текстов. Функция извлечения терминологии предоставляет список соответствующих терминов на основе сравнения с большим корпусом общего языка. Эта функциональность также доступна как отдельная служба под названием OneClick Terms со специальным интерфейсом. [8]
СКЕЛЛ
Бесплатный веб-сервис на основе Sketch Engine, предназначенный для изучающих языки и преподавателей, называется SKELL (ранее SkELL ). Он использует собственную функцию оценки GDEX (Good Dictionary Examples) Sketch Engine для предоставления аутентичных примеров предложений для определенных целевых слов. Результаты извлекаются из специального корпуса высококачественных текстов, охватывающих повседневный, стандартный, формальный и профессиональный язык, и отображаются в виде конкорданса . SKELL также включает упрощенные версии функций эскиза и тезауруса Sketch Engine . [9]
Было высказано предположение, что SKELL можно использовать, например, для того, чтобы помочь студентам понять значение и/или использование слова или фразы; помочь учителям, желающим использовать примеры предложений в классе; обнаружить и исследовать сочетания слов ; создать упражнения по заполнению пробелов ; научить различным видам омонимов и многозначных слов . [10] [11] SKELL был впервые представлен в 2014 году, когда поддерживался только английский язык . [9] Позже была добавлена поддержка для русского , [12] чешского , [13] немецкого , [14] итальянского [15] и эстонского языков . [16]
Список текстовых корпусов
Sketch Engine предоставляет доступ к более чем 700 текстовым корпусам. Существуют как одноязычные, так и многоязычные корпуса разных размеров (от тысяч слов до 60 миллиардов слов) и различных источников (например, веб, книги, субтитры, юридические документы). Список корпусов включает British National Corpus , Brown Corpus , Cambridge Academic English Corpus и Cambridge Learner Corpus, корпусы CHILDES детского языка, OpenSubtitles (набор из 60 параллельных корпусов), 24 многоязычных корпуса документов EUR-Lex , TenTen Corpus Family (многомиллиардные веб-корпуса) и Trends corpora (мониторинг корпусов с ежедневными обновлениями).
Архитектура
Sketch Engine состоит из трех основных компонентов: базовой системы управления базами данных Manatee, веб-интерфейса поиска Bonito и веб-интерфейса для создания и управления корпусами Corpus Architect. [17]
Ламантин
Manatee — это система управления базами данных , специально разработанная для эффективной индексации больших текстовых корпусов. Она основана на идее инвертированной индексации (сохранение индекса всех позиций данного слова в тексте). Она использовалась для индексации текстовых корпусов, содержащих десятки миллиардов слов. [18]
Поиск корпусов, индексированных Manatee, выполняется путем формулирования запросов на языке корпусных запросов (CQL). [19]
Manatee написан на C++ и предлагает API для ряда других языков программирования, включая Python , Java , Perl и Ruby . Недавно он был переписан на Go для более быстрой обработки корпусных запросов. [20]
Бонито
Bonito — это веб-интерфейс для Manatee, предоставляющий доступ к поиску по корпусу. В клиент-серверной модели Manatee является сервером, а Bonito играет роль клиента. Он написан на Python . [17]
Корпус Архитектор
Corpus Architect — веб-интерфейс, предоставляющий функции построения и управления корпусами. Он также написан на Python .
^ Байса, Вит (2017). «Упрощение извлечения терминологии: термины OneClick» (PDF) . Труды 9-й Международной конференции по корпусной лингвистике .
^ ab Baisa, Vít; Suchomel, Vít (2014). "SkELL:Web Interface for English Language Learning" (PDF) . Восьмой семинар по последним достижениям в обработке естественного языка славянского происхождения . NLP-консалтинг: 63–70.
^ Браун, Майкл Х. (2016-04-07). "SkELL: Простота использования для учителей и студентов". Корпусная лингвистика 4 EFL . Получено 2018-12-03 .
^ Браун, Майкл Х. (2016-04-19). "SkELL: Омонимия и полисемия". Корпусная лингвистика 4 EFL . Получено 2018-12-03 .
^ Валентина, А., Витальевна, БО, Малолетняя, А. П., Ольга, К., & Вит, Б. (2016). RuSkELL: Онлайн-инструмент для изучения русского языка. В трудах XVII Международного конгресса EURALEX. Лексикография и языковое разнообразие (6–10 сентября 2016 г.) (стр. 292–300). Тбилисский государственный университет имени Иванэ Джавахишвили.
^ Цукр, Михал (2017). Český korpus příkladových vět (Чешский корпус примеров предложений) (магистерская диссертация) (на чешском языке). Брно: Масариков университет , факультет искусств . Проверено 22 июня 2017 г.
^ "deSkELL – немецкий корпус для SkELL | Sketch Engine". www.sketchengine.eu . Получено 2018-12-03 .
^ "itSkELL – итальянский корпус для SkELL | Sketch Engine". www.sketchengine.eu . Получено 2018-12-03 .
^ "etSkELL – Эстонский корпус для SkELL | Sketch Engine". www.sketchengine.eu . Получено 2018-12-03 .
^ ab Rychlý, Pavel (2007). «Manatee/bonito–a modular corpus manager» (PDF) . 1-й семинар по последним достижениям в обработке естественного языка славянских текстов : 65–70.
^ Помикалек, Ян; Якубичек, Милош; Рыхлый, Павел (2012). «Создание корпуса английского языка из 70 миллиардов слов с помощью ClueWeb» (PDF) . Материалы Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12) .
^ "CQL – Corpus Query Language". Sketch Engine . Lexical Computing CZ sro 15 мая 2015 г. Получено 22 января 2018 г.
^ Рыхли, Павел; Рабара, Радослав (2015). «Параллельная обработка запросов к текстовому корпусу» (PDF) . Семинар по последним достижениям в обработке естественного славянского языка : 49–58.
^ «Использование вычислительной лексикографии для создания словарей с помощью Sketch Engine». Исследования случаев воздействия REF . Университет Брайтона . Получено 18 апреля 2015 г.
Дальнейшее чтение
Томас, Джеймс (март 2016 г.). Discovering English with Sketch Engine: корпусный подход к изучению языка. Рабочая тетрадь и глоссарий. Брно: Versatile. ISBN 9788026095798.
Внешние ссылки
На Викискладе есть медиафайлы по теме Sketch Engine .
Сайт Sketch Engine
Список корпусов, доступных в Sketch Engine
Термины OneClick – онлайн-экстрактор терминов с технологией извлечения терминов от Sketch Engine