Просмотрщик Google Ngram

Google Ngram Viewer или Google Books Ngram Viewer — это онлайн-поисковая система , которая отображает частоты любого набора поисковых строк с использованием годового подсчета n -грамм , обнаруженных в печатных источниках, опубликованных в период с 1500 по 2019 год ^[1]^[2]^[3]^[4] в текстовых корпусах Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. ^[2]^[5] Существуют также некоторые специализированные корпуса английского языка, такие как американский английский, британский английский и английская художественная литература. ^[6]

Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину. ^[5] n - граммы сопоставляются с текстом в выбранном корпусе, при необходимости с использованием орфографии с учетом регистра (которая сравнивает точное использование заглавных букв), ^[7] и, если они встречаются в 40 или более книгах, затем отображаются как график. ^[8] Google Ngram Viewer поддерживает поиск по частям речи и подстановочным знакам . ^[6] Он регулярно используется в исследованиях. ^[9]^[10]

История

Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. ^[2]^[3] Она была вдохновлена прототипом под названием «Книжный червь», созданным Жаном-Батистом Мишелем и Эрезом Эйденом из Гарвардской культурной обсерватории , Юань Шеном из Массачусетского технологического института . и Стивен Пинкер . ^[11]

Ngram Viewer изначально был основан на издании Google Books Ngram Corpus 2009 года. По состоянию на июль 2020 года ^{[обновлять]}программа поддерживает корпорации 2009, 2012 и 2019 годов.

Эксплуатация и ограничения

Запятые разделяют введенные пользователем условия поиска, указывая каждое отдельное слово или фразу, которую нужно найти. ^[8] Ngram Viewer возвращает построенную линейную диаграмму .

В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализуются на относительном уровне по количеству книг, опубликованных в каждом году. ^[8]

Из-за ограничений размера базы данных Ngram в базе данных индексируются только совпадения, найденные как минимум в 40 книгах. ^[8]

Ограничения

Набор данных подвергся критике за то, что он основан на неточном распознавании текста , переизбытке научной литературы, а также за включение большого количества неправильно датированных и классифицированных текстов. ^[12]^[13] Из-за этих ошибок, а также из-за того, что он не контролируется на предмет предвзятости ^[14] (например, из-за увеличения количества научной литературы, из-за чего популярность других терминов снижается), использовать этот корпус рискованно. изучать язык или проверять теории. ^[15] Поскольку набор данных не включает метаданные , он может не отражать общие лингвистические или культурные изменения ^[16] и может лишь намекать на такой эффект.

Были предложены рекомендации по проведению исследований с данными Google Ngram, которые решают многие из проблем, обсуждавшихся выше. ^[17]

проблемы с распознаванием символов

Оптическое распознавание символов (OCR) не всегда надежно, и некоторые символы могут сканироваться неправильно. В частности, системные ошибки, такие как путаница s и f в текстах до XIX века (из-за использования ſ , длинного s , внешне похожего на f ), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты надежны, начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только начиная с 1970 года, а более ранние части корпуса вообще не показывают результатов для общих терминов. и данные за несколько лет, содержащие более 50% шума. ^[18]^[19]

Смотрите также

Библиография

Лин, Юрий; и другие. (июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книги» (PDF) . Материалы 50-го ежегодного собрания . Демонстрационные статьи. 2 . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 169–174. 2390499. Технический документ , представляющий издание Google Books Ngram Corpus 2012 г.

Внешние ссылки

Официальный веб-сайт