Google Ngram Viewer или Google Books Ngram Viewer — это онлайн-поисковая система , которая отображает частоты любого набора поисковых строк с использованием годового подсчета n -грамм , обнаруженных в печатных источниках, опубликованных в период с 1500 по 2019 год [1] [2] [3] [4] в текстовых корпусах Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. [2] [5] Существуют также некоторые специализированные корпуса английского языка, такие как американский английский, британский английский и английская художественная литература. [6]
Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину. [5] n - граммы сопоставляются с текстом в выбранном корпусе, при необходимости с использованием орфографии с учетом регистра (которая сравнивает точное использование заглавных букв), [7] и, если они встречаются в 40 или более книгах, затем отображаются как график. [8] Google Ngram Viewer поддерживает поиск по частям речи и подстановочным знакам . [6] Он регулярно используется в исследованиях. [9] [10]
Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. [2] [3] Она была вдохновлена прототипом под названием «Книжный червь», созданным Жаном-Батистом Мишелем и Эрезом Эйденом из Гарвардской культурной обсерватории , Юань Шеном из Массачусетского технологического института . и Стивен Пинкер . [11]
Ngram Viewer изначально был основан на издании Google Books Ngram Corpus 2009 года. По состоянию на июль 2020 года [обновлять]программа поддерживает корпорации 2009, 2012 и 2019 годов.
Запятые разделяют введенные пользователем условия поиска, указывая каждое отдельное слово или фразу, которую нужно найти. [8] Ngram Viewer возвращает построенную линейную диаграмму .
В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализуются на относительном уровне по количеству книг, опубликованных в каждом году. [8]
Из-за ограничений размера базы данных Ngram в базе данных индексируются только совпадения, найденные как минимум в 40 книгах. [8]
Набор данных подвергся критике за то, что он основан на неточном распознавании текста , переизбытке научной литературы, а также за включение большого количества неправильно датированных и классифицированных текстов. [12] [13] Из-за этих ошибок, а также из-за того, что он не контролируется на предмет предвзятости [14] (например, из-за увеличения количества научной литературы, из-за чего популярность других терминов снижается), использовать этот корпус рискованно. изучать язык или проверять теории. [15] Поскольку набор данных не включает метаданные , он может не отражать общие лингвистические или культурные изменения [16] и может лишь намекать на такой эффект.
Были предложены рекомендации по проведению исследований с данными Google Ngram, которые решают многие из проблем, обсуждавшихся выше. [17]
Оптическое распознавание символов (OCR) не всегда надежно, и некоторые символы могут сканироваться неправильно. В частности, системные ошибки, такие как путаница s и f в текстах до XIX века (из-за использования ſ , длинного s , внешне похожего на f ), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты надежны, начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только начиная с 1970 года, а более ранние части корпуса вообще не показывают результатов для общих терминов. и данные за несколько лет, содержащие более 50% шума. [18] [19]
Технический документ , представляющий издание Google Books Ngram Corpus 2012 г.