stringtranslate.com

Просмотрщик Google Ngram

Пример запроса Ngram

Google Ngram Viewer или Google Books Ngram Viewer — это онлайн-поисковая система , которая отображает частоты любого набора поисковых строк с использованием годового подсчета n -грамм , обнаруженных в печатных источниках, опубликованных в период с 1500 по 2019 год [1] [2] [3] [4] в текстовых корпусах Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. [2] [5] Существуют также некоторые специализированные корпуса английского языка, такие как американский английский, британский английский и английская художественная литература. [6]

Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину. [5] n - граммы сопоставляются с текстом в выбранном корпусе, при необходимости с использованием орфографии с учетом регистра (которая сравнивает точное использование заглавных букв), [7] и, если они встречаются в 40 или более книгах, затем отображаются как график. [8] Google Ngram Viewer поддерживает поиск по частям речи и подстановочным знакам . [6] Он регулярно используется в исследованиях. [9] [10]

История

Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. [2] [3] Она была вдохновлена ​​прототипом под названием «Книжный червь», созданным Жаном-Батистом Мишелем и Эрезом Эйденом из Гарвардской культурной обсерватории , Юань Шеном из Массачусетского технологического института . и Стивен Пинкер . [11]

Ngram Viewer изначально был основан на издании Google Books Ngram Corpus 2009 года. По состоянию на июль 2020 года программа поддерживает корпорации 2009, 2012 и 2019 годов.

Эксплуатация и ограничения

Запятые разделяют введенные пользователем условия поиска, указывая каждое отдельное слово или фразу, которую нужно найти. [8] Ngram Viewer возвращает построенную линейную диаграмму .

В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализуются на относительном уровне по количеству книг, опубликованных в каждом году. [8]

Из-за ограничений размера базы данных Ngram в базе данных индексируются только совпадения, найденные как минимум в 40 книгах. [8]

Ограничения

Набор данных подвергся критике за то, что он основан на неточном распознавании текста , переизбытке научной литературы, а также за включение большого количества неправильно датированных и классифицированных текстов. [12] [13] Из-за этих ошибок, а также из-за того, что он не контролируется на предмет предвзятости [14] (например, из-за увеличения количества научной литературы, из-за чего популярность других терминов снижается), использовать этот корпус рискованно. изучать язык или проверять теории. [15] Поскольку набор данных не включает метаданные , он может не отражать общие лингвистические или культурные изменения [16] и может лишь намекать на такой эффект.

Были предложены рекомендации по проведению исследований с данными Google Ngram, которые решают многие из проблем, обсуждавшихся выше. [17]

проблемы с распознаванием символов

Оптическое распознавание символов (OCR) не всегда надежно, и некоторые символы могут сканироваться неправильно. В частности, системные ошибки, такие как путаница s и f в текстах до XIX века (из-за использования ſ , длинного s , внешне похожего на f ), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты надежны, начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только начиная с 1970 года, а более ранние части корпуса вообще не показывают результатов для общих терминов. и данные за несколько лет, содержащие более 50% шума. [18] [19]

Смотрите также

Рекомендации

  1. ^ «Количественный анализ культуры с использованием миллионов оцифрованных книг» Дж. Б. Мишель и др., Science 2011, DOI: 10.1126/science.1199644 [1]
  2. ^ abc «База данных Google Ngram отслеживает популярность 500 миллиардов слов» Huffington Post , 17 декабря 2010 г., веб-страница: HP8150.
  3. ^ ab «Google's Ngram Viewer: машина времени для игры слов», Cnet.com, 17 декабря 2010 г., веб-страница: CN93. Архивировано 23 января 2014 г. в Wayback Machine .
  4. ^ @searchliaison (13 июля 2020 г.). «В программу Google Books Ngram Viewer добавлены свежие данные за 2019 год» ( твит ) . Проверено 11 августа 2020 г. - через Twitter .
  5. ^ ab «Программа просмотра Ngram Google Books - Библиотеки Университета Буффало», Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497. Архивировано 2 июля 2013 г. на Wayback Machine.
  6. ^ ab «Информационная страница Google Books Ngram Viewer» .
  7. ^ «Google Ngram Viewer — Google Книги», Books.Google.com, май 2012 г., веб-страница: G-Ngrams.
  8. ^ abcd «Google Ngram Viewer - Google Книги» (Информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info: отмечает биграммы и использование кавычек для слов с апострофами.
  9. ^ Гринфилд, Патрисия М. (сентябрь 2013 г.). «Изменяющаяся психология культуры с 1800 по 2000 годы». Психологическая наука . 24 (9): 1722–1731. дои : 10.1177/0956797613479387. ISSN  0956-7976. PMID  23925305. S2CID  6123553.
  10. ^ Юнес, Надя; Рейпс, Ульф-Дитрих (октябрь 2018 г.). «Изменяющаяся психология культуры в немецкоязычных странах: исследование Google Ngram: МЕНЯЮЩАЯСЯ ПСИХОЛОГИЯ КУЛЬТУРЫ». Международный журнал психологии . 53 : 53–62. дои : 10.1002/ijop.12428. PMID  28474338. S2CID  7440938.
  11. ^ RSA (4 февраля 2010 г.). «Стивен Пинкер – Материал мысли: язык как окно в человеческую природу» – через YouTube.
  12. ^ Google Ngrams: OCR и метаданные, заархивированные 27 апреля 2016 г. на Wayback Machine . РесурсШельф, 19 декабря 2010 г.
  13. Нанберг, Джефф (16 декабря 2010 г.). «Гуманитарные исследования с использованием корпуса Google Books». Архивировано из оригинала 10 марта 2016 года.
  14. ^ Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан; Барра, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: сильные ограничения на выводы социокультурной и лингвистической эволюции». ПЛОС ОДИН . 10 (10): e0137041. arXiv : 1501.00960 . Бибкод : 2015PLoSO..1037041P. дои : 10.1371/journal.pone.0137041 . ПМЦ 4596490 . ПМИД  26445406. 
  15. ^ Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка». ПРОВОДНОЙ . Проверено 24 мая 2017 г.
  16. ^ Коплениг, Александр (2 сентября 2015 г.). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая стипендия в области гуманитарных наук . 32 (1) (опубликовано 01 апреля 2017 г.): 169–188. doi : 10.1093/llc/fqv037. ISSN  2055-7671.
  17. ^ Юнес, Надя; Рейпс, Ульф-Дитрих (22 марта 2019 г.). «Руководство по повышению надежности исследований Google Ngram: данные с точки зрения религии». ПЛОС ОДИН . 14 (3): e0213554. Бибкод : 2019PLoSO..1413554Y. дои : 10.1371/journal.pone.0213554 . ISSN  1932-6203. ПМК 6430395 . ПМИД  30901329. 
  18. ^ Google n-граммы и досовременный китайский язык. digitalsinology.org.
  19. ^ Когда n-граммы портятся. digitalsinology.org.

Библиография

Внешние ссылки