Мишель и Эйден помогли создать проект Google Labs Google Ngram Viewer , который использует n-граммы для анализа цифровой библиотеки Google Books на предмет культурных закономерностей в использовании языка с течением времени.
Поскольку набор данных Google Ngram не является беспристрастной выборкой [5] и не включает метаданные [6] , существует несколько подводных камней при его использовании для изучения языка или популярности терминов. [7] Медицинская литература составляет большую, но меняющуюся долю корпуса [8] , которая не учитывает, как часто литература печатается или читается.
Исследования
В исследовании под названием «Культуромика 2.0 » Калев Х. Литару исследовал архивы новостей, включая печатные и вещательные СМИ (транскрипты телевидения и радио), на предмет слов, которые передавали тон или «настроение», а также географические данные. [10] [11] Исследование задним числом предсказало Арабскую весну 2011 года и успешно оценило окончательное местонахождение Усамы бен Ладена с точностью до 124 миль (200 км). [10] [11]
В статье 2012 года Александра М. Петерсена и соавторов [12] они обнаружили «драматический сдвиг в уровне рождаемости и смертности слов»: [13] Количество смертей увеличилось, а рождаемость замедлилась. Авторы также определили универсальную «переломную точку» в жизненном цикле новых слов примерно через 30–50 лет после их возникновения: они либо входят в долгосрочный лексикон , либо выходят из употребления. [13]
Культуромические подходы были использованы при анализе содержания газет в ряде исследований И. Флаунаса и соавторов. Эти исследования показали макроскопические тенденции в разных новостных агентствах и странах. В 2012 году исследование 2,5 миллионов статей показало, что гендерная предвзятость в освещении новостей зависит от темы и того, как читаемость газетных статей связана с темой. [14] Отдельное исследование тех же исследователей, охватывающее 1,3 миллиона статей из 27 стран, [15] показало макроскопические закономерности в выборе историй для освещения. В частности, страны делали схожий выбор, когда они были связаны экономическими, географическими и культурными связями. Культурные связи были выявлены по сходству голосования на конкурсе песни Евровидение . Это исследование было проведено в широких масштабах с использованием методов статистического машинного перевода , категоризации текста и извлечения информации .
Возможность обнаружения изменений настроения у большой группы населения путем анализа контента Twitter была продемонстрирована в исследовании T. Lansdall-Welfare и соавторов. [16] В исследовании рассматривалось 84 миллиона твитов, созданных более чем 9,8 миллионами пользователей из Соединенного Королевства за период в 31 месяц, что показывает, как изменились общественные настроения в Великобритании с объявлением о сокращении расходов.
В исследовании 2013 года, проведенном С. Судхахаром и соавторами, автоматический анализ текстовых корпусов позволил извлекать субъектов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов из теории сетей для определения ключевых субъектов, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная устойчивость всей сети или центральность определенных узлов. [17]
В исследовании 2014 года, проведенном T Lansdall-Welfare и соавторами, было собрано 5 миллионов новостных статей за 5 лет [18] , а затем проанализировано, чтобы предположить значительное изменение настроений относительно освещения ядерной энергетики, соответствующее катастрофе на Фукусиме . Исследование также извлекло концепции, которые были связаны с ядерной энергетикой до и после катастрофы, объяснив изменение настроений изменением в повествовательном фрейминге.
В 2015 году исследование выявило предвзятость набора данных Google Books, который «страдает от ряда ограничений, делающих его скрытой маской культурной популярности» [5] , и поставило под сомнение значимость многих более ранних результатов.
Культуромические подходы также могут способствовать науке о сохранении природы посредством лучшего понимания взаимоотношений человека и природы, первое исследование было опубликовано МакКаллумом и Бери в 2013 году. [19] Это исследование выявило резкое снижение общественного интереса к проблемам окружающей среды. В 2016 году публикация Ричарда Ладла и его коллег [20] выделила пять ключевых областей, в которых культуромика может быть использована для продвижения практики и науки сохранения природы, включая признание ориентированных на сохранение групп и демонстрацию общественного интереса к природе, выявление символов сохранения, предоставление новых показателей и инструментов для мониторинга окружающей среды в режиме, близком к реальному времени, и для поддержки принятия решений по сохранению, оценки культурного воздействия вмешательств в сохранение, а также формулирования вопросов сохранения и содействия общественному пониманию.
В 2017 году исследование сопоставило боль в суставах с активностью поиска Google и температурой. [21] Хотя исследование и выявило более высокую активность поиска боли в бедре и колене (но не артрита ) при более высоких температурах, оно не контролирует (и не может контролировать) другие соответствующие факторы, такие как активность. Средства массовой информации неверно истолковали это как «развенчание мифа: дождь не усиливает боль в суставах», [22] [23], в то время как авторы предполагают, что наблюдаемая корреляция обусловлена «изменениями в уровнях физической активности». [24]
Критика
Лингвисты и лексикографы выразили скептицизм относительно методов и результатов некоторых из этих исследований, включая исследование Петерсена и др. [25] Другие продемонстрировали предвзятость в наборе данных Ngram. Их результаты «ставят под сомнение подавляющее большинство существующих утверждений, взятых из корпуса Google Books»: [5] «Вместо того, чтобы говорить об общих языковых или культурных изменениях, кажется предпочтительным явно ограничить результаты языковыми или культурными изменениями, «как они представлены в данных Google Ngram» [6], поскольку неясно, что вызвало наблюдаемые изменения в выборке. Фичетола раскритиковал использование Google Trends, предположив, что интерес на самом деле растет. [26] Но в своем опровержении МакКаллум и Бери [27] указали, что в том, что касается государственной политики, пропорциональные данные важны, а абсолютные числа не имеют значения, объяснив, что политика определяется мнением большей части населения, а не абсолютным числом, и решения принимаются в соответствии с влиянием большинства, а не просто количеством голосов.
^ Коэн, Патрисия (16 декабря 2010 г.). «В 500 миллиардах слов: новое окно в культуру». New York Times .
↑ Хейс, Брайан (май–июнь 2011 г.). «Bit Lit». American Scientist . 99 (3): 190. doi :10.1511/2011.90.190. Архивировано из оригинала 2016-10-18 . Получено 2011-09-09 .
^ Летчер, Дэвид У. (6 апреля 2011 г.). «Культоромикс: новый способ увидеть временные изменения в распространенности слов и фраз» (PDF) . Материалы 6-й международной конференции Американского института высшего образования . 4 (1): 228. Архивировано из оригинала (PDF) 3 марта 2016 г. . Получено 9 сентября 2011 г. .
^ Мишель, Жан-Батист; Либерман Эйден, Эрез (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг». Science . 331 (6014): 176–82. doi :10.1126/science.1199644. PMC 3279742 . PMID 21163965.
^ abc Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан (2015-10-07). «Характеристика корпуса Google Books: сильные ограничения выводов о социокультурной и лингвистической эволюции». PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode :2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . ISSN 1932-6203. PMC 4596490 . PMID 26445406.
^ ab Коплениг, Александр (апрель 2017 г.). «Влияние отсутствия метаданных на измерение культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая наука в области гуманитарных наук . 32 (1): 169–188. doi :10.1093/llc/fqv037. ISSN 2055-7671.
^ Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка». WIRED . Получено 24.05.2017 .
^ Сравнение примеров терминов
^ Судхахар , Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2015). «Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа». Большие данные и общество . 2. doi : 10.1177/2053951715572916 . hdl : 2381/31767 . S2CID 62188746.
^ ab Leetaru, Kalev H. (5 сентября 2011 г.). «Культуромика 2.0: прогнозирование крупномасштабного человеческого поведения с использованием тона глобальных новостных СМИ во времени и пространстве». Первый понедельник . 16 (9). doi : 10.5210/fm.v16i9.3663 .
^ ab Quick, Darren (7 сентября 2011 г.). «Исследования культуромики используют четвертьвековое освещение в СМИ для прогнозирования человеческого поведения». Gizmag.com . Получено 9 сентября 2011 г.
^ Петерсен, Александр М. (15 марта 2012 г.). «Статистические законы, управляющие колебаниями в использовании слов от рождения до смерти слов». Scientific Reports . 2 : 313. arXiv : 1107.3707 . Bibcode :2012NatSR...2E.313P. doi :10.1038/srep00313. PMC 3304511 . PMID 22423321.
^ ab "Новая наука о рождении и смерти слов", КРИСТОФЕР ШИ, Wall Street Journal , 16 марта 2012 г.
^ Флаунас, Илиас; Али, Омар; Лансдалл-Велфэр, Томас; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2013). «Методы исследования в эпоху цифровой журналистики». Цифровая журналистика . 1 : 102–116. дои : 10.1080/21670811.2012.714928 . S2CID 61080552.
^ Флаунас, Илиас; Турчи, Марко; Али, Омар; Файсон, Ник; Де Би, Тийл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2010). «Структура медиасферы ЕС». PLOS ONE . 5 (12): e14243. Bibcode : 2010PLoSO...514243F. doi : 10.1371/journal.pone.0014243 . PMC 2999531. PMID 21170383 .
^ Lansdall-Welfare, Thomas; Lampos, Vasileios; Cristianini, Nello (2012). "Влияние рецессии на общественное настроение в Великобритании". Труды 21-й международной конференции Companion по Всемирной паутине - WWW '12 Companion . стр. 1221. doi :10.1145/2187980.2188264. ISBN9781450312301. S2CID 1825992.
^ Судхахар, Саатвига; Де Фасио, Джанлука; Франзози, Роберто; Кристианини, Нелло (2015). «Сетевой анализ повествовательного контента в больших корпусах». Инженерия естественного языка . 21 : 81–112. дои : 10.1017/S1351324913000247. hdl : 1983/dfb87140-42e2-486a-91d5-55f9007042df . S2CID 3385681.
^ Лансдалл-Уэлфэр, Томас; Судхахар, Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2014). «Об освещении науки в СМИ: исследование больших данных о влиянии катастрофы на Фукусиме». Международная конференция IEEE 2014 года по большим данным (Big Data) . С. 60–66. doi :10.1109/BigData.2014.7004454. hdl :2381/31439. ISBN978-1-4799-5666-1. S2CID 7686818.
^ МакКаллум, Малкольм Л.; Бери, Гвендолин В. (2016). «Консервативная культуромика». Биоразнообразие и охрана природы . 22 (6–7): 1355–1367. Bibcode : 2016FrEE...14..269L. doi : 10.1002/fee.1260. S2CID 199392763.
^ Ладл, Ричард Дж.; Коррейя, Рикардо А.; Делай, Юно; Джу, Геа-Дже; Мальхадо, Ана СМ; Пру, Рафаэль; Роберж, Жан-Мишель; Джепсон, Пол (2016). «Сохранение культуромики». Границы в экологии и окружающей среде . 14 (5): 269–275. Бибкод : 2016FrEE...14..269L. дои : 10.1002/плата.1260. S2CID 199392763.
^ Телфер, Скотт; Обрадович, Ник (2017-08-09). «Местная погода связана с частотой онлайн-поиска симптомов мышечно-скелетной боли». PLOS ONE . 12 (8): e0181266. Bibcode : 2017PLoSO..1281266T. doi : 10.1371/journal.pone.0181266 . ISSN 1932-6203. PMC 5549896. PMID 28792953 .
^ "Связаны ли боли в суставах с дождем? Google предполагает обратное". NBC News . Получено 2017-08-10 .
^ «Этот миф о боли в суставах — полная чушь». Здоровье мужчин . 2017-08-10 . Получено 2017-08-10 .
^ "Дождь усиливает боль в суставах? Google утверждает обратное: уровень активности людей, увеличивающийся с повышением температуры до определенной точки, с большей вероятностью, чем сама погода, может вызывать боль, мотивирующую поиск в Интернете, говорят исследователи". ScienceDaily . Получено 10 августа 2017 г.
^ «Когда физики занимаются лингвистикой», БЕН ЦИММЕР, Boston Globe , 10 февраля 2013 г.
^ Ficetola, GF (2014). «Действительно ли интерес к окружающей среде падает? Сложность анализа тенденций с использованием данных интернет-поиска». Биоразнообразие и охрана природы . 23 (12): 2983–2988. doi :10.1007/s10531-013-0552-y. S2CID 17003129.
^ МакКаллум, Малкольм Л. (2014). «Общественный интерес к окружающей среде падает: ответ на Фицелолу (2013)». Биоразнообразие и охрана природы . 23 (2): 1057–1062. Bibcode : 2014BiCon..23.1057M. doi : 10.1007/s10531-014-0640-7. S2CID 7056654.
Дальнейшее чтение
Мишель, Жан-Батист; Либерман Эйден, Эрез ; Эйден, AP; Верес, A.; Грей, MK; Пикетт, JP; Хойберг, D.; Клэнси, D.; Норвиг, P.; Орван, Джон; Новак, Мартин ; Пинкер, Стивен (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг». Science . 331 (6014): 176–82. doi :10.1126/science.1199644. PMC 3279742 . PMID 21163965.
Leetaru, Kalev H. (5 сентября 2011 г.). «Культуромика 2.0: прогнозирование крупномасштабного человеческого поведения с использованием тона глобальных новостных СМИ во времени и пространстве». Первый понедельник . 16 (9). doi : 10.5210/fm.v16i9.3663 .
Боханнон, Джон (14 января 2011 г.). «Google Книги, Википедия и будущее культуромики». Science . 331 (6014): 135. Bibcode :2011Sci...331..135B. doi : 10.1126/science.331.6014.135 . PMID 21233356.
Шварц, Тим (1 апреля 2011 г.). «Культуромика: периодические издания измеряют пульс культуры». Science . 332 (6025): 35–36. Bibcode :2011Sci...332...35S. doi :10.1126/science.332.6025.35-c. PMID 21454770.
Морс-Ганье, Элиз Э. (1 апреля 2011 г.). «Культуромика: статистические ловушки запутывают данные». Science . 332 (6025): 35, ответ автора 36–7. Bibcode :2011Sci...332...35M. doi :10.1126/science.332.6025.35-b. PMID 21454771.
Ши, Кристофер (16 марта 2012 г.). «Новая наука о рождении и смерти слов». Wall Street Journal . Получено 15 января 2013 г.
Ачерби, Альберто; Лампос, Василеос; Гарнетт, Филипп; Бентли, Александр (20 марта 2013 г.). «Выражение эмоций в книгах 20-го века». PLoS ONE . 8 (3): e59030. Bibcode : 2013PLoSO...859030A. doi : 10.1371 /journal.pone.0059030 . PMC 3604170. PMID 23527080.
Бентли, Александр; Ачерби, Альберто; Ормерод, Пол; Лампос, Василиос (8 января 2014 г.). «Среднее значение книг за предыдущее десятилетие экономического неблагополучия». PLoS ONE . 9 (1): e83147. Bibcode : 2014PLoSO...983147B. doi : 10.1371/journal.pone.0083147 . PMC 3885402. PMID 24416159 .
Лансдалл-Уэлфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Кристианини, Нелло (2017). «Анализ содержания 150-летней британской периодики». Труды Национальной академии наук Соединенных Штатов Америки . 114 (4): E457–E465. Bibcode : 2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . PMC 5278459. PMID 28069962 .
Внешние ссылки
Culturomics.org, веб-сайт Культурной обсерватории Гарварда под руководством Эреза Либермана Эйдена и Жана-Батиста Мишеля