stringtranslate.com

Культуромика

Культуромика — это форма вычислительной лексикологии , которая изучает человеческое поведение и культурные тенденции посредством количественного анализа оцифрованных текстов. [1] [2] Исследователи изучают большие цифровые архивы данных для изучения культурных явлений, отраженных в языке и использовании слов. [3] Термин является американским неологизмом, впервые описанным в статье журнала Science 2010 года под названием «Количественный анализ культуры с использованием миллионов оцифрованных книг» , написанной в соавторстве с исследователями из Гарварда Жаном-Батистом Мишелем и Эрезом Либерманом Эйденом . [4]

Мишель и Эйден помогли создать проект Google Labs Google Ngram Viewer , который использует n-граммы для анализа цифровой библиотеки Google Books на предмет культурных закономерностей в использовании языка с течением времени.

Поскольку набор данных Google Ngram не является беспристрастной выборкой [5] и не включает метаданные [6] , существует несколько подводных камней при его использовании для изучения языка или популярности терминов. [7] Медицинская литература составляет большую, но меняющуюся долю корпуса [8] , которая не учитывает, как часто литература печатается или читается.

Исследования

Повествовательная сеть выборов в США 2012 года [9]

В исследовании под названием «Культуромика 2.0 » Калев Х. Литару исследовал архивы новостей, включая печатные и вещательные СМИ (транскрипты телевидения и радио), на предмет слов, которые передавали тон или «настроение», а также географические данные. [10] [11] Исследование задним числом предсказало Арабскую весну 2011 года и успешно оценило окончательное местонахождение Усамы бен Ладена с точностью до 124 миль (200 км). [10] [11]

В статье 2012 года Александра М. Петерсена и соавторов [12] они обнаружили «драматический сдвиг в уровне рождаемости и смертности слов»: [13] Количество смертей увеличилось, а рождаемость замедлилась. Авторы также определили универсальную «переломную точку» в жизненном цикле новых слов примерно через 30–50 лет после их возникновения: они либо входят в долгосрочный лексикон , либо выходят из употребления. [13]

Культуромические подходы были использованы при анализе содержания газет в ряде исследований И. Флаунаса и соавторов. Эти исследования показали макроскопические тенденции в разных новостных агентствах и странах. В 2012 году исследование 2,5 миллионов статей показало, что гендерная предвзятость в освещении новостей зависит от темы и того, как читаемость газетных статей связана с темой. [14] Отдельное исследование тех же исследователей, охватывающее 1,3 миллиона статей из 27 стран, [15] показало макроскопические закономерности в выборе историй для освещения. В частности, страны делали схожий выбор, когда они были связаны экономическими, географическими и культурными связями. Культурные связи были выявлены по сходству голосования на конкурсе песни Евровидение . Это исследование было проведено в широких масштабах с использованием методов статистического машинного перевода , категоризации текста и извлечения информации .

Возможность обнаружения изменений настроения у большой группы населения путем анализа контента Twitter была продемонстрирована в исследовании T. Lansdall-Welfare и соавторов. [16] В исследовании рассматривалось 84 миллиона твитов, созданных более чем 9,8 миллионами пользователей из Соединенного Королевства за период в 31 месяц, что показывает, как изменились общественные настроения в Великобритании с объявлением о сокращении расходов.

В исследовании 2013 года, проведенном С. Судхахаром и соавторами, автоматический анализ текстовых корпусов позволил извлекать субъектов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов из теории сетей для определения ключевых субъектов, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная устойчивость всей сети или центральность определенных узлов. [17]

В исследовании 2014 года, проведенном T Lansdall-Welfare и соавторами, было собрано 5 миллионов новостных статей за 5 лет [18] , а затем проанализировано, чтобы предположить значительное изменение настроений относительно освещения ядерной энергетики, соответствующее катастрофе на Фукусиме . Исследование также извлекло концепции, которые были связаны с ядерной энергетикой до и после катастрофы, объяснив изменение настроений изменением в повествовательном фрейминге.

В 2015 году исследование выявило предвзятость набора данных Google Books, который «страдает от ряда ограничений, делающих его скрытой маской культурной популярности» [5] , и поставило под сомнение значимость многих более ранних результатов.

Культуромические подходы также могут способствовать науке о сохранении природы посредством лучшего понимания взаимоотношений человека и природы, первое исследование было опубликовано МакКаллумом и Бери в 2013 году. [19] Это исследование выявило резкое снижение общественного интереса к проблемам окружающей среды. В 2016 году публикация Ричарда Ладла и его коллег [20] выделила пять ключевых областей, в которых культуромика может быть использована для продвижения практики и науки сохранения природы, включая признание ориентированных на сохранение групп и демонстрацию общественного интереса к природе, выявление символов сохранения, предоставление новых показателей и инструментов для мониторинга окружающей среды в режиме, близком к реальному времени, и для поддержки принятия решений по сохранению, оценки культурного воздействия вмешательств в сохранение, а также формулирования вопросов сохранения и содействия общественному пониманию.

В 2017 году исследование сопоставило боль в суставах с активностью поиска Google и температурой. [21] Хотя исследование и выявило более высокую активность поиска боли в бедре и колене (но не артрита ) при более высоких температурах, оно не контролирует (и не может контролировать) другие соответствующие факторы, такие как активность. Средства массовой информации неверно истолковали это как «развенчание мифа: дождь не усиливает боль в суставах», [22] [23], в то время как авторы предполагают, что наблюдаемая корреляция обусловлена ​​«изменениями в уровнях физической активности». [24]

Критика

Лингвисты и лексикографы выразили скептицизм относительно методов и результатов некоторых из этих исследований, включая исследование Петерсена и др. [25] Другие продемонстрировали предвзятость в наборе данных Ngram. Их результаты «ставят под сомнение подавляющее большинство существующих утверждений, взятых из корпуса Google Books»: [5] «Вместо того, чтобы говорить об общих языковых или культурных изменениях, кажется предпочтительным явно ограничить результаты языковыми или культурными изменениями, «как они представлены в данных Google Ngram» [6], поскольку неясно, что вызвало наблюдаемые изменения в выборке. Фичетола раскритиковал использование Google Trends, предположив, что интерес на самом деле растет. [26] Но в своем опровержении МакКаллум и Бери [27] указали, что в том, что касается государственной политики, пропорциональные данные важны, а абсолютные числа не имеют значения, объяснив, что политика определяется мнением большей части населения, а не абсолютным числом, и решения принимаются в соответствии с влиянием большинства, а не просто количеством голосов.

Смотрите также

Ссылки

  1. ^ Коэн, Патрисия (16 декабря 2010 г.). «В 500 миллиардах слов: новое окно в культуру». New York Times .
  2. Хейс, Брайан (май–июнь 2011 г.). «Bit Lit». American Scientist . 99 (3): 190. doi :10.1511/2011.90.190. Архивировано из оригинала 2016-10-18 . Получено 2011-09-09 .
  3. ^ Летчер, Дэвид У. (6 апреля 2011 г.). «Культоромикс: новый способ увидеть временные изменения в распространенности слов и фраз» (PDF) . Материалы 6-й международной конференции Американского института высшего образования . 4 (1): 228. Архивировано из оригинала (PDF) 3 марта 2016 г. . Получено 9 сентября 2011 г. .
  4. ^ Мишель, Жан-Батист; Либерман Эйден, Эрез (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг». Science . 331 (6014): 176–82. doi :10.1126/science.1199644. PMC 3279742 . PMID  21163965. 
  5. ^ abc Печеник, Эйтан Адам; Дэнфорт, Кристофер М.; Доддс, Питер Шеридан (2015-10-07). «Характеристика корпуса Google Books: сильные ограничения выводов о социокультурной и лингвистической эволюции». PLOS ONE . ​​10 (10): e0137041. arXiv : 1501.00960 . Bibcode :2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . ISSN  1932-6203. PMC 4596490 . PMID  26445406. 
  6. ^ ab Коплениг, Александр (апрель 2017 г.). «Влияние отсутствия метаданных на измерение культурных и языковых изменений с использованием наборов данных Google Ngram — реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая наука в области гуманитарных наук . 32 (1): 169–188. doi :10.1093/llc/fqv037. ISSN  2055-7671.
  7. ^ Чжан, Сара. «Подводные камни использования Google Ngram для изучения языка». WIRED . Получено 24.05.2017 .
  8. ^ Сравнение примеров терминов
  9. ^ Судхахар , Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2015). «Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа». Большие данные и общество . 2. doi : 10.1177/2053951715572916 . hdl : 2381/31767 . S2CID  62188746.
  10. ^ ab Leetaru, Kalev H. (5 сентября 2011 г.). «Культуромика 2.0: прогнозирование крупномасштабного человеческого поведения с использованием тона глобальных новостных СМИ во времени и пространстве». Первый понедельник . 16 (9). doi : 10.5210/fm.v16i9.3663 .
  11. ^ ab Quick, Darren (7 сентября 2011 г.). «Исследования культуромики используют четвертьвековое освещение в СМИ для прогнозирования человеческого поведения». Gizmag.com . Получено 9 сентября 2011 г.
  12. ^ Петерсен, Александр М. (15 марта 2012 г.). «Статистические законы, управляющие колебаниями в использовании слов от рождения до смерти слов». Scientific Reports . 2 : 313. arXiv : 1107.3707 . Bibcode :2012NatSR...2E.313P. doi :10.1038/srep00313. PMC 3304511 . PMID  22423321. 
  13. ^ ab "Новая наука о рождении и смерти слов", КРИСТОФЕР ШИ, Wall Street Journal , 16 марта 2012 г.
  14. ^ Флаунас, Илиас; Али, Омар; Лансдалл-Велфэр, Томас; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2013). «Методы исследования в эпоху цифровой журналистики». Цифровая журналистика . 1 : 102–116. дои : 10.1080/21670811.2012.714928 . S2CID  61080552.
  15. ^ Флаунас, Илиас; Турчи, Марко; Али, Омар; Файсон, Ник; Де Би, Тийл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2010). «Структура медиасферы ЕС». PLOS ONE . 5 (12): e14243. Bibcode : 2010PLoSO...514243F. doi : 10.1371/journal.pone.0014243 . PMC 2999531. PMID  21170383 . 
  16. ^ Lansdall-Welfare, Thomas; Lampos, Vasileios; Cristianini, Nello (2012). "Влияние рецессии на общественное настроение в Великобритании". Труды 21-й международной конференции Companion по Всемирной паутине - WWW '12 Companion . стр. 1221. doi :10.1145/2187980.2188264. ISBN 9781450312301. S2CID  1825992.
  17. ^ Судхахар, Саатвига; Де Фасио, Джанлука; Франзози, Роберто; Кристианини, Нелло (2015). «Сетевой анализ повествовательного контента в больших корпусах». Инженерия естественного языка . 21 : 81–112. дои : 10.1017/S1351324913000247. hdl : 1983/dfb87140-42e2-486a-91d5-55f9007042df . S2CID  3385681.
  18. ^ Лансдалл-Уэлфэр, Томас; Судхахар, Саатвига; Велтри, Джузеппе А.; Кристианини, Нелло (2014). «Об освещении науки в СМИ: исследование больших данных о влиянии катастрофы на Фукусиме». Международная конференция IEEE 2014 года по большим данным (Big Data) . С. 60–66. doi :10.1109/BigData.2014.7004454. hdl :2381/31439. ISBN 978-1-4799-5666-1. S2CID  7686818.
  19. ^ МакКаллум, Малкольм Л.; Бери, Гвендолин В. (2016). «Консервативная культуромика». Биоразнообразие и охрана природы . 22 (6–7): 1355–1367. Bibcode : 2016FrEE...14..269L. doi : 10.1002/fee.1260. S2CID  199392763.
  20. ^ Ладл, Ричард Дж.; Коррейя, Рикардо А.; Делай, Юно; Джу, Геа-Дже; Мальхадо, Ана СМ; Пру, Рафаэль; Роберж, Жан-Мишель; Джепсон, Пол (2016). «Сохранение культуромики». Границы в экологии и окружающей среде . 14 (5): 269–275. Бибкод : 2016FrEE...14..269L. дои : 10.1002/плата.1260. S2CID  199392763.
  21. ^ Телфер, Скотт; Обрадович, Ник (2017-08-09). «Местная погода связана с частотой онлайн-поиска симптомов мышечно-скелетной боли». PLOS ONE . 12 (8): e0181266. Bibcode : 2017PLoSO..1281266T. doi : 10.1371/journal.pone.0181266 . ISSN  1932-6203. PMC 5549896. PMID 28792953  . 
  22. ^ "Связаны ли боли в суставах с дождем? Google предполагает обратное". NBC News . Получено 2017-08-10 .
  23. ^ «Этот миф о боли в суставах — полная чушь». Здоровье мужчин . 2017-08-10 . Получено 2017-08-10 .
  24. ^ "Дождь усиливает боль в суставах? Google утверждает обратное: уровень активности людей, увеличивающийся с повышением температуры до определенной точки, с большей вероятностью, чем сама погода, может вызывать боль, мотивирующую поиск в Интернете, говорят исследователи". ScienceDaily . Получено 10 августа 2017 г.
  25. ^ «Когда физики занимаются лингвистикой», БЕН ЦИММЕР, Boston Globe , 10 февраля 2013 г.
  26. ^ Ficetola, GF (2014). «Действительно ли интерес к окружающей среде падает? Сложность анализа тенденций с использованием данных интернет-поиска». Биоразнообразие и охрана природы . 23 (12): 2983–2988. doi :10.1007/s10531-013-0552-y. S2CID  17003129.
  27. ^ МакКаллум, Малкольм Л. (2014). «Общественный интерес к окружающей среде падает: ответ на Фицелолу (2013)». Биоразнообразие и охрана природы . 23 (2): 1057–1062. Bibcode : 2014BiCon..23.1057M. doi : 10.1007/s10531-014-0640-7. S2CID  7056654.

Дальнейшее чтение

Внешние ссылки