stringtranslate.com

Текстовая добыча

Текстовый интеллектуальный анализ , интеллектуальный анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он включает в себя «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое обучение шаблонам . Согласно Hotho et al. (2005), мы можем различать три различных перспективы текстового интеллектуального анализа: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). [2] Текстовый интеллектуальный анализ обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ , наряду с добавлением некоторых производных языковых признаков и удалением других, и последующей вставкой в ​​базу данных ), выведение шаблонов в структурированных данных и, наконец, оценку и интерпретацию выходных данных. «Высокое качество» в текстовом анализе обычно относится к некоторой комбинации релевантности , новизны и интереса. Типичные задачи текстового анализа включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание гранулярных таксономий, анализ настроений , резюмирование документов и моделирование отношений сущностей ( т. е . изучение отношений между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения частотных распределений слов, распознавание образов , тегирование / аннотацию , извлечение информации , методы добычи данных , включая анализ связей и ассоциаций, визуализацию и предиктивную аналитику . Главной целью, по сути, является превращение текста в данные для анализа с помощью применения обработки естественного языка (NLP), различных типов алгоритмов и аналитических методов. Важной фазой этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей предиктивной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале работы с текстовым интеллектуальным анализом. Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [3]

Текстовая аналитика

Текстовая аналитика описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационное содержание текстовых источников для бизнес-аналитики , разведывательного анализа данных , исследований или расследований. [4] Этот термин примерно синонимичен текстовому анализу; действительно, Ронен Фельдман изменил описание «текстового анализа» 2000 года [5] в 2004 году, чтобы описать «текстовую аналитику». [6] Последний термин теперь чаще используется в деловых условиях, в то время как «текстовый анализ» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, [7] в частности, в исследованиях в области естественных наук и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для решения бизнес-задач, независимо от того, применяется ли она самостоятельно или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов информации, относящейся к бизнесу, возникает в неструктурированной форме, в основном в виде текста. [8] Эти методы и процессы обнаруживают и представляют знания — факты, бизнес-правила и отношения, — которые в противном случае были бы заперты в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

Приложения

Технология интеллектуального анализа текста в настоящее время широко применяется для самых разных нужд правительства, исследований и бизнеса. Все эти группы могут использовать интеллектуальный анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Юристы могут использовать интеллектуальный анализ текста для электронного обнаружения , например. Правительства и военные группы используют интеллектуальный анализ текста для целей национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. для решения проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [14] [15] [16] ), и для поддержки научных открытий в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматизированного размещения рекламы , среди множества других видов деятельности.

Приложения безопасности

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как интернет-новости , блоги и т. д., в целях национальной безопасности . [17] Он также участвует в изучении шифрования / дешифрования текста .

Биомедицинские приложения

Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при изучении белок-белковых комплексов или стыковки белков . [18]

Описан ряд приложений для интеллектуального анализа текста в биомедицинской литературе, [19] включая вычислительные подходы для помощи в исследованиях по стыковке белков , [20] взаимодействия белков , [21] [22] и ассоциаций белок-болезнь. [23] Кроме того, с большими наборами текстовых данных пациентов в клинической области, наборами данных демографической информации в популяционных исследованиях и отчетами о неблагоприятных событиях, интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию определенных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и ​​сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая объединяет интеллектуальный анализ биомедицинского текста с сетевой визуализацией. [25] [26] GoPubMed — это поисковая система на основе знаний для биомедицинских текстов. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [27]

Программные приложения

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способ улучшения своих результатов. В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] Для учебных целей программное обеспечение Weka является одним из самых популярных вариантов в научном мире, выступая в качестве отличной отправной точки для новичков. Для программистов Python существует отличный набор инструментов под названием NLTK для более общих целей. Для более продвинутых программистов также есть библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Онлайн-медиа приложения

Текстовый интеллектуальный анализ используется крупными медиакомпаниями, такими как Tribune Company , для уточнения информации и предоставления читателям большего опыта поиска, что в свою очередь увеличивает «прилипаемость» сайта и доход. Кроме того, на бэкэнде редакторы получают выгоду, поскольку могут делиться, связывать и упаковывать новости по всем свойствам, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Куссемент и Ван ден Поэль (2008) [30] [31] применяют ее для улучшения моделей предиктивной аналитики для оттока клиентов ( убыли клиентов ). [30] Текстовая аналитика также применяется для прогнозирования доходности акций. [32]

Анализ настроений

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятен обзор для продукта. [33] Такой анализ может потребовать маркированного набора данных или маркировки аффективности слов. Ресурсы по аффективности слов и концепций были созданы для WordNet [34] и ConceptNet [35] соответственно .

Текст использовался для обнаружения эмоций в смежной области аффективных вычислений. [36] Подходы к аффективным вычислениям на основе текста применялись в нескольких корпусах, таких как оценки студентов, детские рассказы и новостные сюжеты.

Научный анализ литературы и академические приложения

Проблема интеллектуального анализа текста важна для издателей, которые имеют большие базы данных информации, требующей индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature об открытом интерфейсе интеллектуального анализа текста (OTMI) и общее определение типа документа для публикации журналов (DTD) Национального института здравоохранения , которое будет предоставлять семантические подсказки машинам для ответа на конкретные запросы, содержащиеся в тексте, не устраняя при этом барьеры издателя для публичного доступа.

К инициативе по анализу текста также подключились академические учреждения:

Методы поиска научной литературы

Разработаны вычислительные методы для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, [40] определения новизны, [41] и уточнения омонимов [42] среди технических отчетов.

Цифровые гуманитарные науки и вычислительная социология

Автоматический анализ обширных текстовых корпусов создал возможность для ученых анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми вспомогательными технологиями стали синтаксический анализ, машинный перевод , тематическая категоризация и машинное обучение.

Повествовательная сеть выборов в США 2012 года [43]

Автоматический разбор текстовых корпусов позволил извлекать субъектов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов из теории сетей для определения ключевых субъектов, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная устойчивость всей сети или центральность определенных узлов. [44] Это автоматизирует подход, введенный количественным повествовательным анализом, [45] посредством которого триплеты субъект-глагол-объект идентифицируются с парами субъектов, связанных действием, или парами, образованными субъектом-объектом. [43]

Анализ контента долгое время был традиционной частью социальных наук и медиа-исследований. Автоматизация анализа контента позволила совершить революцию « больших данных » в этой области, с исследованиями в социальных сетях и газетном контенте, которые включают миллионы новостных статей. Гендерная предвзятость , читабельность , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов интеллектуального анализа текста на миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован в работе Флаунаса и др. [51], где показано, как разные темы имеют разные гендерные предвзятости и уровни читабельности; также была продемонстрирована возможность обнаружения моделей настроения у большой группы населения путем анализа контента Twitter. [52] [53]

Программное обеспечение

Программы для компьютерного анализа текста доступны во многих коммерческих и открытых источниках и компаниях.

Право интеллектуальной собственности

Ситуация в Европе

Видеоролик кампании Fix Copyright, объясняющий TDM и проблемы с авторскими правами в ЕС, 2016 г. [3:51]

Согласно европейским законам об авторском праве и базах данных , майнинг произведений, защищенных авторским правом (например, веб-майнинг ) без разрешения владельца авторских прав является незаконным. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве [54], чтобы разрешить майнинг текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это, после Японии , которая ввела исключение, специально предназначенное для майнинга, в 2009 году. Однако из-за ограничения Директивы об информационном обществе (2001) исключение Великобритании разрешает майнинг контента только в некоммерческих целях. Закон об авторском праве Великобритании не позволяет отменять это положение договорными условиями.

Европейская комиссия организовала обсуждение с заинтересованными сторонами по вопросам интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы». [55] Тот факт, что основное внимание при решении этой юридической проблемы уделялось лицензиям, а не ограничениям и исключениям из закона об авторском праве, побудил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае 2013 года. [56]

Ситуация в Соединенных Штатах

Закон США об авторском праве , и в частности его положения о добросовестном использовании , означает, что интеллектуальный анализ текста в Америке, а также в других странах с добросовестным использованием, таких как Израиль, Тайвань и Южная Корея, рассматривается как законный. Поскольку интеллектуальный анализ текста является преобразующим, то есть он не заменяет оригинальную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках урегулирования Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки — одним из таких видов использования был интеллектуальный анализ текста и данных. [57]

Ситуация в Австралии

В австралийском законе об авторском праве нет исключений для интеллектуального анализа текстов или данных в рамках Закона об авторском праве 1968 года . Комиссия по реформе законодательства Австралии отметила, что маловероятно, что исключение о добросовестном использовании «исследований и изучений» будет распространяться и на такую ​​тему, поскольку оно будет выходить за рамки требования «разумной доли». [58]

Подразумеваемое

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, который находил только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , интеллектуальный анализ текста может находить контент на основе смысла и контекста (а не просто по определенному слову). Кроме того, программное обеспечение для интеллектуального анализа текста может использоваться для создания больших досье информации о конкретных людях и событиях. Например, большие наборы данных на основе данных, извлеченных из новостных сообщений, могут быть созданы для упрощения анализа социальных сетей или контрразведки . По сути, программное обеспечение для интеллектуального анализа текста может действовать в качестве, аналогичном аналитику разведки или библиотекарю-исследователю, хотя и с более ограниченной областью анализа. Интеллектуальный анализ текста также используется в некоторых фильтрах спама электронной почты как способ определения характеристик сообщений, которые, вероятно, являются рекламой или другим нежелательным материалом. Интеллектуальный анализ текста играет важную роль в определении настроений на финансовом рынке .

Смотрите также

Ссылки

Цитаты

  1. ^ «Марти Херст: Что такое интеллектуальный анализ текста?».
  2. ^ Hotho, A., Nürnberger, A. и Paaß, G. (2005). "Краткий обзор интеллектуального анализа текста". В Ldv Forum, том 20(1), стр. 19-62
  3. ^ Фельдман, Р. и Сэнгер, Дж. (2007). Справочник по интеллектуальному анализу текста. Cambridge University Press. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 г. на Wayback Machine.
  5. ^ "Семинар KDD-2000 по интеллектуальному анализу текста – Приглашение подавать доклады". Cs.cmu.edu . Получено 23.02.2015 .
  6. ^ [2] Архивировано 3 марта 2012 г. на Wayback Machine.
  7. ^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Труды 9-й конференции по компьютерной лингвистике . Том 1. С. 127–32. doi :10.3115/991813.991833. S2CID  6433117.
  8. ^ "Неструктурированные данные и правило 80 процентов". Breakthrough Analysis. Август 2008 г. Получено 23 февраля 2015 г.
  9. ^ Антунес, Жуан (14 ноября 2018 г.). Исследование контекстной информации для семантического представления текста (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. doi : 10.11606/d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение неоднозначности смысла слов: единый подход». Труды Ассоциации компьютерной лингвистики . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN  2307-387X.
  11. ^ Чанг, Вуй Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов». Neural Processing Letters . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN  1370-4621. S2CID  9100902.
  12. ^ Бенчимол, Джонатан; Казинник, София; Саадон, Йосси (2022). «Методологии интеллектуального анализа текста с R: применение к текстам центрального банка». Машинное обучение с приложениями . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID  243798160.
  13. ^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по многометодному измерению в психологии . стр. 141. doi :10.1037/11383-011. ISBN 978-1-59147-318-3.
  14. ^ Панг, Бо; Ли, Лиллиан (2008). «Изучение мнений и анализ настроений». Основы и тенденции в области поиска информации . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN  1554-0669. S2CID  207178694. 
  15. ^ Палтоглу, Георгиос; Телуолл, Майк (2012-09-01). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». ACM Transactions on Intelligent Systems and Technology . 3 (4): 66. doi :10.1145/2337542.2337551. ISSN  2157-6904. S2CID  16600444.
  16. ^ "Анализ настроений в Twitter < SemEval-2017 Задача 4". alt.qcri.org . Получено 2018-10-02 .
  17. ^ Zanasi, Alessandro (2009). "Виртуальное оружие для реальных войн: интеллектуальный анализ текста для национальной безопасности". Труды Международного семинара по вычислительному интеллекту в безопасности информационных систем CISIS'08 . Достижения в области мягких вычислений. Том 53. стр. 53. doi :10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  18. ^ Бадал, Варша Д.; Кундротас, Петрас Дж.; Ваксер, Илья А. (2015-12-09). "Text Mining for Protein Docking". PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN  1553-7358. PMC 4674139. PMID  26650466 . 
  19. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с текстовым интеллектуальным анализом». PLOS Computational Biology . 4 (1): e20. Bibcode : 2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579. PMID  18225946 . 
  20. ^ Бадал, В. Д.; Кундротас, П. Дж.; Ваксер, И. А. (2015). «Интеллектуальный анализ текста для стыковки белков». PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139. PMID  26650466 . 
  21. ^ Папаниколау, Николас; Павлопулос, Георгиос А.; Феодосиу, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозирование межбелкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ISSN  1046-2023. ПМИД  25448298.
  22. ^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18.10.2016). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, сделанные широкодоступными». Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. ISSN  0305-1048. PMC 5210637. PMID  27924014 . 
  23. ^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Юй; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кауфилд, Джон Х.; Ван, Вэй; Пин, Пэйпэй; Хан, Цзявэй (2018-10-01). «Извлечение фраз из текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN  1522-1539. PMC 6230912. PMID 29775406  . 
  24. ^ Ван Ле, Д.; Монтгомери, Дж.; Киркби, К.С.; Скэнлан, Дж. (10 августа 2018 г.). «Прогнозирование риска с использованием обработки естественного языка электронных записей о психическом здоровье в стационарном отделении судебной психиатрии». Журнал биомедицинской информатики . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID  30118855.
  25. ^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовски, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Nature Genetics . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID  11326270. S2CID  8889284.
  26. ^ Masys, Daniel R. (2001). «Связывание данных микрочипов с литературой». Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID  11326264. S2CID  52848745.
  27. ^ Ренганатан, Винайтертан (2017). «Интеллектуальный анализ текста в биомедицинской области с упором на кластеризацию документов». Healthcare Informatics Research . 23 (3): 141–146. doi : 10.4258/hir.2017.23.3.141. ISSN  2093-3681. PMC 5572517. PMID 28875048  . 
  28. ^ [3] Архивировано 4 октября 2013 г. на Wayback Machine.
  29. ^ "Текстовая аналитика". Medallia . Получено 2015-02-23 .
  30. ^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). «Интеграция мнений клиентов через электронные письма колл-центра в систему поддержки принятия решений для прогнозирования оттока». Информация и менеджмент . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005. 
  31. ^ Куссемент, Кристоф; Ван Ден Пул, Дирк (2008). «Улучшение управления жалобами клиентов путем автоматической классификации электронной почты с использованием лингвистических стилевых особенностей в качестве предикторов». Системы поддержки принятия решений . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
  32. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности интеллектуального анализа онлайн-досок объявлений в системах автоматического прогнозирования акций». Журнал вычислительной науки . 19 : 1877–7503. doi : 10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
  33. ^ Панг, Бо; Ли, Лиллиан; Вайтьянатан, Шивакумар (2002). «Thumbs up?». Труды конференции ACL-02 по эмпирическим методам в обработке естественного языка . Том 10. С. 79–86. doi :10.3115/1118693.1118704. S2CID  7105713.
  34. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Развитие аффективных лексических ресурсов» (PDF) . PsychNology Journal . 2 (1): 61–83.
  35. ^ Эрик Камбрия; Роберт Спир; Кэтрин Хаваси; Амир Хуссейн (2010). «SenticNet: общедоступный семантический ресурс для анализа мнений» (PDF) . Труды AAAI CSK . стр. 14–18.
  36. ^ Кальво, Рафаэль А.; д'Мелло, Сидни (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». Труды IEEE по аффективным вычислениям . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID  753606.
  37. ^ "Манчестерский университет". Manchester.ac.uk . Получено 23.02.2015 .
  38. ^ "Лаборатория Цудзи". Tsujii.is.su-tokyo.ac.jp. Архивировано из оригинала 2012-03-07 . Получено 2015-02-23 .
  39. ^ "Токийский университет". UTokyo . Получено 23.02.2015 .
  40. ^ Шэнь, Цзямин; Сяо, Цзиньфэн; Хэ, Синьвэй; Шан, Цзинбо; Синха, Саурабх; Хан, Цзявэй (2018-06-27). Поиск набора сущностей в научной литературе: подход к ранжированию без учителя . ACM. стр. 565–574. doi :10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID  13748283.
  41. ^ Вальтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (2017-02-06). «Красота серной бабочки: новизна патентов, выявленных с помощью анализа ближней среды на основе интеллектуального анализа текста». Scientometrics . 111 (1): 103–115. doi :10.1007/s11192-017-2267-4. ISSN  0138-9130. S2CID  11174676.
  42. ^ Ролл, Ури; Коррейя, Рикардо А.; Бергер-Тал, Одед (10.03.2018). «Использование машинного обучения для выделения омонимов в больших текстовых корпусах». Conservation Biology . 32 (3): 716–724. doi : 10.1111/cobi.13044. ISSN  0888-8892. PMID  29086438. S2CID  3783779.
  43. ^ ab Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; S Sudhahar, GA Veltri, N Cristianini; Большие данные и общество 2 (1), 1-28, 2015
  44. ^ Сетевой анализ повествовательного контента в больших корпусах; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
  45. ^ Количественный повествовательный анализ; Роберто Францоси; Университет Эмори © 2010
  46. ^ Лансдалл-Уэлфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, FindMyPast Newspaper; Кристианини, Нелло (2017-01-09). «Анализ контента 150 лет британских периодических изданий». Труды Национальной академии наук . 114 (4): E457–E465. Bibcode : 2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN  0027-8424. PMC 5278459. PMID  28069962 . 
  47. ^ И. Флаунас, М. Турки, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, т. 5(12), стр. e14243, 2010.
  48. ^ Прогнозирование текущих событий в социальных сетях с помощью статистического обучения В. Лампос, Н. Кристианини; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
  49. ^ NOAM: система анализа и мониторинга новостных каналов; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini. Труды международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение закономерностей в медиаконтенте, Н. Кристианини, Комбинаторное сопоставление закономерностей, 2-13, 2011
  51. ^ И. Флаунас, О. Али, Т. Лансдалл-Уэлфэр, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  52. ^ Циркадные вариации настроения в контенте Twitter; Фейбон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения в области мозга и нейронауки, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественное настроение в Великобритании; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) сессия по приложениям социальных сетей
  54. ^ Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторских правах. Архивировано 9 июня 2014 г. на Wayback Machine.
  55. ^ "Лицензии для Европы – структурированный диалог заинтересованных сторон 2013". Европейская комиссия . Получено 14 ноября 2014 г.
  56. ^ "Text and Data Mining: Its important and the need for change in Europe". Ассоциация европейских исследовательских библиотек . 2013-04-25. Архивировано из оригинала 2014-11-29 . Получено 14 ноября 2014 г.
  57. ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Books — победа в деле о добросовестном использовании». Lexology . Antonelli Law Ltd. 19 ноября 2013 г. Получено 14 ноября 2014 г.
  58. ^ "Text and data mining". Australian Law Reform Commission . 4 июня 2013 г. Получено 10 февраля 2023 г.

Источники

Внешние ссылки