Процесс анализа текста для извлечения из него информации
Текстовый интеллектуальный анализ , интеллектуальный анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он включает в себя «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое обучение шаблонам . Согласно Hotho et al. (2005), существует три перспективы текстового интеллектуального анализа: извлечение информации , интеллектуальный анализ данных и обнаружение знаний в базах данных (KDD). [2] Текстовый интеллектуальный анализ обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ , наряду с добавлением некоторых производных языковых признаков и удалением других, и последующей вставкой в базу данных ), извлечение шаблонов в структурированных данных и, наконец, оценку и интерпретацию выходных данных. «Высокое качество» в текстовом интеллектуальном анализе обычно относится к некоторой комбинации релевантности , новизны и интереса. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание детализированных таксономий, анализ настроений , резюмирование документов и моделирование отношений сущностей ( т. е . изучение отношений между именованными сущностями ).
Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей предиктивной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале работы с интеллектуальным анализом текста. Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [3]
Текстовая аналитика
Текстовая аналитика описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационное содержание текстовых источников для бизнес-аналитики , разведывательного анализа данных , исследований или расследований. [4] Этот термин примерно синонимичен интеллектуальному анализу текста; действительно, Ронен Фельдман изменил описание «интеллектуального анализа текста» 2000 года [5] в 2004 году, чтобы описать «аналитику текста». [6] Последний термин теперь чаще используется в деловых условиях, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, [7] в частности, в исследованиях в области естественных наук и правительственной разведки.
Термин «текстовая аналитика» также описывает применение текстовой аналитики для решения бизнес-задач, независимо от того, применяется ли она самостоятельно или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80% информации, относящейся к бизнесу, возникает в неструктурированной форме, в основном в виде текста. [8] Эти методы и процессы обнаруживают и представляют знания — факты, бизнес-правила и отношения, — которые в противном случае были бы заперты в текстовой форме, непроницаемой для автоматизированной обработки.
Процессы анализа текста
Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:
Сокращение размерности — важный метод предварительной обработки данных. Он используется для определения корня слова для реальных слов и уменьшения размера текстовых данных. [ необходима цитата ]
Хотя некоторые системы текстовой аналитики применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую как разметка частей речи , синтаксический анализ и другие типы лингвистического анализа. [9]
Распознавание именованных сущностей — это использование справочников или статистических методов для идентификации именованных текстовых объектов: людей, организаций, географических названий, биржевых тикеров, определенных сокращений и т. д.
Разрешение неоднозначности — использование контекстных подсказок — может потребоваться для решения вопроса, например, где «Форд» может относиться к бывшему президенту США, производителю транспортных средств, кинозвезде, переправе через реку или какой-либо другой сущности. [10]
Распознавание сущностей, идентифицированных по шаблону: такие признаки, как номера телефонов, адреса электронной почты, количества (с единицами измерения), можно распознать с помощью регулярных выражений или других сопоставлений с шаблонами .
Извлечение связей, фактов и событий: выявление связей между сущностями и другой информацией в текстах.
Анализ настроений : различение субъективного материала и извлечение информации об отношениях: настроении, мнении, настроении и эмоциях. Это делается на уровне сущности, концепции или темы и направлено на различение носителей мнений и объектов. [12]
Количественный анализ текста: набор методов, происходящих из социальных наук, где либо человек-судья, либо компьютер извлекают семантические или грамматические связи между словами, чтобы выяснить значение или стилистические закономерности, как правило, случайного личного текста с целью психологического профилирования и т. д. [13]
Предварительная обработка обычно включает в себя такие задачи, как токенизация, фильтрация и стемминг.
Приложения
Технология интеллектуального анализа текста в настоящее время широко применяется для самых разных нужд правительства, исследований и бизнеса. Все эти группы могут использовать интеллектуальный анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Юристы могут использовать интеллектуальный анализ текста для электронного обнаружения , например. Правительства и военные группы используют интеллектуальный анализ текста для целей национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. для решения проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [14] [15] [16] ), и для поддержки научных открытий в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматизированного размещения рекламы , среди множества других видов деятельности.
Описан ряд приложений для интеллектуального анализа текста в биомедицинской литературе, [19] включая вычислительные подходы для помощи в исследованиях по стыковке белков , [20] взаимодействиях белков , [21] [22] и ассоциациях белок-болезнь. [23] Кроме того, с большими наборами текстовых данных пациентов в клинической области, наборами данных демографической информации в популяционных исследованиях и отчетами о неблагоприятных событиях, интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию определенных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая объединяет интеллектуальный анализ биомедицинского текста с сетевой визуализацией. [25] [26] GoPubMed — это поисковая система на основе знаний для биомедицинских текстов. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [27]
Программные приложения
Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способ улучшения своих результатов. В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] Для учебных целей программное обеспечение Weka является одним из самых популярных вариантов в научном мире, выступая в качестве отличной отправной точки для новичков. Для программистов Python существует отличный набор инструментов под названием NLTK для более общих целей. Для более продвинутых программистов также есть библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.
Онлайн-медиа приложения
Текстовый интеллектуальный анализ используется крупными медиакомпаниями, такими как Tribune Company , для уточнения информации и предоставления читателям большего опыта поиска, что в свою очередь увеличивает «прилипчивость» сайта и доход. Кроме того, на бэкэнде редакторы получают выгоду, поскольку могут делиться, связывать и упаковывать новости по всем свойствам, что значительно увеличивает возможности монетизации контента.
Бизнес и маркетинговые приложения
Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Куссемент и Ван ден Поэль (2008) [30] [31] применяют ее для улучшения моделей предиктивной аналитики для оттока клиентов ( убыли клиентов ). [30] Текстовая аналитика также применяется для прогнозирования доходности акций. [32]
Анализ настроений
Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятен обзор для продукта. [33]
Такой анализ может потребовать маркированного набора данных или маркировки аффективности слов. Ресурсы по аффективности слов и концепций были созданы для WordNet [34] и ConceptNet [35] соответственно .
Текст использовался для обнаружения эмоций в смежной области аффективных вычислений. [36] Подходы к аффективным вычислениям на основе текста применялись в нескольких корпусах, таких как оценки студентов, детские рассказы и новостные сюжеты.
Научный анализ литературы и академические приложения
Проблема интеллектуального анализа текста важна для издателей, которые имеют большие базы данных информации, требующей индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature об открытом интерфейсе интеллектуального анализа текста (OTMI) и общее определение типа документа для публикации журналов (DTD) Национального института здравоохранения , которые будут предоставлять семантические подсказки машинам для ответа на конкретные запросы, содержащиеся в тексте, не устраняя при этом барьеры издателя для публичного доступа.
К инициативе по анализу текста также подключились академические учреждения:
Портал анализа текста для исследований (TAPoR), в настоящее время размещенный в Университете Альберты , представляет собой научный проект по каталогизации приложений для анализа текста и созданию шлюза для исследователей, впервые приступающих к этой практике.
Методы поиска научной литературы
Разработаны вычислительные методы для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, [40] определения новизны, [41] и уточнения омонимов [42] среди технических отчетов.
Цифровые гуманитарные науки и вычислительная социология
Автоматический анализ обширных текстовых корпусов создал возможность для ученых анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми вспомогательными технологиями стали синтаксический анализ, машинный перевод , тематическая категоризация и машинное обучение.
Автоматический разбор текстовых корпусов позволил извлекать субъектов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов из теории сетей для определения ключевых субъектов, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная устойчивость всей сети или центральность определенных узлов. [44] Это автоматизирует подход, введенный количественным повествовательным анализом, [45] посредством которого триплеты субъект-глагол-объект идентифицируются с парами субъектов, связанных действием, или парами, образованными субъектом-объектом. [43]
Анализ контента долгое время был традиционной частью социальных наук и медиа-исследований. Автоматизация анализа контента позволила совершить революцию « больших данных » в этой области, с исследованиями в социальных сетях и газетном контенте, которые включают миллионы новостных статей. Гендерная предвзятость , читабельность , схожесть контента, предпочтения читателей и даже настроение были проанализированы на основе методов интеллектуального анализа текста на миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован в работе Флаунаса и др. [51], где показано, как разные темы имеют разные гендерные предвзятости и уровни читабельности; также была продемонстрирована возможность обнаружения моделей настроения у большой группы населения путем анализа контента Twitter. [52] [53]
Согласно европейским законам об авторском праве и базах данных , майнинг произведений, защищенных авторским правом (например, веб-майнинг ) без разрешения владельца авторских прав является незаконным. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве [54], чтобы разрешить майнинг текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это, после Японии , которая ввела исключение, специально предназначенное для майнинга, в 2009 году. Однако из-за ограничения Директивы об информационном обществе (2001 г.) исключение Великобритании разрешает майнинг контента только в некоммерческих целях. Закон об авторском праве Великобритании не позволяет отменять это положение договорными условиями.
Европейская комиссия организовала обсуждение с заинтересованными сторонами по вопросам интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы». [55] Тот факт, что основное внимание при решении этой юридической проблемы уделялось лицензиям, а не ограничениям и исключениям из закона об авторском праве, побудил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае 2013 года. [56]
Ситуация в Соединенных Штатах
Закон США об авторском праве , и в частности его положения о добросовестном использовании , означает, что интеллектуальный анализ текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, рассматривается как законный. Поскольку интеллектуальный анализ текста является преобразующим, то есть он не заменяет оригинальную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках урегулирования Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки — одним из таких видов использования был интеллектуальный анализ текста и данных. [57]
До недавнего времени веб-сайты чаще всего использовали текстовый поиск, который находил только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , интеллектуальный анализ текста может находить контент на основе смысла и контекста (а не просто по определенному слову). Кроме того, программное обеспечение для интеллектуального анализа текста может использоваться для создания больших досье информации о конкретных людях и событиях. Например, большие наборы данных на основе данных, извлеченных из новостных сообщений, могут быть созданы для упрощения анализа социальных сетей или контрразведки . По сути, программное обеспечение для интеллектуального анализа текста может действовать в качестве, аналогичном аналитику разведки или библиотекарю-исследователю, хотя и с более ограниченной областью анализа. Интеллектуальный анализ текста также используется в некоторых фильтрах спама электронной почты как способ определения характеристик сообщений, которые, вероятно, являются рекламой или другим нежелательным материалом. Интеллектуальный анализ текста играет важную роль в определении настроений на финансовом рынке .
Веб-майнинг — задача, которая может включать в себя интеллектуальный анализ текста (например, сначала найдите соответствующие веб-страницы, классифицируя просканированные веб-страницы, а затем извлеките нужную информацию из текстового содержимого этих страниц, которые считаются релевантными)
Ссылки
Цитаты
^ «Марти Херст: Что такое интеллектуальный анализ текста?».
^ Hotho, A., Nürnberger, A. и Paaß, G. (2005). "Краткий обзор текстовой добычи". В Ldv Forum, том 20(1), стр. 19-62
^ Фельдман, Р. и Сэнгер, Дж. (2007). Справочник по интеллектуальному анализу текста. Cambridge University Press. Нью-Йорк
^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Труды 9-й конференции по компьютерной лингвистике . Том 1. С. 127–32. doi :10.3115/991813.991833. S2CID 6433117.
^ "Неструктурированные данные и правило 80 процентов". Breakthrough Analysis. Август 2008 г. Получено 23 февраля 2015 г.
^ Антунес, Жуан (14 ноября 2018 г.). Исследование контекстной информации для семантического представления текстов (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. doi : 10.11606/d.55.2019.tde-03012019-103253 .
^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение неоднозначности смысла слов: единый подход». Труды Ассоциации компьютерной лингвистики . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN 2307-387X.
^ Чанг, Вуй Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов». Neural Processing Letters . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
^ Бенчимол, Джонатан; Казинник, София; Саадон, Йосси (2022). «Методологии интеллектуального анализа текста с R: применение к текстам центрального банка». Машинное обучение с приложениями . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID 243798160.
^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по многометодному измерению в психологии . стр. 141. doi :10.1037/11383-011. ISBN978-1-59147-318-3.
^ Панг, Бо; Ли, Лиллиан (2008). «Изучение мнений и анализ настроений». Основы и тенденции в области поиска информации . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
^ Палтоглу, Георгиос; Телуолл, Майк (2012-09-01). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». ACM Transactions on Intelligent Systems and Technology . 3 (4): 66. doi : 10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
^ "Анализ настроений в Twitter < SemEval-2017 Задача 4". alt.qcri.org . Получено 2018-10-02 .
^ Zanasi, Alessandro (2009). "Виртуальное оружие для реальных войн: интеллектуальный анализ текста для национальной безопасности". Труды Международного семинара по вычислительному интеллекту в безопасности информационных систем CISIS'08 . Достижения в области мягких вычислений. Том 53. стр. 53. doi :10.1007/978-3-540-88181-0_7. ISBN978-3-540-88180-3.
^ Бадал, Варша Д.; Кундротас, Петрас Дж.; Ваксер, Илья А. (2015-12-09). "Text Mining for Protein Docking". PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN 1553-7358. PMC 4674139. PMID 26650466 .
^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с текстом». PLOS Computational Biology . 4 (1): e20. Bibcode : 2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579. PMID 18225946 .
^ Бадал, В. Д.; Кундротас, П. Дж.; Ваксер, И. А. (2015). «Интеллектуальный анализ текста для стыковки белков». PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139. PMID 26650466 .
^ Папаниколау, Николас; Павлопулос, Георгиос А.; Феодосиу, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозирование межбелкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. ПМИД 25448298.
^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18.10.2016). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, сделанные широкодоступными». Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014 .
^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Юй; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кауфилд, Джон Х.; Ван, Вэй; Пин, Пэйпэй; Хан, Цзявэй (2018-10-01). «Извлечение фраз из текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406 .
^ Ван Ле, Д.; Монтгомери, Дж.; Киркби, К.С.; Скэнлан, Дж. (10 августа 2018 г.). «Прогнозирование риска с использованием обработки естественного языка электронных записей о психическом здоровье в условиях стационарной судебной психиатрии». Журнал биомедицинской информатики . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID 30118855.
^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть генов человека для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–8. дои : 10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
^ Masys, Daniel R. (2001). «Связывание данных микрочипов с литературой». Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
^ Ренганатан, Винайтертан (2017). «Интеллектуальный анализ текста в биомедицинской области с упором на кластеризацию документов». Healthcare Informatics Research . 23 (3): 141–146. doi : 10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048 .
^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). «Интеграция мнений клиентов через электронные письма колл-центра в систему поддержки принятия решений для прогнозирования оттока». Информация и менеджмент . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005.
^ Куссемент, Кристоф; Ван Ден Пул, Дирк (2008). «Улучшение управления жалобами клиентов путем автоматической классификации электронной почты с использованием лингвистических стилевых особенностей в качестве предикторов». Системы поддержки принятия решений . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности интеллектуального анализа онлайн-досок объявлений в системах автоматического прогнозирования акций». Журнал вычислительной науки . 19 : 1877–7503. doi : 10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
^ Панг, Бо; Ли, Лиллиан; Вайтьянатан, Шивакумар (2002). «Thumbs up?». Труды конференции ACL-02 по эмпирическим методам в обработке естественного языка . Том 10. С. 79–86. doi :10.3115/1118693.1118704. S2CID 7105713.
^ Эрик Камбрия; Роберт Спир; Кэтрин Хаваси; Амир Хусейн (2010). «SenticNet: общедоступный семантический ресурс для анализа мнений» (PDF) . Труды АААИ ЦСК . стр. 14–18.
^ Кальво, Рафаэль А.; д'Мелло, Сидни (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». Труды IEEE по аффективным вычислениям . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID 753606.
^ Шен, Цзямин; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Цзинбо; Синха, Саураб; Хан, Цзявэй (27 июня 2018 г.). Поиск по набору сущностей в научной литературе: неконтролируемый подход к ранжированию . АКМ. стр. 565–574. дои : 10.1145/3209978.3210055. ISBN978-1-4503-5657-2. S2CID 13748283.
^ Вальтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (2017-02-06). «Красота серной бабочки: новизна патентов, выявленных с помощью анализа ближней среды на основе интеллектуального анализа текста». Scientometrics . 111 (1): 103–115. doi :10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
^ Ролл, Ури; Коррейя, Рикардо А.; Бергер-Тал, Одед (10.03.2018). «Использование машинного обучения для выделения омонимов в больших текстовых корпусах». Conservation Biology . 32 (3): 716–724. doi : 10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
^ ab Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; S Sudhahar, GA Veltri, N Cristianini; Большие данные и общество 2 (1), 1-28, 2015
^ Сетевой анализ повествовательного контента в больших корпусах; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
^ Лансдалл-Уэлфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, FindMyPast Newspaper; Кристианини, Нелло (2017-01-09). «Анализ контента 150 лет британских периодических изданий». Труды Национальной академии наук . 114 (4): E457–E465. Bibcode : 2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN 0027-8424. PMC 5278459. PMID 28069962 .
^ И. Флаунас, М. Турки, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, т. 5(12), стр. e14243, 2010.
^ Прогнозирование текущих событий в социальных сетях с помощью статистического обучения В. Лампос, Н. Кристианини; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
^ NOAM: система анализа и мониторинга новостных каналов; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini. Труды международной конференции ACM SIGMOD 2011 года по управлению данными
^ Автоматическое обнаружение закономерностей в медиаконтенте, Н. Кристианини, Комбинаторное сопоставление закономерностей, 2-13, 2011
^ И. Флаунас, О. Али, Т. Лансдалл-Уэлфэр, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
^ Циркадные вариации настроения в контенте Twitter; Фейбон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения в области мозга и нейронауки, 1, 2398212817744501.
^ Влияние рецессии на общественное настроение в Великобритании; T Lansdall-Welfare, V Lampos, N Cristianini; сессия Mining Social Network Dynamics (MSND) по приложениям социальных сетей
^ Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторских правах. Архивировано 9 июня 2014 г. на Wayback Machine.
^ "Лицензии для Европы – структурированный диалог заинтересованных сторон 2013". Европейская комиссия . Получено 14 ноября 2014 г.
^ "Text and Data Mining:Its important and the need for change in Europe". Ассоциация европейских исследовательских библиотек . 2013-04-25. Архивировано из оригинала 2014-11-29 . Получено 14 ноября 2014 г.
^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Books – победа в деле добросовестного использования». Lexology . Antonelli Law Ltd. 19 ноября 2013 г. Получено 14 ноября 2014 г.
Ананиаду, С. и Макнот, Дж. (редакторы) (2006). Текстовый интеллектуальный анализ для биологии и биомедицины . Artech House Books. ISBN 978-1-58053-984-5
Билисоли, Р. (2008). Практический анализ текста с помощью Perl . Нью-Йорк: John Wiley & Sons. ISBN 978-0-470-17643-6
Фельдман, Р. и Сэнгер, Дж. (2006). Справочник по интеллектуальному анализу текста . Нью-Йорк: Cambridge University Press. ISBN 978-0-521-83657-9
Hotho, A., Nürnberger, A. и Paaß, G. (2005). "Краткий обзор интеллектуального анализа текста". В Ldv Forum, том 20(1), стр. 19-62
Индуркхья, Н. и Дамерау, Ф. (2010). Справочник по обработке естественного языка , 2-е издание. Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4200-8592-1
Kao, A., и Poteet, S. (редакторы). Обработка естественного языка и интеллектуальный анализ текста . Springer. ISBN 1-84628-175-X
Кончади, М. Программирование приложений для интеллектуального анализа текста (серия «Программирование») . Charles River Media. ISBN 1-58450-460-9
Мэннинг, К. и Шутце, Х. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-13360-9
Майнер, Г., Элдер, Дж., Хилл. Т., Нисбет, Р., Делен, Д. и Фаст, А. (2012). Практический анализ текста и статистический анализ для приложений неструктурированных текстовых данных . Elsevier Academic Press. ISBN 978-0-12-386979-1
Макнайт, В. (2005). «Создание бизнес-аналитики: интеллектуальный анализ текстовых данных в бизнес-аналитике». DM Review , 21–22.
Шривастава, А. и Сахами. М. (2009). Текстовый интеллектуальный анализ: классификация, кластеризация и приложения . Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4200-5940-3
Занаси, А. (редактор) (2007). Текстовый интеллектуальный анализ и его применение в разведке, CRM и управлении знаниями . WIT Press. ISBN 978-1-84564-131-3
Внешние ссылки
Марти Херст: Что такое интеллектуальный анализ текста? (октябрь 2003 г.)
Автоматическое извлечение контента, Linguistic Data Consortium Архивировано 25.09.2013 на Wayback Machine