Текстовая добыча

Текстовый интеллектуальный анализ , интеллектуальный анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он включает в себя «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». ^[1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем разработки шаблонов и тенденций с помощью таких средств, как статистическое обучение шаблонам . Согласно Hotho et al. (2005), мы можем различать три различных перспективы текстового интеллектуального анализа: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). ^[2] Текстовый интеллектуальный анализ обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ , наряду с добавлением некоторых производных языковых признаков и удалением других, и последующей вставкой в базу данных ), выведение шаблонов в структурированных данных и, наконец, оценку и интерпретацию выходных данных. «Высокое качество» в текстовом анализе обычно относится к некоторой комбинации релевантности , новизны и интереса. Типичные задачи текстового анализа включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание гранулярных таксономий, анализ настроений , резюмирование документов и моделирование отношений сущностей ( т. е . изучение отношений между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения частотных распределений слов, распознавание образов , тегирование / аннотацию , извлечение информации , методы добычи данных , включая анализ связей и ассоциаций, визуализацию и предиктивную аналитику . Главной целью, по сути, является превращение текста в данные для анализа с помощью применения обработки естественного языка (NLP), различных типов алгоритмов и аналитических методов. Важной фазой этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей предиктивной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале работы с текстовым интеллектуальным анализом. Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. ^[3]

Текстовая аналитика

Текстовая аналитика описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационное содержание текстовых источников для бизнес-аналитики , разведывательного анализа данных , исследований или расследований. ^[4] Этот термин примерно синонимичен текстовому анализу; действительно, Ронен Фельдман изменил описание «текстового анализа» 2000 года ^[5] в 2004 году, чтобы описать «текстовую аналитику». ^[6] Последний термин теперь чаще используется в деловых условиях, в то время как «текстовый анализ» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, ^[7] в частности, в исследованиях в области естественных наук и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для решения бизнес-задач, независимо от того, применяется ли она самостоятельно или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов информации, относящейся к бизнесу, возникает в неструктурированной форме, в основном в виде текста. ^[8] Эти методы и процессы обнаруживают и представляют знания — факты, бизнес-правила и отношения, — которые в противном случае были бы заперты в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

Сокращение размерности является важным методом предварительной обработки данных. Метод используется для определения корня слова для фактических слов и уменьшения размера текстовых данных. ^{[ необходима цитата ]}
Поиск или идентификация информации в корпусе — это подготовительный этап: сбор или идентификация набора текстовых материалов, размещенных в Интернете или хранящихся в файловой системе , базе данных или менеджере корпусов контента , для анализа.
Хотя некоторые системы текстовой аналитики применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую как разметка частей речи , синтаксический разбор и другие типы лингвистического анализа. ^[9]
Распознавание именованных сущностей — это использование справочников или статистических методов для идентификации именованных текстовых объектов: людей, организаций, географических названий, биржевых тикеров, определенных сокращений и т. д.
Разрешение неоднозначности — использование контекстных подсказок — может потребоваться для решения вопроса, например, где «Форд» может относиться к бывшему президенту США, производителю транспортных средств, кинозвезде, переправе через реку или какой-либо другой сущности. ^[10]
Распознавание сущностей, идентифицированных по шаблону: такие признаки, как номера телефонов, адреса электронной почты, количества (с единицами измерения), можно распознать с помощью регулярных выражений или других сопоставлений с шаблонами .
Кластеризация документов : идентификация наборов похожих текстовых документов. ^[11]
Кореференция : идентификация именных фраз и других терминов, которые относятся к одному и тому же объекту.
Извлечение взаимосвязей, фактов и событий: выявление связей между сущностями и другой информацией в текстах.
Анализ настроений включает в себя различение субъективного (в отличие от фактического) материала и извлечение различных форм информации об отношении: настроения, мнения, настроения и эмоции. Методы анализа текста помогают анализировать настроения на уровне сущности, концепции или темы и различать носителей мнений и объекты. ^[12]
Количественный анализ текста представляет собой набор методов, происходящих из социальных наук, где либо человек-эксперт, либо компьютер извлекает семантические или грамматические связи между словами, чтобы выяснить значение или стилистические закономерности, как правило, случайного личного текста с целью психологического профилирования и т. д. ^[13]
Предварительная обработка обычно включает в себя такие задачи, как токенизация, фильтрация и стемминг.

Приложения

Технология интеллектуального анализа текста в настоящее время широко применяется для самых разных нужд правительства, исследований и бизнеса. Все эти группы могут использовать интеллектуальный анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Юристы могут использовать интеллектуальный анализ текста для электронного обнаружения , например. Правительства и военные группы используют интеллектуальный анализ текста для целей национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. для решения проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях ^[14]^[15]^[16] ), и для поддержки научных открытий в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматизированного размещения рекламы , среди множества других видов деятельности.

Приложения безопасности

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как интернет-новости , блоги и т. д., в целях национальной безопасности . ^[17] Он также участвует в изучении шифрования / дешифрования текста .

Биомедицинские приложения

Описан ряд приложений для интеллектуального анализа текста в биомедицинской литературе, ^[19] включая вычислительные подходы для помощи в исследованиях по стыковке белков , ^[20] взаимодействия белков , ^[21]^[22] и ассоциаций белок-болезнь. ^[23] Кроме того, с большими наборами текстовых данных пациентов в клинической области, наборами данных демографической информации в популяционных исследованиях и отчетами о неблагоприятных событиях, интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию определенных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. ^[24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая объединяет интеллектуальный анализ биомедицинского текста с сетевой визуализацией. ^[25]^[26] GoPubMed — это поисковая система на основе знаний для биомедицинских текстов. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области ^[27]

Программные приложения

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способ улучшения своих результатов. В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . ^[28] Для учебных целей программное обеспечение Weka является одним из самых популярных вариантов в научном мире, выступая в качестве отличной отправной точки для новичков. Для программистов Python существует отличный набор инструментов под названием NLTK для более общих целей. Для более продвинутых программистов также есть библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Онлайн-медиа приложения

Текстовый интеллектуальный анализ используется крупными медиакомпаниями, такими как Tribune Company , для уточнения информации и предоставления читателям большего опыта поиска, что в свою очередь увеличивает «прилипаемость» сайта и доход. Кроме того, на бэкэнде редакторы получают выгоду, поскольку могут делиться, связывать и упаковывать новости по всем свойствам, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . ^[29] Куссемент и Ван ден Поэль (2008) ^[30]^[31] применяют ее для улучшения моделей предиктивной аналитики для оттока клиентов ( убыли клиентов ). ^[30] Текстовая аналитика также применяется для прогнозирования доходности акций. ^[32]

Анализ настроений

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятен обзор для продукта. ^[33] Такой анализ может потребовать маркированного набора данных или маркировки аффективности слов. Ресурсы по аффективности слов и концепций были созданы для WordNet ^[34] и ConceptNet ^[35] соответственно .

Текст использовался для обнаружения эмоций в смежной области аффективных вычислений. ^[36] Подходы к аффективным вычислениям на основе текста применялись в нескольких корпусах, таких как оценки студентов, детские рассказы и новостные сюжеты.

Научный анализ литературы и академические приложения

Проблема интеллектуального анализа текста важна для издателей, которые имеют большие базы данных информации, требующей индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature об открытом интерфейсе интеллектуального анализа текста (OTMI) и общее определение типа документа для публикации журналов (DTD) Национального института здравоохранения , которое будет предоставлять семантические подсказки машинам для ответа на конкретные запросы, содержащиеся в тексте, не устраняя при этом барьеры издателя для публичного доступа.

К инициативе по анализу текста также подключились академические учреждения:

Национальный центр интеллектуального анализа текста (NaCTeM) является первым в мире финансируемым государством центром интеллектуального анализа текста. NaCTeM управляется Манчестерским университетом ^[37] в тесном сотрудничестве с Tsujii Lab ^[38] Токийским университетом . ^[39] NaCTeM предоставляет индивидуальные инструменты, исследовательские возможности и дает рекомендации академическому сообществу. Они финансируются Объединенным комитетом по информационным системам (JISC) и двумя исследовательскими советами Великобритании ( EPSRC и BBSRC ). Первоначально сосредоточившись на интеллектуальном анализе текста в биологических и биомедицинских науках, исследования с тех пор расширились в области социальных наук .
В Соединенных Штатах Школа информации Калифорнийского университета в Беркли разрабатывает программу под названием BioText, призванную помочь исследователям- биологам в извлечении и анализе текстов.
Портал анализа текста для исследований (TAPoR), в настоящее время размещенный в Университете Альберты , представляет собой научный проект по каталогизации приложений для анализа текста и созданию шлюза для исследователей, впервые приступающих к этой практике.

Методы поиска научной литературы

Разработаны вычислительные методы для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, ^[40] определения новизны, ^[41] и уточнения омонимов ^[42] среди технических отчетов.

Цифровые гуманитарные науки и вычислительная социология

Автоматический анализ обширных текстовых корпусов создал возможность для ученых анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми вспомогательными технологиями стали синтаксический анализ, машинный перевод , тематическая категоризация и машинное обучение.

Повествовательная сеть выборов в США 2012 года ^[43]

Автоматический разбор текстовых корпусов позволил извлекать субъектов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов из теории сетей для определения ключевых субъектов, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная устойчивость всей сети или центральность определенных узлов. ^[44] Это автоматизирует подход, введенный количественным повествовательным анализом, ^[45] посредством которого триплеты субъект-глагол-объект идентифицируются с парами субъектов, связанных действием, или парами, образованными субъектом-объектом. ^[43]

Анализ контента долгое время был традиционной частью социальных наук и медиа-исследований. Автоматизация анализа контента позволила совершить революцию « больших данных » в этой области, с исследованиями в социальных сетях и газетном контенте, которые включают миллионы новостных статей. Гендерная предвзятость , читабельность , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов интеллектуального анализа текста на миллионах документов. ^[46]^[47]^[48]^[49]^[50] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован в работе Флаунаса и др. ^[51], где показано, как разные темы имеют разные гендерные предвзятости и уровни читабельности; также была продемонстрирована возможность обнаружения моделей настроения у большой группы населения путем анализа контента Twitter. ^[52]^[53]

Программное обеспечение

Программы для компьютерного анализа текста доступны во многих коммерческих и открытых источниках и компаниях.

Право интеллектуальной собственности

Ситуация в Европе

Видеоролик кампании Fix Copyright, объясняющий TDM и проблемы с авторскими правами в ЕС, 2016 г. [3:51]

Согласно европейским законам об авторском праве и базах данных , майнинг произведений, защищенных авторским правом (например, веб-майнинг ) без разрешения владельца авторских прав является незаконным. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве ^[54], чтобы разрешить майнинг текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это, после Японии , которая ввела исключение, специально предназначенное для майнинга, в 2009 году. Однако из-за ограничения Директивы об информационном обществе (2001) исключение Великобритании разрешает майнинг контента только в некоммерческих целях. Закон об авторском праве Великобритании не позволяет отменять это положение договорными условиями.

Европейская комиссия организовала обсуждение с заинтересованными сторонами по вопросам интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы». ^[55] Тот факт, что основное внимание при решении этой юридической проблемы уделялось лицензиям, а не ограничениям и исключениям из закона об авторском праве, побудил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае 2013 года. ^[56]

Ситуация в Соединенных Штатах

Закон США об авторском праве , и в частности его положения о добросовестном использовании , означает, что интеллектуальный анализ текста в Америке, а также в других странах с добросовестным использованием, таких как Израиль, Тайвань и Южная Корея, рассматривается как законный. Поскольку интеллектуальный анализ текста является преобразующим, то есть он не заменяет оригинальную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках урегулирования Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки — одним из таких видов использования был интеллектуальный анализ текста и данных. ^[57]

Ситуация в Австралии

В австралийском законе об авторском праве нет исключений для интеллектуального анализа текстов или данных в рамках Закона об авторском праве 1968 года . Комиссия по реформе законодательства Австралии отметила, что маловероятно, что исключение о добросовестном использовании «исследований и изучений» будет распространяться и на такую тему, поскольку оно будет выходить за рамки требования «разумной доли». ^[58]

Подразумеваемое

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, который находил только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , интеллектуальный анализ текста может находить контент на основе смысла и контекста (а не просто по определенному слову). Кроме того, программное обеспечение для интеллектуального анализа текста может использоваться для создания больших досье информации о конкретных людях и событиях. Например, большие наборы данных на основе данных, извлеченных из новостных сообщений, могут быть созданы для упрощения анализа социальных сетей или контрразведки . По сути, программное обеспечение для интеллектуального анализа текста может действовать в качестве, аналогичном аналитику разведки или библиотекарю-исследователю, хотя и с более ограниченной областью анализа. Интеллектуальный анализ текста также используется в некоторых фильтрах спама электронной почты как способ определения характеристик сообщений, которые, вероятно, являются рекламой или другим нежелательным материалом. Интеллектуальный анализ текста играет важную роль в определении настроений на финансовом рынке .

Смотрите также

Разработка концепций
Обработка документов
Полный текстовый поиск
Список программного обеспечения для интеллектуального анализа текста
Настроения рынка
Разрешение имени (семантика и извлечение текста)
Признание имени субъекта
Аналитика новостей
Изучение онтологии
Запись связи
Последовательный анализ шаблонов (интеллектуальный анализ строк и последовательностей)
w-дранка
Веб-майнинг — задача, которая может включать в себя интеллектуальный анализ текста (например, сначала найдите соответствующие веб-страницы, классифицируя просканированные веб-страницы, а затем извлеките нужную информацию из текстового содержимого этих страниц, которые считаются релевантными)

Ссылки

Цитаты

^ «Марти Херст: Что такое интеллектуальный анализ текста?».
^ Hotho, A., Nürnberger, A. и Paaß, G. (2005). "Краткий обзор интеллектуального анализа текста". В Ldv Forum, том 20(1), стр. 19-62
^ Фельдман, Р. и Сэнгер, Дж. (2007). Справочник по интеллектуальному анализу текста. Cambridge University Press. Нью-Йорк
^ [1] Архивировано 29 ноября 2009 г. на Wayback Machine.
^ "Семинар KDD-2000 по интеллектуальному анализу текста – Приглашение подавать доклады". Cs.cmu.edu . Получено 23.02.2015 .
^ [2] Архивировано 3 марта 2012 г. на Wayback Machine.
^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Труды 9-й конференции по компьютерной лингвистике . Том 1. С. 127–32. doi :10.3115/991813.991833. S2CID 6433117.
^ "Неструктурированные данные и правило 80 процентов". Breakthrough Analysis. Август 2008 г. Получено 23 февраля 2015 г.
^ Антунес, Жуан (14 ноября 2018 г.). Исследование контекстной информации для семантического представления текста (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. doi : 10.11606/d.55.2019.tde-03012019-103253 .
^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение неоднозначности смысла слов: единый подход». Труды Ассоциации компьютерной лингвистики . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN 2307-387X.
^ Чанг, Вуй Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов». Neural Processing Letters . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
^ Бенчимол, Джонатан; Казинник, София; Саадон, Йосси (2022). «Методологии интеллектуального анализа текста с R: применение к текстам центрального банка». Машинное обучение с приложениями . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID 243798160.
^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по многометодному измерению в психологии . стр. 141. doi :10.1037/11383-011. ISBN 978-1-59147-318-3.
^ Панг, Бо; Ли, Лиллиан (2008). «Изучение мнений и анализ настроений». Основы и тенденции в области поиска информации . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
^ Палтоглу, Георгиос; Телуолл, Майк (2012-09-01). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». ACM Transactions on Intelligent Systems and Technology . 3 (4): 66. doi :10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
^ "Анализ настроений в Twitter < SemEval-2017 Задача 4". alt.qcri.org . Получено 2018-10-02 .
^ Zanasi, Alessandro (2009). "Виртуальное оружие для реальных войн: интеллектуальный анализ текста для национальной безопасности". Труды Международного семинара по вычислительному интеллекту в безопасности информационных систем CISIS'08 . Достижения в области мягких вычислений. Том 53. стр. 53. doi :10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
^ Бадал, Варша Д.; Кундротас, Петрас Дж.; Ваксер, Илья А. (2015-12-09). "Text Mining for Protein Docking". PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN 1553-7358. PMC 4674139. PMID 26650466 .
^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с текстовым интеллектуальным анализом». PLOS Computational Biology . 4 (1): e20. Bibcode : 2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579. PMID 18225946 .
^ Бадал, В. Д.; Кундротас, П. Дж.; Ваксер, И. А. (2015). «Интеллектуальный анализ текста для стыковки белков». PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139. PMID 26650466 .
^ Папаниколау, Николас; Павлопулос, Георгиос А.; Феодосиу, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозирование межбелкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. ПМИД 25448298.
^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18.10.2016). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, сделанные широкодоступными». Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014 .
^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Юй; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кауфилд, Джон Х.; Ван, Вэй; Пин, Пэйпэй; Хан, Цзявэй (2018-10-01). «Извлечение фраз из текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406 .
^ Ван Ле, Д.; Монтгомери, Дж.; Киркби, К.С.; Скэнлан, Дж. (10 августа 2018 г.). «Прогнозирование риска с использованием обработки естественного языка электронных записей о психическом здоровье в стационарном отделении судебной психиатрии». Журнал биомедицинской информатики . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID 30118855.
^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовски, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Nature Genetics . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
^ Masys, Daniel R. (2001). «Связывание данных микрочипов с литературой». Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
^ Ренганатан, Винайтертан (2017). «Интеллектуальный анализ текста в биомедицинской области с упором на кластеризацию документов». Healthcare Informatics Research . 23 (3): 141–146. doi : 10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048 .
^ [3] Архивировано 4 октября 2013 г. на Wayback Machine.
^ "Текстовая аналитика". Medallia . Получено 2015-02-23 .
^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). «Интеграция мнений клиентов через электронные письма колл-центра в систему поддержки принятия решений для прогнозирования оттока». Информация и менеджмент . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005.
^ Куссемент, Кристоф; Ван Ден Пул, Дирк (2008). «Улучшение управления жалобами клиентов путем автоматической классификации электронной почты с использованием лингвистических стилевых особенностей в качестве предикторов». Системы поддержки принятия решений . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности интеллектуального анализа онлайн-досок объявлений в системах автоматического прогнозирования акций». Журнал вычислительной науки . 19 : 1877–7503. doi : 10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
^ Панг, Бо; Ли, Лиллиан; Вайтьянатан, Шивакумар (2002). «Thumbs up?». Труды конференции ACL-02 по эмпирическим методам в обработке естественного языка . Том 10. С. 79–86. doi :10.3115/1118693.1118704. S2CID 7105713.
^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Развитие аффективных лексических ресурсов» (PDF) . PsychNology Journal . 2 (1): 61–83.
^ Эрик Камбрия; Роберт Спир; Кэтрин Хаваси; Амир Хуссейн (2010). «SenticNet: общедоступный семантический ресурс для анализа мнений» (PDF) . Труды AAAI CSK . стр. 14–18.
^ Кальво, Рафаэль А.; д'Мелло, Сидни (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». Труды IEEE по аффективным вычислениям . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID 753606.
^ "Манчестерский университет". Manchester.ac.uk . Получено 23.02.2015 .
^ "Лаборатория Цудзи". Tsujii.is.su-tokyo.ac.jp. Архивировано из оригинала 2012-03-07 . Получено 2015-02-23 .
^ "Токийский университет". UTokyo . Получено 23.02.2015 .
^ Шэнь, Цзямин; Сяо, Цзиньфэн; Хэ, Синьвэй; Шан, Цзинбо; Синха, Саурабх; Хан, Цзявэй (2018-06-27). Поиск набора сущностей в научной литературе: подход к ранжированию без учителя . ACM. стр. 565–574. doi :10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
^ Вальтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (2017-02-06). «Красота серной бабочки: новизна патентов, выявленных с помощью анализа ближней среды на основе интеллектуального анализа текста». Scientometrics . 111 (1): 103–115. doi :10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
^ Ролл, Ури; Коррейя, Рикардо А.; Бергер-Тал, Одед (10.03.2018). «Использование машинного обучения для выделения омонимов в больших текстовых корпусах». Conservation Biology . 32 (3): 716–724. doi : 10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
^ ab Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; S Sudhahar, GA Veltri, N Cristianini; Большие данные и общество 2 (1), 1-28, 2015
^ Сетевой анализ повествовательного контента в больших корпусах; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
^ Лансдалл-Уэлфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, FindMyPast Newspaper; Кристианини, Нелло (2017-01-09). «Анализ контента 150 лет британских периодических изданий». Труды Национальной академии наук . 114 (4): E457–E465. Bibcode : 2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN 0027-8424. PMC 5278459. PMID 28069962 .
^ И. Флаунас, М. Турки, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, т. 5(12), стр. e14243, 2010.
^ Прогнозирование текущих событий в социальных сетях с помощью статистического обучения В. Лампос, Н. Кристианини; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
^ NOAM: система анализа и мониторинга новостных каналов; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini. Труды международной конференции ACM SIGMOD 2011 года по управлению данными
^ Автоматическое обнаружение закономерностей в медиаконтенте, Н. Кристианини, Комбинаторное сопоставление закономерностей, 2-13, 2011
^ И. Флаунас, О. Али, Т. Лансдалл-Уэлфэр, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
^ Циркадные вариации настроения в контенте Twitter; Фейбон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения в области мозга и нейронауки, 1, 2398212817744501.
^ Влияние рецессии на общественное настроение в Великобритании; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) сессия по приложениям социальных сетей
^ Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторских правах. Архивировано 9 июня 2014 г. на Wayback Machine.
^ "Лицензии для Европы – структурированный диалог заинтересованных сторон 2013". Европейская комиссия . Получено 14 ноября 2014 г.
^ "Text and Data Mining: Its important and the need for change in Europe". Ассоциация европейских исследовательских библиотек . 2013-04-25. Архивировано из оригинала 2014-11-29 . Получено 14 ноября 2014 г.
^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Books — победа в деле о добросовестном использовании». Lexology . Antonelli Law Ltd. 19 ноября 2013 г. Получено 14 ноября 2014 г.
^ "Text and data mining". Australian Law Reform Commission . 4 июня 2013 г. Получено 10 февраля 2023 г.

Источники

Ананиаду, С. и Макнот, Дж. (редакторы) (2006). Текстовый интеллектуальный анализ для биологии и биомедицины . Artech House Books. ISBN 978-1-58053-984-5
Билисоли, Р. (2008). Практический анализ текста с помощью Perl . Нью-Йорк: John Wiley & Sons. ISBN 978-0-470-17643-6
Фельдман, Р. и Сэнгер, Дж. (2006). Справочник по интеллектуальному анализу текста . Нью-Йорк: Cambridge University Press. ISBN 978-0-521-83657-9
Hotho, A., Nürnberger, A. и Paaß, G. (2005). "Краткий обзор интеллектуального анализа текста". В Ldv Forum, том 20(1), стр. 19-62
Индуркхья, Н. и Дамерау, Ф. (2010). Справочник по обработке естественного языка , 2-е издание. Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4200-8592-1
Kao, A., и Poteet, S. (редакторы). Обработка естественного языка и интеллектуальный анализ текста . Springer. ISBN 1-84628-175-X
Кончади, М. Программирование приложений для интеллектуального анализа текста (серия «Программирование») . Charles River Media. ISBN 1-58450-460-9
Мэннинг, К. и Шутце, Х. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-13360-9
Майнер, Г., Элдер, Дж., Хилл. Т., Нисбет, Р., Делен, Д. и Фаст, А. (2012). Практический анализ текста и статистический анализ для приложений неструктурированных текстовых данных . Elsevier Academic Press. ISBN 978-0-12-386979-1
Макнайт, В. (2005). «Создание бизнес-аналитики: интеллектуальный анализ текстовых данных в бизнес-аналитике». DM Review , 21-22.
Шривастава, А. и Сахами. М. (2009). Текстовый интеллектуальный анализ: классификация, кластеризация и приложения . Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4200-5940-3
Занаси, А. (редактор) (2007). Текстовый интеллектуальный анализ и его применение в разведке, CRM и управлении знаниями . WIT Press. ISBN 978-1-84564-131-3

Внешние ссылки

Марти Херст: Что такое интеллектуальный анализ текста? (октябрь 2003 г.)
Автоматическое извлечение контента, Linguistic Data Consortium Архивировано 25.09.2013 на Wayback Machine
Автоматическое извлечение контента, NIST