Анализ текста

Интеллектуальный анализ текста , анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он предполагает «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». ^[1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как статистическое изучение закономерностей . По данным Хото и др. (2005) мы можем различать три различных подхода к интеллектуальному анализу текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). ^[2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ вместе с добавлением некоторых производных лингвистических функций и удалением других, а также последующую вставку в базу данных ), получение шаблонов внутри структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» при интеллектуальном анализе текста обычно означает некоторую комбинацию релевантности , новизны и интереса. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание детальной таксономии, анализ настроений , обобщение документов и моделирование отношений сущностей ( т. е . изучение связей между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения распределения частот слов, распознавание образов , тегирование / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Основная цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью применения обработки естественного языка (НЛП), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей прогнозной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале анализа текста . Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. ^[3]

Текстовая аналитика

Текстовый анализ описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследований или расследований. ^[4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, Ронен Фельдман изменил описание «текстового анализа» 2000 года ^[5] в 2004 году, чтобы описать «текстовый анализ». ^[6] Последний термин сейчас чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, ^[7] особенно в области биологических исследований и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для реагирования на бизнес-проблемы независимо или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов деловой информации возникает в неструктурированной форме, в основном в текстовой форме. ^[8] Эти методы и процессы обнаруживают и представляют знания – факты, бизнес-правила и отношения – которые в противном случае заперты в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

Уменьшение размерности является важным методом предварительной обработки данных. Этот метод используется для определения корневого слова реальных слов и уменьшения размера текстовых данных. ^{[ нужна цитата ]}
Поиск информации или идентификация корпуса — это подготовительный этап: сбор или идентификация набора текстовых материалов, находящихся в Интернете или хранящихся в файловой системе , базе данных или менеджере корпуса контента , для анализа.
Хотя некоторые системы анализа текста применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую как часть речевых тегов , синтаксический анализ и другие виды лингвистического анализа. ^[9]
Распознавание названного объекта — это использование справочников или статистических методов для идентификации названных элементов текста: людей, организаций, географических названий, биржевых символов, определенных сокращений и т. д.
Устранение неоднозначности — использование контекстуальных подсказок — может потребоваться, чтобы решить, где, например, «Форд» может относиться к бывшему президенту США, производителю автомобилей, кинозвезде, переправе через реку или какому-либо другому объекту. ^[10]
Распознавание объектов, идентифицируемых по шаблону. Такие функции, как номера телефонов, адреса электронной почты, количества (с единицами измерения), можно распознать с помощью регулярных выражений или других сопоставлений с шаблонами .
Кластеризация документов : идентификация наборов похожих текстовых документов. ^[11]
Кореферентность : идентификация именной группы и других терминов, относящихся к одному и тому же объекту.
Связь, факт и событие. Извлечение: выявление ассоциаций между объектами и другой информацией в текстах.
Анализ настроений включает в себя различение субъективного (в отличие от фактического) материала и извлечение различных форм информации об отношениях: чувств, мнений, настроений и эмоций. Методы анализа текста помогают анализировать настроения на уровне сущности, концепции или темы и различать держателей мнений и объектов. ^[12]
Количественный анализ текста — это набор методов, зародившихся в социальных науках, где либо человек-судья, либо компьютер извлекает семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические закономерности, обычно случайного личного текста, с целью психологическое профилирование и т. д. ^[13]
Предварительная обработка обычно включает в себя такие задачи, как токенизация, фильтрация и стемминг.

Приложения

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач правительства, исследований и бизнеса. Все эти группы могут использовать анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Например, юристы могут использовать интеллектуальный анализ текста для обнаружения электронных данных . Правительства и военные группировки используют анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. решению проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях ^[14]^[15]^[16] ) . и поддерживать научные открытия в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для множества других действий.

Приложения безопасности

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как новости Интернета , блоги и т. д., в целях национальной безопасности . ^[17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения

В биомедицинской литературе был описан ряд применений интеллектуального анализа текста, ^[19] включая вычислительные подходы для помощи в исследованиях стыковки белков , ^[20] взаимодействий белков , ^[21]^[22] и ассоциаций белков и заболеваний. ^[23] Кроме того, благодаря большим наборам текстовых данных пациентов в клинической области, наборам демографических данных в популяционных исследованиях и отчетам о нежелательных явлениях анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. ^[24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая сочетает в себе биомедицинский анализ текста с сетевой визуализацией. ^[25]^[26] GoPubMed — это основанная на знаниях поисковая система по биомедицинским текстам. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области ^[27].

Программные приложения

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способа улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . ^[28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире и служит отличной отправной точкой для новичков. Для программистов Python существует отличный инструментарий NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Приложения для онлайн-медиа

Анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям более удобных возможностей поиска, что, в свою очередь, увеличивает «прилипчивость» сайта и доходы. Кроме того, редакторы получают выгоду от возможности делиться, связывать и упаковывать новости между ресурсами, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . ^[29] Куссемент и Ван ден Поел (2008) ^[30]^[31] применяют его для улучшения моделей прогнозной аналитики оттока клиентов ( истощение клиентов ). ^[30] Анализ текста также применяется для прогнозирования доходности акций. ^[32]

Анализ настроений

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятным является отзыв о продукте. ^[33] Для такого анализа может потребоваться размеченный набор данных или маркировка эффективности слов . Ресурсы по эффективности слов и понятий были созданы для WordNet ^[34] и ConceptNet , ^[35] соответственно.

Текст использовался для обнаружения эмоций в соответствующей области аффективных вычислений. ^[36] Текстовые подходы к аффективным вычислениям использовались в различных корпусах, таких как оценки учащихся, детские рассказы и новости.

Научная литература по горному делу и академическое применение

Проблема анализа текста важна для издателей, которые владеют большими базами данных, требующими индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и общее определение типа документа для публикации журнала (DTD) Национального института здравоохранения , которое будет предоставлять машинам семантические подсказки для ответа на конкретные запросы, содержащиеся в текст, не снимая барьеров издателей для публичного доступа.

Академические учреждения также присоединились к инициативе интеллектуального анализа текста:

Национальный центр интеллектуального анализа текста (NaCTeM) — первый в мире центр интеллектуального анализа текста, финансируемый государством. NaCTeM управляется Манчестерским университетом ^[37] в тесном сотрудничестве с лабораторией Tsujii ^[38] Токийского университета . ^[39] NaCTeM предоставляет индивидуальные инструменты, исследовательские возможности и дает советы академическому сообществу. Они финансируются Объединенным комитетом информационных систем (JISC) и двумя исследовательскими советами Великобритании ( EPSRC и BBSRC ). Первоначальное внимание было сосредоточено на интеллектуальном анализе текста в биологических и биомедицинских науках, а затем исследования распространились на области социальных наук .
В Соединенных Штатах Школа информации Калифорнийского университета в Беркли разрабатывает программу под названием BioText, которая поможет исследователям -биологам в извлечении и анализе текста.
Портал анализа текста для исследований (TAPoR), в настоящее время расположенный в Университете Альберты , представляет собой научный проект по каталогизации приложений анализа текста и созданию портала для исследователей, впервые знакомых с этой практикой.

Методы добычи научной литературы

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, ^[40] определения новизны, ^[41] и уточнения омонимов ^[42] среди технических отчетов.

Цифровые гуманитарные науки и компьютерная социология

Автоматический анализ обширных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми технологиями являются синтаксический анализ, машинный перевод , категоризация тем и машинное обучение.

Нарративная сеть выборов в США 2012 г. ^[43]

Автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для выявления ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. ^[44] Это автоматизирует подход, введенный количественным нарративным анализом, ^[45] при котором тройки субъект-глагол-объект идентифицируются с парами актеров, связанных действием, или парами, образованными актером-объектом. ^[43]

Контент-анализ уже давно стал традиционной частью социальных наук и медиаисследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области: исследования социальных сетей и газетного контента включают миллионы новостей. Гендерная предвзятость , читабельность , сходство содержания, предпочтения читателей и даже настроение были проанализированы на основе методов анализа текста на миллионах документов. ^[46]^[47]^[48]^[49]^[50] Анализ читабельности, гендерной и тематической предвзятости был продемонстрирован в работе Flaounas et al. ^[51] показывает, как разные темы имеют разные гендерные предубеждения и уровни читабельности; Также была продемонстрирована возможность выявления моделей настроения у огромной популяции путем анализа контента Twitter. ^[52]^[53]

Программное обеспечение

Компьютерные программы для анализа текста доступны во многих коммерческих компаниях и источниках с открытым исходным кодом . См. Список программного обеспечения для интеллектуального анализа текста .

Закон об интеллектуальной собственности

Ситуация в Европе

Видео кампании Fix Copyright, объясняющей TDM и проблемы авторского права в ЕС, 2016 г. [3:51]

Согласно европейским законам об авторском праве и базах данных , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве ^[54] , разрешив интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это после Японии , которая в 2009 году ввела исключение, касающееся горнодобывающей промышленности. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение в Великобритании разрешает добычу контента только для целей, не связанных с добычей полезных ископаемых. коммерческие цели. Законодательство Великобритании об авторском праве не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». ^[55] Тот факт, что в центре внимания при решении этого юридического вопроса оказались лицензии, а не ограничения и исключения из закона об авторском праве, заставил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае. 2013. ^[56]

Ситуация в США

Закон США об авторском праве и, в частности, его положения о добросовестном использовании означают, что майнинг текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких применений является интеллектуальный анализ текста и данных. . ^[57]

Ситуация в Австралии

В австралийском законе об авторском праве нет исключений для интеллектуального анализа текста или данных в рамках Закона об авторском праве 1968 года . Австралийская комиссия по реформе законодательства отметила, что маловероятно, что исключение в отношении добросовестной деловой практики в отношении «исследований и исследований» будет распространяться и на такую тему, поскольку оно будет выходить за рамки требования «разумной доли». ^[58]

Подразумеваемое

До недавнего времени на веб-сайтах чаще всего использовался текстовый поиск, в результате которого находили только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для интеллектуального анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных сообщений, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение для анализа текста может действовать в качестве аналитика разведки или библиотекаря-исследователя, хотя и с более ограниченным объемом анализа. Анализ текста также используется в некоторых спам-фильтрах электронной почты как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

Смотрите также

Концепция майнинга
Обработка документов
Полнотекстовый поиск
Список программного обеспечения для интеллектуального анализа текста
Настроения рынка
Разрешение имен (семантика и извлечение текста)
Распознавание названного объекта
Новостная аналитика
Обучение онтологии
Связь с записью
Последовательный анализ шаблонов (интеллектуальный анализ строк и последовательностей)
ш-черепица
Веб-майнинг — задача, которая может включать в себя анализ текста (например, сначала найти подходящие веб-страницы путем классификации просканированных веб-страниц, а затем извлечь нужную информацию из текстового содержимого этих страниц, которые считаются релевантными).

Внешние ссылки

Марти Херст: Что такое анализ текста? (октябрь 2003 г.)
Автоматическое извлечение контента, Консорциум лингвистических данных. Архивировано 25 сентября 2013 г. на Wayback Machine.
Автоматическое извлечение контента, NIST