Анализ текста

Интеллектуальный анализ текста , анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он предполагает «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». ^[1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как изучение статистических закономерностей . По данным Хото и др. (2005) мы можем различать три различных подхода к интеллектуальному анализу текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). ^[2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ вместе с добавлением некоторых производных лингвистических функций и удалением других, а также последующую вставку в базу данных ), получение шаблонов внутри структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» в интеллектуальном анализе текста обычно означает некоторую комбинацию релевантности , новизны и интереса. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание детальной таксономии, анализ настроений , обобщение документов и моделирование отношений сущностей ( т. е . изучение связей между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения распределения частот слов, распознавание образов , тегирование / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Основная цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью применения обработки естественного языка (НЛП), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей прогнозной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале анализа текста. Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. ^[3]

Текстовая аналитика

Текстовый анализ описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследований или расследований. ^[4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, Ронен Фельдман в 2004 году изменил описание «текстового анализа» 2000 года ^[5] для описания «текстового анализа». ^[6] Последний термин сейчас чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, ^[7] особенно в области биологических исследований и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для реагирования на бизнес-проблемы независимо или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов деловой информации возникает в неструктурированной форме, в основном в текстовой форме. ^[8] Эти методы и процессы обнаруживают и представляют знания – факты, бизнес-правила и отношения – которые в противном случае заперты в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

Уменьшение размерности является важным методом предварительной обработки данных. Этот метод используется для определения корневого слова реальных слов и уменьшения размера текстовых данных. ^{[ нужна цитата ]}
Поиск информации или идентификация корпуса — это подготовительный этап: сбор или идентификация набора текстовых материалов, находящихся в Интернете или хранящихся в файловой системе , базе данных или менеджере корпуса контента , для анализа.
Хотя некоторые системы анализа текста применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую как часть речевых тегов , синтаксический анализ и другие виды лингвистического анализа. ^[9]
Распознавание названного объекта — это использование справочников или статистических методов для идентификации названных элементов текста: людей, организаций, географических названий, биржевых символов, определенных сокращений и т. д.
Устранение неоднозначности — использование контекстуальных подсказок — может потребоваться, чтобы решить, где, например, «Форд» может относиться к бывшему президенту США, производителю автомобилей, кинозвезде, переправе через реку или какому-либо другому объекту. ^[10]
Распознавание объектов, идентифицированных по шаблону. Такие функции, как номера телефонов, адреса электронной почты, количества (с единицами измерения), можно распознать с помощью регулярных выражений или других сопоставлений с шаблонами .
Кластеризация документов : идентификация наборов похожих текстовых документов. ^[11]
Кореферентность : идентификация именной группы и других терминов, относящихся к одному и тому же объекту.
Связь, факт и событие. Извлечение: выявление ассоциаций между объектами и другой информацией в текстах.
Анализ настроений включает в себя различение субъективного (в отличие от фактического) материала и извлечение различных форм информации об отношениях: чувств, мнений, настроений и эмоций. Методы анализа текста помогают анализировать настроения на уровне сущности, концепции или темы и различать держателей мнений и объектов. ^[12]
Количественный анализ текста — это набор методов, зародившихся в социальных науках, где либо человек-судья, либо компьютер извлекает семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические закономерности, обычно случайного личного текста, с целью психологическое профилирование и т. д. ^[13]
Предварительная обработка обычно включает в себя такие задачи, как токенизация, фильтрация и стемминг.

Приложения

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач правительства, исследований и бизнеса. Все эти группы могут использовать анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Например, юристы могут использовать интеллектуальный анализ текста для обнаружения электронных данных . Правительства и военные группировки используют анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. решению проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях ^[14]^[15]^[16] ). и поддерживать научные открытия в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для множества других действий.

Приложения безопасности

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как новости Интернета , блоги и т. д., в целях национальной безопасности . ^[17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения

В биомедицинской литературе был описан ряд применений интеллектуального анализа текста, ^[19] включая вычислительные подходы, помогающие в исследованиях стыковки белков , ^[20] взаимодействий белков , ^[21]^[22] и ассоциаций белков и заболеваний. ^[23] Кроме того, благодаря большим наборам текстовых данных пациентов в клинической области, наборам демографических данных в популяционных исследованиях и отчетам о нежелательных явлениях анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. ^[24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая сочетает в себе биомедицинский анализ текста с сетевой визуализацией. ^[25]^[26] GoPubMed — это основанная на знаниях поисковая система по биомедицинским текстам. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области ^[27].

Программные приложения

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способа улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . ^[28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире и служит отличной отправной точкой для новичков. Для программистов Python существует отличный инструментарий NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Приложения для онлайн-медиа

Анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям более удобных возможностей поиска, что, в свою очередь, увеличивает «прилипчивость» сайта и доходы. Кроме того, редакторы получают выгоду от возможности делиться, связывать и упаковывать новости между ресурсами, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . ^[29] Куссемент и Ван ден Поел (2008) ^[30]^[31] применяют его для улучшения моделей прогнозного анализа оттока клиентов ( истощение клиентов ). ^[30] Анализ текста также применяется для прогнозирования доходности акций. ^[32]

Анализ настроений

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятным является отзыв о продукте. ^[33] Для такого анализа может потребоваться размеченный набор данных или маркировка эффективности слов. Ресурсы по эффективности слов и понятий были созданы для WordNet ^[34] и ConceptNet , ^[35] соответственно.

Текст использовался для обнаружения эмоций в соответствующей области аффективных вычислений. ^[36] Текстовые подходы к аффективным вычислениям использовались в различных корпусах, таких как оценки учащихся, детские рассказы и новости.

Научная литература по горному делу и академическое применение

Проблема анализа текста важна для издателей, которые владеют большими базами данных с информацией, требующей индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и общее определение типа документа для публикации журнала (DTD) Национального института здравоохранения , которое будет предоставлять машинам семантические подсказки для ответа на конкретные запросы, содержащиеся в текст, не снимая барьеров издателей для публичного доступа.

Академические учреждения также приняли участие в инициативе по интеллектуальному анализу текста:

Национальный центр интеллектуального анализа текста (NaCTeM) — первый в мире центр интеллектуального анализа текста, финансируемый государством. NaCTeM управляется Манчестерским университетом ^[37] в тесном сотрудничестве с лабораторией Tsujii ^[38] Токийского университета . ^[39] NaCTeM предоставляет индивидуальные инструменты, исследовательские возможности и дает советы академическому сообществу. Они финансируются Объединенным комитетом информационных систем (JISC) и двумя исследовательскими советами Великобритании ( EPSRC и BBSRC ). Первоначально исследования были сосредоточены на интеллектуальном анализе текста в биологических и биомедицинских науках, а затем расширились и на области социальных наук .
В Соединенных Штатах Школа информации Калифорнийского университета в Беркли разрабатывает программу под названием BioText, которая поможет исследователям -биологам в извлечении и анализе текста.
Портал анализа текста для исследований (TAPoR), в настоящее время расположенный в Университете Альберты , представляет собой научный проект по каталогизации приложений анализа текста и созданию портала для исследователей, впервые знакомых с этой практикой.

Методы добычи научной литературы

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, ^[40] определения новизны, ^[41] и уточнения омонимов ^[42] среди технических отчетов.

Цифровые гуманитарные науки и компьютерная социология

Автоматический анализ обширных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми технологиями являются синтаксический анализ, машинный перевод , категоризация тем и машинное обучение.

Нарративная сеть выборов в США 2012 г. ^[43]

Автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для выявления ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. ^[44] Это автоматизирует подход, представленный количественным нарративным анализом, ^[45] при котором тройки субъект-глагол-объект идентифицируются с парами актеров, связанных действием, или парами, образованными актером-объектом. ^[43]

Контент-анализ уже давно стал традиционной частью социальных наук и медиаисследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области: исследования социальных сетей и газетного контента включают миллионы новостей. Гендерная предвзятость , читаемость , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов анализа текста на миллионах документов. ^[46]^[47]^[48]^[49]^[50] Анализ читабельности, гендерной и тематической предвзятости был продемонстрирован в работе Flaounas et al. ^[51] показывает, как разные темы имеют разные гендерные предубеждения и уровни читабельности; Также была продемонстрирована возможность выявления моделей настроения у огромной популяции путем анализа контента Twitter. ^[52]^[53]

Программное обеспечение

Компьютерные программы для анализа текста доступны во многих коммерческих компаниях и источниках с открытым исходным кодом .

Закон об интеллектуальной собственности

Ситуация в Европе

Видео кампании Fix Copyright, объясняющей TDM и проблемы авторского права в ЕС, 2016 г. [3:51]

Согласно европейским законам об авторском праве и базах данных , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве ^[54], разрешив интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это после Японии , которая в 2009 году ввела исключение, касающееся горнодобывающей промышленности. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение в Великобритании разрешает добычу контента только для целей, не связанных с добычей полезных ископаемых. коммерческие цели. Законодательство Великобритании об авторском праве не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». ^[55] Тот факт, что в решении этого юридического вопроса основное внимание уделялось лицензиям, а не ограничениям и исключениям из закона об авторском праве, заставил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае. 2013. ^[56]

Ситуация в США

Закон США об авторском праве и, в частности, его положения о добросовестном использовании означают, что майнинг текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких применений является интеллектуальный анализ текста и данных. . ^[57]

Ситуация в Австралии

В австралийском законе об авторском праве нет исключений для интеллектуального анализа текста или данных в рамках Закона об авторском праве 1968 года . Австралийская комиссия по реформе законодательства отметила, что маловероятно, что исключение в отношении добросовестной деловой практики в отношении «исследований и исследований» будет распространяться и на такую тему, поскольку оно будет выходить за рамки требования «разумной доли». ^[58]

Подразумеваемое

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, при котором находили только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных сообщений, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение для анализа текста может действовать в качестве аналитика разведки или библиотекаря-исследователя, хотя и с более ограниченным объемом анализа. Анализ текста также используется в некоторых спам-фильтрах электронной почты как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

Смотрите также

Концепция майнинга
Обработка документов
Полнотекстовый поиск
Список программного обеспечения для интеллектуального анализа текста
Настроения рынка
Разрешение имен (семантика и извлечение текста)
Распознавание названного объекта
Новостная аналитика
Обучение онтологии
Связь с записью
Последовательный анализ шаблонов (интеллектуальный анализ строк и последовательностей)
ш-черепица
Веб-майнинг — задача, которая может включать в себя анализ текста (например, сначала найти подходящие веб-страницы путем классификации просканированных веб-страниц, а затем извлечь нужную информацию из текстового содержимого этих страниц, которые считаются релевантными).

Внешние ссылки

Марти Херст: Что такое анализ текста? (октябрь 2003 г.)
Автоматическое извлечение контента, Консорциум лингвистических данных. Архивировано 25 сентября 2013 г. на Wayback Machine.
Автоматическое извлечение контента, NIST