stringtranslate.com

Анализ текста

Интеллектуальный анализ текста , анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он предполагает «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как статистическое изучение закономерностей . По данным Хото и др. (2005) мы можем различать три различных подхода к интеллектуальному анализу текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). [2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ вместе с добавлением некоторых производных лингвистических функций и удалением других, а также последующую вставку в базу данных ), получение шаблонов внутри структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» при интеллектуальном анализе текста обычно означает некоторую комбинацию релевантности , новизны и интереса. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание детальной таксономии, анализ настроений , обобщение документов и моделирование отношений сущностей ( т. е . изучение связей между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения распределения частот слов, распознавание образов , тегирование / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Основная цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью применения обработки естественного языка (НЛП), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей прогнозной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале анализа текста . Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [3]

Текстовая аналитика

Текстовый анализ описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследований или расследований. [4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, Ронен Фельдман изменил описание «текстового анализа» 2000 года [5] в 2004 году, чтобы описать «текстовый анализ». [6] Последний термин сейчас чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, [7] особенно в области биологических исследований и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для реагирования на бизнес-проблемы независимо или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов деловой информации возникает в неструктурированной форме, в основном в текстовой форме. [8] Эти методы и процессы обнаруживают и представляют знания – факты, бизнес-правила и отношения – которые в противном случае заперты в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

Приложения

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач правительства, исследований и бизнеса. Все эти группы могут использовать анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Например, юристы могут использовать интеллектуальный анализ текста для обнаружения электронных данных . Правительства и военные группировки используют анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. решению проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [14] [15] [16] ) . и поддерживать научные открытия в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для множества других действий.

Приложения безопасности

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как новости Интернета , блоги и т. д., в целях национальной безопасности . [17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения

Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при исследовании белково-белковых комплексов, или докинга белков . [18]

В биомедицинской литературе был описан ряд применений интеллектуального анализа текста, [19] включая вычислительные подходы для помощи в исследованиях стыковки белков , [20] взаимодействий белков , [21] [22] и ассоциаций белков и заболеваний. [23] Кроме того, благодаря большим наборам текстовых данных пациентов в клинической области, наборам демографических данных в популяционных исследованиях и отчетам о нежелательных явлениях анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и ​​сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая сочетает в себе биомедицинский анализ текста с сетевой визуализацией. [25] [26] GoPubMed — это основанная на знаниях поисковая система по биомедицинским текстам. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [27].

Программные приложения

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способа улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире и служит отличной отправной точкой для новичков. Для программистов Python существует отличный инструментарий NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Приложения для онлайн-медиа

Анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям более удобных возможностей поиска, что, в свою очередь, увеличивает «прилипчивость» сайта и доходы. Кроме того, редакторы получают выгоду от возможности делиться, связывать и упаковывать новости между ресурсами, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Куссемент и Ван ден Поел (2008) [30] [31] применяют его для улучшения моделей прогнозной аналитики оттока клиентов ( истощение клиентов ). [30] Анализ текста также применяется для прогнозирования доходности акций. [32]

Анализ настроений

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятным является отзыв о продукте. [33] Для такого анализа может потребоваться размеченный набор данных или маркировка эффективности слов . Ресурсы по эффективности слов и понятий были созданы для WordNet [34] и ConceptNet , [35] соответственно.

Текст использовался для обнаружения эмоций в соответствующей области аффективных вычислений. [36] Текстовые подходы к аффективным вычислениям использовались в различных корпусах, таких как оценки учащихся, детские рассказы и новости.

Научная литература по горному делу и академическое применение

Проблема анализа текста важна для издателей, которые владеют большими базами данных, требующими индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и общее определение типа документа для публикации журнала (DTD) Национального института здравоохранения , которое будет предоставлять машинам семантические подсказки для ответа на конкретные запросы, содержащиеся в текст, не снимая барьеров издателей для публичного доступа.

Академические учреждения также присоединились к инициативе интеллектуального анализа текста:

Методы добычи научной литературы

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, [40] определения новизны, [41] и уточнения омонимов [42] среди технических отчетов.

Цифровые гуманитарные науки и компьютерная социология

Автоматический анализ обширных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми технологиями являются синтаксический анализ, машинный перевод , категоризация тем и машинное обучение.

Нарративная сеть выборов в США 2012 г. [43]

Автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для выявления ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. [44] Это автоматизирует подход, введенный количественным нарративным анализом, [45] при котором тройки субъект-глагол-объект идентифицируются с парами актеров, связанных действием, или парами, образованными актером-объектом. [43]

Контент-анализ уже давно стал традиционной частью социальных наук и медиаисследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области: исследования социальных сетей и газетного контента включают миллионы новостей. Гендерная предвзятость , читабельность , сходство содержания, предпочтения читателей и даже настроение были проанализированы на основе методов анализа текста на миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной и тематической предвзятости был продемонстрирован в работе Flaounas et al. [51] показывает, как разные темы имеют разные гендерные предубеждения и уровни читабельности; Также была продемонстрирована возможность выявления моделей настроения у огромной популяции путем анализа контента Twitter. [52] [53]

Программное обеспечение

Компьютерные программы для анализа текста доступны во многих коммерческих компаниях и источниках с открытым исходным кодом . См. Список программного обеспечения для интеллектуального анализа текста .

Закон об интеллектуальной собственности

Ситуация в Европе

Видео кампании Fix Copyright, объясняющей TDM и проблемы авторского права в ЕС, 2016 г. [3:51]

Согласно европейским законам об авторском праве и базах данных , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве [54] , разрешив интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это после Японии , которая в 2009 году ввела исключение, касающееся горнодобывающей промышленности. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение в Великобритании разрешает добычу контента только для целей, не связанных с добычей полезных ископаемых. коммерческие цели. Законодательство Великобритании об авторском праве не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». [55] Тот факт, что в центре внимания при решении этого юридического вопроса оказались лицензии, а не ограничения и исключения из закона об авторском праве, заставил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае. 2013. [56]

Ситуация в США

Закон США об авторском праве и, в частности, его положения о добросовестном использовании означают, что майнинг текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких применений является интеллектуальный анализ текста и данных. . [57]

Ситуация в Австралии

В австралийском законе об авторском праве нет исключений для интеллектуального анализа текста или данных в рамках Закона об авторском праве 1968 года . Австралийская комиссия по реформе законодательства отметила, что маловероятно, что исключение в отношении добросовестной деловой практики в отношении «исследований и исследований» будет распространяться и на такую ​​тему, поскольку оно будет выходить за рамки требования «разумной доли». [58]

Подразумеваемое

До недавнего времени на веб-сайтах чаще всего использовался текстовый поиск, в результате которого находили только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для интеллектуального анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных сообщений, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение для анализа текста может действовать в качестве аналитика разведки или библиотекаря-исследователя, хотя и с более ограниченным объемом анализа. Анализ текста также используется в некоторых спам-фильтрах электронной почты как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

Смотрите также

Рекомендации

Цитаты

  1. ^ «Марти Херст: Что такое анализ текста?».
  2. ^ Хото А., Нюрнбергер А. и Паас Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20(1), с. 19-62
  3. ^ Фельдман Р. и Сэнгер Дж. (2007). Руководство по текстовому майнингу. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 г. в Wayback Machine .
  5. ^ «Семинар KDD-2000 по интеллектуальному анализу текста - прием документов» . Cs.cmu.edu . Проверено 23 февраля 2015 г.
  6. ^ [2] Архивировано 3 марта 2012 г., в Wayback Machine.
  7. ^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Материалы 9-й конференции по компьютерной лингвистике . Том. 1. С. 127–32. дои : 10.3115/991813.991833. S2CID  6433117.
  8. ^ «Неструктурированные данные и правило 80 процентов». Прорывной анализ. Август 2008 года . Проверено 23 февраля 2015 г.
  9. ^ Антунес, Жуан (14 ноября 2018 г.). Исследование контекстной информации для семантического представления текста (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. doi : 10.11606/d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение неоднозначности смысла слов: единый подход». Труды Ассоциации компьютерной лингвистики . 2 : 231–244. дои : 10.1162/tacl_a_00179 . ISSN  2307-387X.
  11. ^ Чанг, Уи Ли; Тай, Кай Мэн; Лим, Чи Пэн (06 февраля 2017 г.). «Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов». Нейронная обработка писем . 46 (2): 379–409. дои : 10.1007/s11063-017-9597-3. ISSN  1370-4621. S2CID  9100902.
  12. ^ Бенчимол, Джонатан; Казинник, Софья; Саадон, Йоси (2022). «Методологии интеллектуального анализа текста с помощью R: приложение к текстам центрального банка». Машинное обучение с приложениями . 8 : 100286. дои : 10.1016/j.mlwa.2022.100286 . S2CID  243798160.
  13. ^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по мультиметодическому измерению в психологии . п. 141. дои : 10.1037/11383-011. ISBN 978-1-59147-318-3.
  14. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ мнений и анализ настроений». Основы и тенденции в области информационного поиска . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . дои : 10.1561/1500000011. ISSN  1554-0669. S2CID  207178694. 
  15. ^ Палтоглу, Георгиос; Телуолл, Майк (1 сентября 2012 г.). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». Транзакции ACM в интеллектуальных системах и технологиях . 3 (4): 66. дои : 10.1145/2337542.2337551. ISSN  2157-6904. S2CID  16600444.
  16. ^ «Анализ настроений в Твиттере <Задание 4 SemEval-2017» . alt.qcri.org . Проверено 02 октября 2018 г.
  17. ^ Занаси, Алессандро (2009). «Виртуальное оружие для реальных войн: анализ текста в целях национальной безопасности». Материалы международного семинара по вычислительному интеллекту в обеспечении безопасности информационных систем CISIS'08 . Достижения в области мягких вычислений. Том. 53. с. 53. дои : 10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  18. ^ Бадал, Варша Д.; Кундротас, Пятрас Дж.; Ваксер, Илья А. (09 декабря 2015 г.). «Интеллектуальный анализ текста для стыковки белков». PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B. дои : 10.1371/journal.pcbi.1004630 . ISSN  1553-7358. ПМЦ 4674139 . ПМИД  26650466. 
  19. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с текстовым анализом». PLOS Вычислительная биология . 4 (1): е20. Бибкод : 2008PLSCB...4...20C. дои : 10.1371/journal.pcbi.0040020 . ПМК 2217579 . ПМИД  18225946. 
  20. ^ Бадал, В.Д.; Кундротас, П.Дж.; Ваксер, И. А (2015). «Интеллектуальный анализ текста для стыковки белков». PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B. дои : 10.1371/journal.pcbi.1004630 . ПМЦ 4674139 . ПМИД  26650466. 
  21. ^ Папаниколау, Николас; Павлопулос, Георгиос А.; Феодосиу, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозирование межбелкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ISSN  1046-2023. ПМИД  25448298.
  22. ^ Шклярчик, Дамиан; Моррис, Джон Х; Кук, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Дончева, Надежда Т; Рот, Александр (18 октября 2016 г.). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством стали широко доступными». Исследования нуклеиновых кислот . 45 (Д1): Д362–Д368. дои : 10.1093/nar/gkw937. ISSN  0305-1048. ПМК 5210637 . ПМИД  27924014. 
  23. ^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (01 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018. ISSN  1522-1539. ПМК 6230912 . ПМИД  29775406. 
  24. ^ Ван Ле, Д; Монтгомери, Дж; Киркби, КК; Сканлан, Дж. (10 августа 2018 г.). «Прогнозирование риска с использованием обработки естественного языка электронных записей о психическом здоровье в условиях стационарной судебной психиатрии». Журнал биомедицинской информатики . 86 : 49–58. дои : 10.1016/j.jbi.2018.08.007 . ПМИД  30118855.
  25. ^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–8. дои : 10.1038/ng0501-21. PMID  11326270. S2CID  8889284.
  26. ^ Масис, Дэниел Р. (2001). «Связывание данных микрочипов с литературой». Природная генетика . 28 (1): 9–10. дои : 10.1038/ng0501-9. PMID  11326264. S2CID  52848745.
  27. ^ Ренганатан, Винайтеэртан (2017). «Интеллектуальный анализ текста в биомедицинской сфере с упором на кластеризацию документов». Исследования в области медицинской информатики . 23 (3): 141–146. дои : 10.4258/hir.2017.23.3.141. ISSN  2093-3681. ПМЦ 5572517 . ПМИД  28875048. 
  28. ^ [3] Архивировано 4 октября 2013 г., в Wayback Machine.
  29. ^ «Текстовая аналитика». Медальия . Проверено 23 февраля 2015 г.
  30. ^ аб Куссемент, Кристоф; Ван Ден Поэл, Дирк (2008). «Интеграция голоса клиентов через электронную почту колл-центра в систему поддержки принятия решений для прогнозирования оттока». Информация и управление . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . дои : 10.1016/j.im.2008.01.005. 
  31. ^ Кусман, Кристоф; Ван Ден Поэл, Дирк (2008). «Улучшение управления жалобами клиентов за счет автоматической классификации электронной почты с использованием функций лингвистического стиля в качестве предикторов». Системы поддержки принятия решений . 44 (4): 870–82. дои : 10.1016/j.dss.2007.10.010.
  32. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности онлайн-анализа досок объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001.
  33. ^ Панг, Бо; Ли, Лилиан; Вайтьянатан, Шивакумар (2002). "Недурно?". Материалы конференции ACL-02 «Эмпирические методы обработки естественного языка» . Том. 10. С. 79–86. дои : 10.3115/1118693.1118704. S2CID  7105713.
  34. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Развитие аффективных лексических ресурсов» (PDF) . Психологический журнал . 2 (1): 61–83.
  35. ^ Эрик Камбрия; Роберт Спир; Кэтрин Хаваси; Амир Хусейн (2010). «SenticNet: общедоступный семантический ресурс для анализа мнений» (PDF) . Труды АААИ ЦСК . стр. 14–18.
  36. ^ Кальво, Рафаэль А; д'Мелло, Сидни (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». Транзакции IEEE для аффективных вычислений . 1 (1): 18–37. дои : 10.1109/T-AFFC.2010.1. S2CID  753606.
  37. ^ "Манчестерский университет". Manchester.ac.uk . Проверено 23 февраля 2015 г.
  38. ^ "Лаборатория Цудзи". Tsujii.is.su-tokyo.ac.jp. Архивировано из оригинала 7 марта 2012 г. Проверено 23 февраля 2015 г.
  39. ^ "Токийский университет". УТокё . Проверено 23 февраля 2015 г.
  40. ^ Шен, Цзямин; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Цзинбо; Синха, Саураб; Хан, Цзявэй (27 июня 2018 г.). Поиск по набору сущностей в научной литературе: неконтролируемый подход к ранжированию . АКМ. стр. 565–574. дои : 10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID  13748283.
  41. ^ Уолтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (06 февраля 2017 г.). «Красота серной бабочки: новизна патентов, выявленных с помощью анализа окружающей среды на основе анализа текста». Наукометрика . 111 (1): 103–115. дои : 10.1007/s11192-017-2267-4. ISSN  0138-9130. S2CID  11174676.
  42. ^ Ролл, Ури; Коррейя, Рикардо А.; Бергер-Таль, Одед (10 марта 2018 г.). «Использование машинного обучения для распутывания омонимов в больших текстовых корпусах». Биология сохранения . 32 (3): 716–724. дои : 10.1111/cobi.13044. ISSN  0888-8892. PMID  29086438. S2CID  3783779.
  43. ^ ab Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; С. Судхахар, Г. А. Велтри, Н. Кристианини; Большие данные и общество 2 (1), 1–28, 2015 г.
  44. ^ Сетевой анализ повествовательного контента в крупных корпусах; С. Судхахар, Г. Де Фацио, Р. Францози, Н. Кристианини; Инженерия естественного языка, 1–32, 2013 г.
  45. ^ Количественный описательный анализ; Роберто Францози; Университет Эмори © 2010
  46. ^ Лансдалл-Велфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда газеты FindMyPast; Кристианини, Нелло (9 января 2017 г.). «Контент-анализ британских периодических изданий за 150 лет». Труды Национальной академии наук . 114 (4): Е457–Е465. Бибкод : 2017PNAS..114E.457L. дои : 10.1073/pnas.1606380114 . ISSN  0027-8424. ПМЦ 5278459 . ПМИД  28069962. 
  47. ^ И. Флаунас, М. Турки, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, Vol. 5(12), стр. e14243, 2010.
  48. ^ Прогнозирование текущей погоды из социальной сети со статистическим обучением В. Лампос, Н. Кристианини; Транзакции ACM в интеллектуальных системах и технологиях (TIST) 3 (4), 72
  49. ^ NOAM: система анализа и мониторинга новостных агентств; И. Флаунас, О. Али, М. Турки, Т. Сноусилл, Ф. Никар, Т. Де Би, Н. Кристианини Proc. международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение закономерностей в медиаконтенте, Н. Кристианини, Сопоставление комбинаторных шаблонов, 2–13, 2011 г.
  51. ^ И. Флаунас, О. Али, Т. Лансдалл-Велфэр, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  52. ^ Циркадные вариации настроения в контенте Твиттера; Фабон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения в области мозга и нейробиологии, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественные настроения в Великобритании; Т. Лансдалл-Велфер, В. Лампос, Н. Кристианини; Сеанс Mining Social Network Dynamics (MSND) в приложениях социальных сетей
  54. Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 г., в Wayback Machine.
  55. ^ «Лицензии для Европы - Структурированный диалог заинтересованных сторон, 2013» . Европейская комиссия . Проверено 14 ноября 2014 г.
  56. ^ «Интеллектуальный анализ текста и данных: его важность и необходимость изменений в Европе». Ассоциация европейских исследовательских библиотек . 25 апреля 2013 г. Архивировано из оригинала 29 ноября 2014 г. Проверено 14 ноября 2014 г.
  57. ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Книг — победа в области добросовестного использования» . Лексология . Antonelli Law Ltd., 19 ноября 2013 г. Проверено 14 ноября 2014 г.
  58. ^ «Интеллектуальный анализ текста и данных». Комиссия по реформе законодательства Австралии . 4 июня 2013 года . Проверено 10 февраля 2023 г.

Источники

Внешние ссылки