stringtranslate.com

Анализ текста

Интеллектуальный анализ текста , анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он предполагает «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как изучение статистических закономерностей . По данным Хото и др. (2005) мы можем различать три различных подхода к интеллектуальному анализу текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). [2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ вместе с добавлением некоторых производных лингвистических функций и удалением других, а также последующую вставку в базу данных ), получение шаблонов внутри структурированных данных и, наконец, оценка и интерпретация результатов. «Высокое качество» в интеллектуальном анализе текста обычно означает некоторую комбинацию релевантности , новизны и интереса. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание детальной таксономии, анализ настроений , обобщение документов и моделирование отношений сущностей ( т. е . изучение связей между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения распределения частот слов, распознавание образов , тегирование / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Основная цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью применения обработки естественного языка (НЛП), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей прогнозной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ является основным элементом при начале анализа текста. Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [3]

Текстовая аналитика

Текстовый анализ описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследований или расследований. [4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, Ронен Фельдман в 2004 году изменил описание «текстового анализа» 2000 года [5] для описания «текстового анализа». [6] Последний термин сейчас чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов, [7] особенно в области биологических исследований и правительственной разведки.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для реагирования на бизнес-проблемы независимо или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов деловой информации возникает в неструктурированной форме, в основном в текстовой форме. [8] Эти методы и процессы обнаруживают и представляют знания – факты, бизнес-правила и отношения – которые в противном случае заперты в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

Приложения

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач правительства, исследований и бизнеса. Все эти группы могут использовать анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. Например, юристы могут использовать интеллектуальный анализ текста для обнаружения электронных данных . Правительства и военные группировки используют анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. решению проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [14] [15] [16] ). и поддерживать научные открытия в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для множества других действий.

Приложения безопасности

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как новости Интернета , блоги и т. д., в целях национальной безопасности . [17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения

Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при исследовании белково-белковых комплексов, или докинга белков . [18]

В биомедицинской литературе был описан ряд применений интеллектуального анализа текста, [19] включая вычислительные подходы, помогающие в исследованиях стыковки белков , [20] взаимодействий белков , [21] [22] и ассоциаций белков и заболеваний. [23] Кроме того, благодаря большим наборам текстовых данных пациентов в клинической области, наборам демографических данных в популяционных исследованиях и отчетам о нежелательных явлениях анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и ​​сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая сочетает в себе биомедицинский анализ текста с сетевой визуализацией. [25] [26] GoPubMed — это основанная на знаниях поисковая система по биомедицинским текстам. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [27].

Программные приложения

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способа улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире и служит отличной отправной точкой для новичков. Для программистов Python существует отличный инструментарий NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Приложения для онлайн-медиа

Анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям более удобных возможностей поиска, что, в свою очередь, увеличивает «прилипчивость» сайта и доходы. Кроме того, редакторы получают выгоду от возможности делиться, связывать и упаковывать новости между ресурсами, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Куссемент и Ван ден Поел (2008) [30] [31] применяют его для улучшения моделей прогнозного анализа оттока клиентов ( истощение клиентов ). [30] Анализ текста также применяется для прогнозирования доходности акций. [32]

Анализ настроений

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятным является отзыв о продукте. [33] Для такого анализа может потребоваться размеченный набор данных или маркировка эффективности слов. Ресурсы по эффективности слов и понятий были созданы для WordNet [34] и ConceptNet , [35] соответственно.

Текст использовался для обнаружения эмоций в соответствующей области аффективных вычислений. [36] Текстовые подходы к аффективным вычислениям использовались в различных корпусах, таких как оценки учащихся, детские рассказы и новости.

Научная литература по горному делу и академическое применение

Проблема анализа текста важна для издателей, которые владеют большими базами данных с информацией, требующей индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и общее определение типа документа для публикации журнала (DTD) Национального института здравоохранения , которое будет предоставлять машинам семантические подсказки для ответа на конкретные запросы, содержащиеся в текст, не снимая барьеров издателей для публичного доступа.

Академические учреждения также приняли участие в инициативе по интеллектуальному анализу текста:

Методы добычи научной литературы

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, [40] определения новизны, [41] и уточнения омонимов [42] среди технических отчетов.

Цифровые гуманитарные науки и компьютерная социология

Автоматический анализ обширных текстовых корпусов дал ученым возможность анализировать миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми технологиями являются синтаксический анализ, машинный перевод , категоризация тем и машинное обучение.

Нарративная сеть выборов в США 2012 г. [43]

Автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для выявления ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. [44] Это автоматизирует подход, представленный количественным нарративным анализом, [45] при котором тройки субъект-глагол-объект идентифицируются с парами актеров, связанных действием, или парами, образованными актером-объектом. [43]

Контент-анализ уже давно стал традиционной частью социальных наук и медиаисследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области: исследования социальных сетей и газетного контента включают миллионы новостей. Гендерная предвзятость , читаемость , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов анализа текста на миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной и тематической предвзятости был продемонстрирован в работе Flaounas et al. [51] показывает, как разные темы имеют разные гендерные предубеждения и уровни читабельности; Также была продемонстрирована возможность выявления моделей настроения у огромной популяции путем анализа контента Twitter. [52] [53]

Программное обеспечение

Компьютерные программы для анализа текста доступны во многих коммерческих компаниях и источниках с открытым исходным кодом .

Закон об интеллектуальной собственности

Ситуация в Европе

Видео кампании Fix Copyright, объясняющей TDM и проблемы авторского права в ЕС, 2016 г. [3:51]

Согласно европейским законам об авторском праве и базах данных , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривза правительство внесло поправки в закон об авторском праве [54], разрешив интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это после Японии , которая в 2009 году ввела исключение, касающееся горнодобывающей промышленности. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение в Великобритании разрешает добычу контента только для целей, не связанных с добычей полезных ископаемых. коммерческие цели. Законодательство Великобритании об авторском праве не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». [55] Тот факт, что в решении этого юридического вопроса основное внимание уделялось лицензиям, а не ограничениям и исключениям из закона об авторском праве, заставил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае. 2013. [56]

Ситуация в США

Закон США об авторском праве и, в частности, его положения о добросовестном использовании означают, что майнинг текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких применений является интеллектуальный анализ текста и данных. . [57]

Ситуация в Австралии

В австралийском законе об авторском праве нет исключений для интеллектуального анализа текста или данных в рамках Закона об авторском праве 1968 года . Австралийская комиссия по реформе законодательства отметила, что маловероятно, что исключение в отношении добросовестной деловой практики в отношении «исследований и исследований» будет распространяться и на такую ​​тему, поскольку оно будет выходить за рамки требования «разумной доли». [58]

Подразумеваемое

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, при котором находили только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных сообщений, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение для анализа текста может действовать в качестве аналитика разведки или библиотекаря-исследователя, хотя и с более ограниченным объемом анализа. Анализ текста также используется в некоторых спам-фильтрах электронной почты как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

Смотрите также

Рекомендации

Цитаты

  1. ^ «Марти Херст: Что такое анализ текста?».
  2. ^ Хото А., Нюрнбергер А. и Паас Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20(1), с. 19-62
  3. ^ Фельдман Р. и Сэнгер Дж. (2007). Руководство по текстовому майнингу. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 г., в Wayback Machine.
  5. ^ «Семинар KDD-2000 по интеллектуальному анализу текста - прием документов» . Cs.cmu.edu . Проверено 23 февраля 2015 г.
  6. ^ [2] Архивировано 3 марта 2012 г., в Wayback Machine.
  7. ^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Материалы 9-й конференции по компьютерной лингвистике . Том. 1. С. 127–32. дои : 10.3115/991813.991833. S2CID  6433117.
  8. ^ «Неструктурированные данные и правило 80 процентов». Прорывной анализ. Август 2008 года . Проверено 23 февраля 2015 г.
  9. ^ Антунес, Жуан (14 ноября 2018 г.). Исследование контекстной информации для семантического представления текста (Mestrado em Ciências de Computação e Matemática Computacional thesis) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. doi : 10.11606/d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение неоднозначности смысла слов: единый подход». Труды Ассоциации компьютерной лингвистики . 2 : 231–244. дои : 10.1162/tacl_a_00179 . ISSN  2307-387X.
  11. ^ Чанг, Уи Ли; Тай, Кай Мэн; Лим, Чи Пэн (06 февраля 2017 г.). «Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов». Нейронная обработка писем . 46 (2): 379–409. дои : 10.1007/s11063-017-9597-3. ISSN  1370-4621. S2CID  9100902.
  12. ^ Бенчимол, Джонатан; Казинник, Софья; Саадон, Йоси (2022). «Методологии интеллектуального анализа текста с помощью R: приложение к текстам центрального банка». Машинное обучение с приложениями . 8 : 100286. дои : 10.1016/j.mlwa.2022.100286 . S2CID  243798160.
  13. ^ Мель, Маттиас Р. (2006). «Количественный анализ текста». Справочник по мультиметодическому измерению в психологии . п. 141. дои : 10.1037/11383-011. ISBN 978-1-59147-318-3.
  14. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ мнений и анализ настроений». Основы и тенденции в области информационного поиска . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . дои : 10.1561/1500000011. ISSN  1554-0669. S2CID  207178694. 
  15. ^ Палтоглу, Георгиос; Телуолл, Майк (1 сентября 2012 г.). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». Транзакции ACM в интеллектуальных системах и технологиях . 3 (4): 66. дои : 10.1145/2337542.2337551. ISSN  2157-6904. S2CID  16600444.
  16. ^ «Анализ настроений в Твиттере <Задание 4 SemEval-2017» . alt.qcri.org . Проверено 2 октября 2018 г.
  17. ^ Занаси, Алессандро (2009). «Виртуальное оружие для реальных войн: анализ текста в целях национальной безопасности». Материалы международного семинара по вычислительному интеллекту в обеспечении безопасности информационных систем CISIS'08 . Достижения в области мягких вычислений. Том. 53. с. 53. дои : 10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  18. ^ Бадал, Варша Д.; Кундротас, Пятрас Дж.; Ваксер, Илья А. (09 декабря 2015 г.). «Интеллектуальный анализ текста для стыковки белков». PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B. дои : 10.1371/journal.pcbi.1004630 . ISSN  1553-7358. ПМЦ 4674139 . ПМИД  26650466. 
  19. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с текстовым анализом». PLOS Вычислительная биология . 4 (1): е20. Бибкод : 2008PLSCB...4...20C. дои : 10.1371/journal.pcbi.0040020 . ПМК 2217579 . ПМИД  18225946. 
  20. ^ Бадал, В.Д.; Кундротас, П.Дж.; Ваксер, И. А (2015). «Интеллектуальный анализ текста для стыковки белков». PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B. дои : 10.1371/journal.pcbi.1004630 . ПМЦ 4674139 . ПМИД  26650466. 
  21. ^ Папаниколау, Николас; Павлопулос, Георгиос А.; Феодосиу, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозирование межбелкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ISSN  1046-2023. ПМИД  25448298.
  22. ^ Шклярчик, Дамиан; Моррис, Джон Х; Кук, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Дончева, Надежда Т; Рот, Александр (18 октября 2016 г.). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством стали широко доступными». Исследования нуклеиновых кислот . 45 (Д1): Д362–Д368. дои : 10.1093/nar/gkw937. ISSN  0305-1048. ПМК 5210637 . ПМИД  27924014. 
  23. ^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (01 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN  1522-1539. ПМК 6230912 . ПМИД  29775406. 
  24. ^ Ван Ле, Д; Монтгомери, Дж; Киркби, КК; Сканлан, Дж. (10 августа 2018 г.). «Прогнозирование риска с использованием обработки естественного языка электронных записей о психическом здоровье в условиях стационарной судебной психиатрии». Журнал биомедицинской информатики . 86 : 49–58. дои : 10.1016/j.jbi.2018.08.007 . ПМИД  30118855.
  25. ^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–8. дои : 10.1038/ng0501-21. PMID  11326270. S2CID  8889284.
  26. ^ Масис, Дэниел Р. (2001). «Связывание данных микрочипов с литературой». Природная генетика . 28 (1): 9–10. дои : 10.1038/ng0501-9. PMID  11326264. S2CID  52848745.
  27. ^ Ренганатан, Винайтеэртан (2017). «Интеллектуальный анализ текста в биомедицинской сфере с упором на кластеризацию документов». Исследования в области медицинской информатики . 23 (3): 141–146. дои : 10.4258/hir.2017.23.3.141. ISSN  2093-3681. ПМЦ 5572517 . ПМИД  28875048. 
  28. ^ [3] Архивировано 4 октября 2013 г., в Wayback Machine.
  29. ^ «Текстовая аналитика». Медальия . Проверено 23 февраля 2015 г.
  30. ^ аб Куссемент, Кристоф; Ван Ден Поэл, Дирк (2008). «Интеграция голоса клиентов через электронную почту колл-центра в систему поддержки принятия решений для прогнозирования оттока». Информация и управление . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . дои : 10.1016/j.im.2008.01.005. 
  31. ^ Кусман, Кристоф; Ван Ден Поэл, Дирк (2008). «Улучшение управления жалобами клиентов за счет автоматической классификации электронной почты с использованием функций лингвистического стиля в качестве предикторов». Системы поддержки принятия решений . 44 (4): 870–82. дои : 10.1016/j.dss.2007.10.010.
  32. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности онлайн-анализа досок объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
  33. ^ Панг, Бо; Ли, Лилиан; Вайтьянатан, Шивакумар (2002). "Недурно?". Материалы конференции ACL-02 «Эмпирические методы обработки естественного языка» . Том. 10. С. 79–86. дои : 10.3115/1118693.1118704. S2CID  7105713.
  34. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Развитие аффективных лексических ресурсов» (PDF) . Психологический журнал . 2 (1): 61–83.
  35. ^ Эрик Камбрия; Роберт Спир; Кэтрин Хаваси; Амир Хусейн (2010). «SenticNet: общедоступный семантический ресурс для анализа мнений» (PDF) . Труды АААИ ЦСК . стр. 14–18.
  36. ^ Кальво, Рафаэль А; д'Мелло, Сидни (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». Транзакции IEEE для аффективных вычислений . 1 (1): 18–37. дои : 10.1109/T-AFFC.2010.1. S2CID  753606.
  37. ^ "Манчестерский университет". Manchester.ac.uk . Проверено 23 февраля 2015 г.
  38. ^ "Лаборатория Цудзи". Tsujii.is.su-tokyo.ac.jp. Архивировано из оригинала 7 марта 2012 г. Проверено 23 февраля 2015 г.
  39. ^ "Токийский университет". УТокё . Проверено 23 февраля 2015 г.
  40. ^ Шен, Цзямин; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Цзинбо; Синха, Саураб; Хан, Цзявэй (27 июня 2018 г.). Поиск по набору сущностей в научной литературе: неконтролируемый подход к ранжированию . АКМ. стр. 565–574. дои : 10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID  13748283.
  41. ^ Уолтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (06 февраля 2017 г.). «Красота серной бабочки: новизна патентов, выявленных с помощью анализа окружающей среды на основе анализа текста». Наукометрия . 111 (1): 103–115. дои : 10.1007/s11192-017-2267-4. ISSN  0138-9130. S2CID  11174676.
  42. ^ Ролл, Ури; Коррейя, Рикардо А.; Бергер-Таль, Одед (10 марта 2018 г.). «Использование машинного обучения для распутывания омонимов в больших текстовых корпусах». Биология сохранения . 32 (3): 716–724. дои : 10.1111/cobi.13044. ISSN  0888-8892. PMID  29086438. S2CID  3783779.
  43. ^ ab Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; С. Судхахар, Г. А. Велтри, Н. Кристианини; Большие данные и общество 2 (1), 1–28, 2015 г.
  44. ^ Сетевой анализ повествовательного контента в крупных корпусах; С. Судхахар, Г. Де Фацио, Р. Францози, Н. Кристианини; Инженерия естественного языка, 1–32, 2013 г.
  45. ^ Количественный описательный анализ; Роберто Францози; Университет Эмори © 2010
  46. ^ Лансдалл-Велфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда газеты FindMyPast; Кристианини, Нелло (9 января 2017 г.). «Контент-анализ британских периодических изданий за 150 лет». Труды Национальной академии наук . 114 (4): Е457–Е465. Бибкод : 2017PNAS..114E.457L. дои : 10.1073/pnas.1606380114 . ISSN  0027-8424. ПМЦ 5278459 . ПМИД  28069962. 
  47. ^ И. Флаунас, М. Турки, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, Vol. 5(12), стр. e14243, 2010.
  48. ^ Прогнозирование текущей погоды из социальной сети со статистическим обучением В. Лампос, Н. Кристианини; Транзакции ACM в интеллектуальных системах и технологиях (TIST) 3 (4), 72
  49. ^ NOAM: система анализа и мониторинга новостных агентств; И. Флаунас, О. Али, М. Турки, Т. Сноусилл, Ф. Никар, Т. Де Би, Н. Кристианини Proc. международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение закономерностей в медиаконтенте, Н. Кристианини, Сопоставление комбинаторных шаблонов, 2–13, 2011 г.
  51. ^ И. Флаунас, О. Али, Т. Лансдалл-Велфэр, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  52. ^ Циркадные вариации настроения в контенте Твиттера; Фабон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения в области мозга и нейробиологии, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественные настроения в Великобритании; Т. Лансдалл-Велфер, В. Лампос, Н. Кристианини; Сеанс Mining Social Network Dynamics (MSND) в приложениях социальных сетей
  54. Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 г., в Wayback Machine.
  55. ^ «Лицензии для Европы - Структурированный диалог заинтересованных сторон, 2013» . Европейская комиссия . Проверено 14 ноября 2014 г.
  56. ^ «Интеллектуальный анализ текста и данных: его важность и необходимость изменений в Европе». Ассоциация европейских исследовательских библиотек . 25 апреля 2013 г. Архивировано из оригинала 29 ноября 2014 г. Проверено 14 ноября 2014 г.
  57. ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Книг — победа за добросовестное использование» . Лексология . Antonelli Law Ltd., 19 ноября 2013 г. Проверено 14 ноября 2014 г.
  58. ^ «Интеллектуальный анализ текста и данных». Комиссия по реформе законодательства Австралии . 4 июня 2013 года . Проверено 10 февраля 2023 г.

Источники

Внешние ссылки