stringtranslate.com

Анализ настроений

Анализ настроений (также известный как анализ мнений или ИИ эмоций ) — это использование обработки естественного языка , анализа текста , вычислительной лингвистики и биометрии для систематического выявления, извлечения, количественной оценки и изучения аффективных состояний и субъективной информации. Анализ настроений широко применяется к материалам, выражающим мнение клиента, таким как обзоры и ответы на опросы, онлайн- и социальные сети, а также к материалам здравоохранения для приложений, которые варьируются от маркетинга до обслуживания клиентов и клинической медицины. С появлением глубоких языковых моделей, таких как RoBERTa , также можно анализировать более сложные домены данных, например, новостные тексты, где авторы обычно выражают свое мнение/настроения менее явно. [1]

Простые случаи

Более сложные примеры

Типы

Основная задача анализа настроений — классификация полярности данного текста на уровне документа, предложения или признака/аспекта — независимо от того, является ли выраженное мнение в документе, предложении или признаке/аспекте сущности положительным, отрицательным или нейтральным. Расширенная, «внеполярная» классификация настроений рассматривает, например, такие эмоциональные состояния, как удовольствие, гнев, отвращение, печаль, страх и удивление. [2]

Предшественниками сентиментального анализа являются General Inquirer [3] , который дал подсказки относительно количественной оценки закономерностей в тексте, и, отдельно, психологические исследования, которые изучали психологическое состояние человека на основе анализа его вербального поведения. [4]

Впоследствии метод, описанный в патенте Волкани и Фогеля, [5] рассматривал конкретно сентимент и идентифицировал отдельные слова и фразы в тексте относительно различных эмоциональных шкал. Текущая система, основанная на их работе, называемая EffectCheck, представляет синонимы, которые могут быть использованы для увеличения или уменьшения уровня вызванных эмоций в каждой шкале.

Многие другие последующие попытки были менее сложными, используя простое полярное представление настроений, от положительного до отрицательного, например, работа Терни [6] и Панга [7], которые применили различные методы для определения полярности обзоров продуктов и обзоров фильмов соответственно. Эта работа находится на уровне документа. Можно также классифицировать полярность документа по многофакторной шкале, что было предпринято Пангом [8] и Снайдером [9] среди прочих: Панг и Ли [8] расширили базовую задачу классификации обзора фильма как положительного или отрицательного, чтобы предсказать рейтинги по 3- или 4-звездочной шкале, в то время как Снайдер [9] провел углубленный анализ обзоров ресторанов, предсказав рейтинги для различных аспектов данного ресторана, таких как еда и атмосфера (по пятизвездочной шкале).

Первые шаги к объединению различных подходов — обучающего, лексического, основанного на знаниях и т. д. — были сделаны на весеннем симпозиуме AAAI 2004 года , где лингвисты, специалисты по информатике и другие заинтересованные исследователи впервые объединили свои интересы и предложили общие задачи и контрольные наборы данных для систематического вычислительного исследования аффекта, привлекательности, субъективности и настроений в тексте. [10]

Несмотря на то, что в большинстве статистических методов классификации нейтральный класс игнорируется в предположении, что нейтральные тексты лежат вблизи границы бинарного классификатора, некоторые исследователи предполагают, что, как и в каждой проблеме полярности, необходимо выделить три категории. Более того, можно доказать, что определенные классификаторы, такие как Max Entropy [11] и SVM [12], могут выиграть от введения нейтрального класса и повысить общую точность классификации. В принципе, существует два способа работы с нейтральным классом. Либо алгоритм сначала идентифицирует нейтральный язык, отфильтровывает его, а затем оценивает остальное с точки зрения положительных и отрицательных настроений, либо он строит трехфакторную классификацию за один шаг. [13] Этот второй подход часто включает оценку распределения вероятностей по всем категориям (например, наивные байесовские классификаторы, реализованные NLTK ). Использование нейтрального класса и то, как его использовать, зависит от характера данных: если данные четко сгруппированы в нейтральный, негативный и позитивный язык, имеет смысл отфильтровать нейтральный язык и сосредоточиться на полярности между позитивными и негативными чувствами. Если же, напротив, данные в основном нейтральны с небольшими отклонениями в сторону позитивного и негативного аффекта, эта стратегия затруднит четкое различие между двумя полюсами.

Другой метод определения настроения заключается в использовании системы шкалы, при которой словам, обычно связанным с наличием негативного, нейтрального или позитивного настроения, присваивается соответствующее число по шкале от −10 до +10 (от самого негативного до самого позитивного) или просто от 0 до положительного верхнего предела, такого как +4. Это позволяет корректировать настроение данного термина относительно его окружения (обычно на уровне предложения). Когда фрагмент неструктурированного текста анализируется с использованием обработки естественного языка , каждому понятию в указанной среде присваивается оценка, основанная на том, как слова настроения соотносятся с понятием и его ассоциированной оценкой. [14] [15] Это позволяет перейти к более сложному пониманию настроения, поскольку теперь можно корректировать значение настроения понятия относительно модификаций, которые могут его окружать. Например, слова, которые усиливают, ослабляют или отрицают настроение, выраженное понятием, могут влиять на его оценку. В качестве альтернативы текстам можно присвоить положительную и отрицательную оценку силы настроения, если целью является определение настроения в тексте, а не общая полярность и сила текста. [16]

Существуют и другие типы анализа настроений, такие как анализ настроений на основе аспектов, градационный анализ настроений (положительный, отрицательный, нейтральный), многоязычный анализ настроений и выявление эмоций.

Идентификация субъективности/объективности

Эта задача обычно определяется как классификация заданного текста (обычно предложения) в один из двух классов: объективный или субъективный. [17] Эта проблема иногда может быть сложнее, чем классификация полярности. [18] Субъективность слов и фраз может зависеть от их контекста, а объективный документ может содержать субъективные предложения (например, новостная статья, цитирующая мнения людей). Более того, как упоминал Су, [19] результаты во многом зависят от определения субъективности, используемого при аннотировании текстов. Однако Панг [20] показал, что удаление объективных предложений из документа перед классификацией его полярности помогло улучшить производительность.

Субъективная и объективная идентификация, возникающие подзадачи анализа настроений для использования синтаксических, семантических признаков и знаний машинного обучения для определения того, содержит ли предложение или документ факты или мнения. Осознание распознавания фактов и мнений не является новым, возможно, впервые представленным Карбонеллом в Йельском университете в 1979 году. [ уточнить ]

Термин «объективный» относится к инциденту, несущему фактическую информацию. [21]

Термин «субъективный» описывает инцидент, содержащий нефактическую информацию в различных формах, таких как личные мнения, суждения и прогнозы, также известные как «частные состояния». [22] В примере ниже он отражает частное состояние «Мы, американцы». Более того, целевая сущность, комментируемая мнениями, может принимать различные формы от материального продукта до нематериальных тем, изложенных в Лю (2010). [23] Кроме того, Лю (2010) наблюдал три типа отношения: 1) положительные мнения, 2) нейтральные мнения и 3) отрицательные мнения. [23]

Этот анализ представляет собой проблему классификации. [24]

Определены коллекции слов или фразовых индикаторов каждого класса для поиска желаемых шаблонов в неаннотированном тексте. Для субъективного выражения был создан другой список слов. Списки субъективных индикаторов в словах или фразах были разработаны несколькими исследователями в области лингвистики и обработки естественного языка в Riloff et al. (2003). [25] Для измерения заданных выражений необходимо создать словарь правил извлечения. За эти годы в субъективном обнаружении извлечение признаков прогрессировало от ручного отбора признаков до автоматизированного обучения признакам. В настоящее время автоматизированные методы обучения могут далее разделяться на контролируемое и неконтролируемое машинное обучение . Извлечение шаблонов с помощью процесса машинного обучения аннотированного и неаннотированного текста широко изучалось академическими исследователями.

Однако исследователи признали несколько проблем в разработке фиксированных наборов правил для выражений, которые будут приличными. Большая часть проблем в разработке правил проистекает из природы текстовой информации. Несколько исследователей признали шесть проблем: 1) метафорические выражения, 2) несоответствия в письменных текстах, 3) контекстно-зависимые, 4) представленные слова с меньшим количеством употреблений, 5) временные, и 6) постоянно растущий объем.

  1. Метафорические выражения. Текст содержит метафорические выражения, которые могут повлиять на производительность извлечения. [26] Кроме того, метафоры принимают разные формы, что могло способствовать повышению обнаружения.
  2. Расхождения в написании. Для текста, полученного из Интернета, расхождения в стиле написания целевых текстовых данных включают различные жанры и стили письма.
  3. Контекстно-зависимая. Классификация может варьироваться в зависимости от субъективности или объективности предыдущих и последующих предложений. [24]
  4. Атрибут, чувствительный ко времени. Задача осложняется атрибутом, чувствительным ко времени, некоторых текстовых данных. Если группа исследователей хочет подтвердить часть факта в новостях, им нужно больше времени для перекрестной проверки, чем устаревают новости.
  5. Слова-подсказки с меньшим количеством употреблений.
  6. Постоянно растущий объем. Задача также осложняется огромным объемом текстовых данных. Постоянно растущий характер текстовых данных делает задачу чрезвычайно сложной для исследователей, чтобы завершить ее вовремя.

Ранее исследования в основном фокусировались на классификации на уровне документа. Однако классификация на уровне документа страдает меньшей точностью, поскольку статья может содержать различные типы выражений. Исследование доказательств предполагает набор новостных статей, которые, как ожидается, будут доминировать по объективному выражению, тогда как результаты показывают, что он состоял из более чем 40% субъективного выражения. [21]

Чтобы преодолеть эти проблемы, исследователи пришли к выводу, что эффективность классификатора зависит от точности обучающегося шаблона. А обучающийся, получающий большие объемы аннотированных обучающих данных, превзошел тех, кто обучался на менее полных субъективных признаках. Однако одним из главных препятствий для выполнения этого типа работы является ручная генерация большого набора данных аннотированных предложений. Метод ручного аннотирования был менее популярен, чем автоматическое обучение по трем причинам:

  1. Различия в понимании. При выполнении задания по ручному аннотированию среди аннотаторов могут возникнуть разногласия относительно того, является ли один пример субъективным или объективным, из-за неоднозначности языков.
  2. Человеческие ошибки. Задача ручного аннотирования — это кропотливое задание, требующее интенсивной концентрации для завершения.
  3. Требует много времени. Ручная аннотация — это кропотливая работа. Рилофф (1996) показывает, что на завершение 160 текстов одному аннотатору требуется 8 часов. [27]

Все эти упомянутые причины могут влиять на эффективность и результативность субъективной и объективной классификации. Соответственно, были разработаны два метода бутстраппинга для изучения лингвистических моделей из неаннотированных текстовых данных. Оба метода начинаются с нескольких исходных слов и неаннотированных текстовых данных.

  1. Мета-бутстраппинг Рилоффа и Джонса в 1999 году. [28] Уровень один: Генерация шаблонов извлечения на основе предопределенных правил и извлеченных шаблонов по количеству начальных слов, содержащихся в каждом шаблоне. Уровень два: 5 лучших слов будут отмечены и добавлены в словарь. Повторить.
  2. Basilisk ( Bootstrapping Approach to Semantic Lexicon Induction using Semantic Knowledge ) Телен и Рилофф. [ 29] Шаг первый: Генерация шаблонов извлечения. Шаг второй: Перемещение лучших шаблонов из Pattern Pool в Candidate Word Pool. Шаг третий: 10 лучших слов будут отмечены и добавлены в словарь. Повторите.

В целом эти алгоритмы подчеркивают необходимость автоматического распознавания и извлечения образов в субъективных и объективных задачах.

Субъективный и объектный классификатор может улучшить несколько приложений обработки естественного языка. Одним из основных преимуществ классификатора является то, что он популяризировал практику принятия решений на основе данных в различных отраслях. По словам Лю, приложения субъективной и объективной идентификации были реализованы в бизнесе, рекламе, спорте и социальных науках. [30]

На основе особенностей/аспектов

Это относится к определению мнений или настроений, выраженных по различным функциям или аспектам сущностей, например, мобильного телефона, цифровой камеры или банка. [35] Функция или аспект — это атрибут или компонент сущности, например, экран мобильного телефона, обслуживание в ресторане или качество изображения камеры. Преимущество анализа настроений на основе функций заключается в возможности улавливать нюансы относительно интересующих объектов. Различные функции могут генерировать различные ответы настроений, например, отель может иметь удобное расположение, но посредственную еду. [36] Эта проблема включает в себя несколько подзадач, например, идентификацию соответствующих сущностей, извлечение их функций/аспектов и определение того, является ли мнение, выраженное по каждой функции/аспекту, положительным, отрицательным или нейтральным. [37] Автоматическая идентификация функций может быть выполнена с помощью синтаксических методов, с помощью моделирования тем , [38] [39] или с помощью глубокого обучения . [40] [41] Более подробное обсуждение этого уровня анализа настроений можно найти в работе Лю. [23]

Рейтинг интенсивности

Эмоции и настроения субъективны по своей природе. Степень эмоций/настроений, выраженных в данном тексте на уровне документа, предложения или признака/аспекта — то, в какой степени интенсивность выражена в мнении о документе, предложении или сущности, отличается в каждом конкретном случае. [42] Однако прогнозирование только эмоций и настроений не всегда передает полную информацию. Степень или уровень эмоций и настроений часто играет решающую роль в понимании точного чувства в пределах одного класса (например, «хорошо» или «потрясающе»). Некоторые методы используют метод сложенного ансамбля [43] для прогнозирования интенсивности эмоций и настроений путем объединения полученных выходных данных и использования моделей глубокого обучения на основе сверточных нейронных сетей , [44] сетей с долговременной краткосрочной памятью и рекуррентных единиц с гейтом . [45]

Методы и особенности

Существующие подходы к анализу настроений можно сгруппировать в три основные категории: методы, основанные на знаниях, статистические методы и гибридные подходы. [46] Методы, основанные на знаниях, классифицируют текст по категориям аффекта на основе наличия однозначных слов аффекта, таких как счастливый, грустный, испуганный и скучающий. [47] Некоторые базы знаний не только перечисляют очевидные слова аффекта, но и назначают произвольным словам вероятное «сродство» к определенным эмоциям. [48] Статистические методы используют элементы машинного обучения , такие как латентный семантический анализ , машины опорных векторов , « мешок слов », « точечная взаимная информация » для семантической ориентации, [6] модели семантического пространства или модели встраивания слов , [49] и глубокое обучение . Более сложные методы пытаются обнаружить держателя тональности (т. е. человека, который поддерживает это аффективное состояние) и цель (т. е. сущность, в отношении которой ощущается аффект). [50] Чтобы добыть мнение в контексте и получить характеристику, о которой высказал мнение говорящий, используются грамматические связи слов. Грамматические зависимости отношений получаются путем глубокого анализа текста. [51] Гибридные подходы используют как машинное обучение, так и элементы из представления знаний, такие как онтологии и семантические сети , чтобы обнаружить семантику, которая выражена тонким образом, например, посредством анализа концепций, которые явно не передают релевантную информацию, но которые неявно связаны с другими концепциями, которые это делают. [52]

Инструменты программного обеспечения с открытым исходным кодом, а также ряд бесплатных и платных инструментов анализа настроений используют машинное обучение , статистику и методы обработки естественного языка для автоматизации анализа настроений в больших коллекциях текстов, включая веб-страницы, онлайн-новости, интернет-дискуссионные группы, онлайн-обзоры, веб-блоги и социальные сети. [53] Системы, основанные на знаниях, с другой стороны, используют общедоступные ресурсы для извлечения семантической и аффективной информации, связанной с концепциями естественного языка. Система может помочь выполнить аффективное рассуждение здравого смысла . [54] Анализ настроений также может быть выполнен на визуальном контенте, т. е. изображениях и видео (см. Мультимодальный анализ настроений ). Одним из первых подходов в этом направлении является SentiBank [55], использующий представление визуального контента в виде пары прилагательное-существительное. Кроме того, подавляющее большинство подходов к классификации настроений основано на модели «мешок слов», которая игнорирует контекст, грамматику и даже порядок слов . Подходы, анализирующие настроение на основе того, как слова составляют значение более длинных фраз, показали лучшие результаты [56] , но они влекут за собой дополнительные накладные расходы на аннотацию.

Для анализа настроений необходим компонент человеческого анализа, поскольку автоматизированные системы не способны анализировать исторические тенденции отдельного комментатора или платформы и часто неправильно классифицируются в выраженном ими настроении. Автоматизация влияет примерно на 23% комментариев, которые правильно классифицируются людьми. [57] Однако люди часто не соглашаются, и утверждается, что межчеловеческое соглашение обеспечивает верхнюю границу, которую автоматизированные классификаторы настроений могут в конечном итоге достичь. [58]

Оценка

Точность системы анализа настроений, в принципе, определяется тем, насколько хорошо она согласуется с человеческими суждениями. Обычно это измеряется с помощью вариативных мер, основанных на точности и отзыве по двум целевым категориям негативных и позитивных текстов. Однако, согласно исследованиям, оценщики-люди обычно соглашаются только примерно в 80% [59] случаев (см. Надежность между оценщиками ). Таким образом, программа, которая достигает 70% точности в классификации настроений, работает почти так же хорошо, как люди, хотя такая точность может показаться не впечатляющей. Если бы программа была «правильной» в 100% случаев, люди все равно не согласились бы с ней примерно в 20% случаев, поскольку они так сильно не согласны с любым ответом. [ необходима цитата ]

С другой стороны, компьютерные системы будут делать совсем другие ошибки, чем люди-оценщики, и поэтому цифры не полностью сопоставимы. Например, компьютерная система будет иметь проблемы с отрицаниями, преувеличениями, шутками или сарказмом, с которыми обычно легко справиться человеку-читателю: некоторые ошибки, которые делает компьютерная система, покажутся человеку слишком наивными. В целом, полезность для практических коммерческих задач анализа настроений, как это определено в академических исследованиях, была поставлена ​​под сомнение, в основном потому, что простая одномерная модель настроений от негативных до позитивных дает довольно мало полезной информации для клиента, беспокоящегося о влиянии публичного дискурса, например, на репутацию бренда или корпорации. [60] [61] [62]

Чтобы лучше соответствовать потребностям рынка, оценка анализа настроений перешла к более ориентированным на задачи мерам, сформулированным совместно с представителями PR-агентств и специалистами по исследованию рынка. Например, в наборе данных оценки RepLab внимание уделяется не столько содержанию рассматриваемого текста, сколько влиянию рассматриваемого текста на репутацию бренда . [63] [64] [65]

Поскольку оценка анализа настроений становится все более ориентированной на выполнение задач, для каждой реализации требуется отдельная обучающая модель, чтобы получить более точное представление настроений для заданного набора данных.

Веб 2.0

Рост социальных медиа, таких как блоги и социальные сети, подогрел интерес к анализу настроений. С распространением обзоров, рейтингов, рекомендаций и других форм онлайн-выражения, онлайн-мнение превратилось в своего рода виртуальную валюту для компаний, стремящихся продвигать свою продукцию, выявлять новые возможности и управлять своей репутацией. Поскольку компании стремятся автоматизировать процесс фильтрации шума, понимания разговоров, выявления соответствующего контента и принятия соответствующих мер, многие теперь обращаются к области анализа настроений. [66] Еще больше усложняет ситуацию рост анонимных платформ социальных медиа, таких как 4chan и Reddit . [67] Если веб 2.0 был посвящен демократизации публикации, то следующий этап веба вполне может быть основан на демократизации добычи данных всего публикуемого контента. [68]

Один шаг к этой цели сделан в исследовании. Несколько исследовательских групп в университетах по всему миру в настоящее время сосредоточены на понимании динамики настроений в электронных сообществах посредством анализа настроений. [69]

Проблема в том, что большинство алгоритмов анализа настроений используют простые термины для выражения настроений по поводу продукта или услуги. Однако культурные факторы, языковые нюансы и различные контексты делают чрезвычайно сложным превращение строки письменного текста в простое выражение «за» или «против». [66] Тот факт, что люди часто не соглашаются с настроением текста, иллюстрирует, насколько сложной задачей для компьютеров является правильное понимание этого. Чем короче строка текста, тем сложнее она становится.

Несмотря на то, что короткие текстовые строки могут быть проблемой, анализ настроений в микроблогах показал, что Twitter можно рассматривать как надежный онлайн-индикатор политических настроений. Политические настроения в твитах демонстрируют близкое соответствие политическим позициям партий и политиков, указывая на то, что содержание сообщений в Twitter правдоподобно отражает политический ландшафт в офлайне. [70] Кроме того, было показано, что анализ настроений в Twitter также отражает общественное настроение, стоящее за циклами воспроизводства человека во всем мире, [71] а также другие проблемы, имеющие отношение к общественному здравоохранению, такие как побочные реакции на лекарства. [72]

Хотя анализ настроений был популярен в областях, где авторы выражают свое мнение довольно явно («фильм потрясающий»), таких как социальные сети и обзоры продуктов, только недавно были разработаны надежные методы для других областей, где настроения в значительной степени неявные или косвенные. Например, в новостных статьях — в основном из-за ожидаемой журналистской объективности — журналисты часто описывают действия или события, а не прямо указывают полярность части информации. Более ранние подходы, использующие словари или поверхностные функции машинного обучения, не могли уловить «смысл между строк», но недавно исследователи предложили подход на основе глубокого обучения и набор данных, который способен анализировать настроения в новостных статьях. [1]

Ученые использовали анализ настроений для анализа твитов о безопасности и охране труда в строительстве (сейчас он называется X). Исследование показало, что существует положительная корреляция между избранными и ретвитами с точки зрения валентности настроений. Другие исследовали влияние YouTube на распространение знаний о безопасности и охране труда в строительстве. Они исследовали, как эмоции влияют на поведение пользователей с точки зрения просмотра и комментирования с помощью семантического анализа. В другом исследовании положительные настроения составили подавляющее число в 85% при обмене знаниями о безопасности и охране труда в строительстве через Instagram. [73]

Применение в рекомендательных системах

Для рекомендательной системы анализ настроений оказался ценным методом. Рекомендательная система нацелена на прогнозирование предпочтений целевого пользователя в отношении элемента. Основные рекомендательные системы работают с явным набором данных. Например, совместная фильтрация работает с матрицей рейтинга, а фильтрация на основе контента работает с метаданными элементов.

Во многих социальных сетях или на сайтах электронной коммерции пользователи могут предоставлять текстовые обзоры, комментарии или отзывы к элементам. Эти тексты, созданные пользователями, являются богатым источником мнений пользователей о многочисленных продуктах и ​​элементах. Потенциально для элемента такой текст может раскрывать как связанные характеристики/аспекты элемента, так и настроения пользователей по каждой характеристике. [74] Характеристики/аспекты элемента, описанные в тексте, играют ту же роль, что и метаданные в фильтрации на основе контента , но первые более ценны для рекомендательной системы. Поскольку эти характеристики широко упоминаются пользователями в своих обзорах, их можно рассматривать как наиболее важные характеристики, которые могут существенно повлиять на пользовательский опыт в отношении элемента, в то время как метаданные элемента (обычно предоставляемые производителями, а не потребителями) могут игнорировать характеристики, которые интересуют пользователей. Для разных элементов с общими характеристиками пользователь может давать разные оценки. Кроме того, характеристика одного и того же элемента может получать разные оценки от разных пользователей. Мнение пользователей относительно функций можно рассматривать как многомерную рейтинговую оценку, отражающую их предпочтения в отношении элементов.

На основе характеристик/аспектов и настроений, извлеченных из текста, сгенерированного пользователем, может быть построена гибридная система рекомендаций. [75] Существует два типа мотивации рекомендовать элемент-кандидат пользователю. Первая мотивация заключается в том, что элемент-кандидат имеет многочисленные общие характеристики с предпочтительными элементами пользователя, [76] в то время как вторая мотивация заключается в том, что элемент-кандидат получает высокую оценку своих характеристик. Для предпочтительного элемента разумно полагать, что элементы с такими же характеристиками будут иметь схожую функцию или полезность. Таким образом, эти элементы также, вероятно, будут предпочитаемы пользователем. С другой стороны, для общей характеристики двух элементов-кандидатов другие пользователи могут дать положительную оценку одному из них, давая отрицательную оценку другому. Очевидно, что элемент с высокой оценкой должен быть рекомендован пользователю. На основе этих двух мотиваций можно построить комбинированную оценку ранжирования сходства и рейтинга настроений для каждого элемента-кандидата. [75]

Помимо сложности самого анализа настроений, применение анализа настроений к отзывам или рецензиям также сталкивается с проблемой спама и предвзятых отзывов. Одно из направлений работы сосредоточено на оценке полезности каждого отзыва. [77] Отзыв или рецензия, плохо написанные, вряд ли будут полезны для рекомендательной системы. Кроме того, отзыв может быть разработан так, чтобы препятствовать продажам целевого продукта, и, таким образом, быть вредным для рекомендательной системы, даже если он хорошо написан.

Исследователи также обнаружили, что длинные и короткие формы пользовательского текста следует обрабатывать по-разному. Интересный результат показывает, что короткие обзоры иногда более полезны, чем длинные, [78], потому что в коротком тексте легче отфильтровать шум. Для длинного текста увеличение длины текста не всегда приводит к пропорциональному увеличению количества функций или настроений в тексте.

Ламба и Мадхусудхан [79] представляют зарождающийся способ удовлетворения информационных потребностей современных пользователей библиотек, переупаковывая результаты анализа настроений социальных медиа-платформ, таких как Twitter, и предоставляя их в качестве консолидированной временной услуги в различных форматах. Кроме того, они предлагают новый способ проведения маркетинга в библиотеках с использованием анализа настроений в социальных медиа и анализа настроений.

Смотрите также

Ссылки

  1. ^ ab Hamborg, Felix; Donnay, Karsten (2021). "NewsMTSC: набор данных для классификации настроений в политических новостных статьях, зависящих от (многоцелевых) целей". "Труды 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: Основной том"
  2. ^ Вонг Ань Хо, Дуонг Хуинь-Конг Нгуен, Дан Хоанг Нгуен, Линь Тхи-Ван Фам, Дык-Ву Нгуен, Киет Ван Нгуен, Нган Луу-Туи Нгуен. «Распознавание эмоций в текстах вьетнамских социальных сетей». В материалах Международной конференции Тихоокеанской ассоциации компьютерной лингвистики 2019 г. (PACLING 2019), Ханой, Вьетнам (2019).
  3. ^ Стоун, Филип Дж., Декстер К. Данфи и Маршалл С. Смит. «Общий исследователь: компьютерный подход к контент-анализу». MIT Press, Кембридж, Массачусетс (1966).
  4. ^ Готтшалк, Луис Аугуст и Голдин К. Глезер . Измерение психологических состояний посредством контент-анализа вербального поведения. Издательство Калифорнийского университета, 1969.
  5. США Выпущено 7,136,877, Волкани, Янон; и Фогель, Дэвид Б., «Система и метод определения и контроля воздействия текста», опубликовано 28 июня 2001 г. 
  6. ^ ab Turney, Peter (2002). «Большой палец вверх или большой палец вниз? Семантическая ориентация, применяемая к неконтролируемой классификации обзоров». Труды Ассоциации компьютерной лингвистики . С. 417–424. arXiv : cs.LG/0212032 .
  7. ^ Панг, Бо; Ли, Лиллиан ; Вайтьянатан, Шивакумар (2002). «Большой палец вверх? Классификация настроений с использованием методов машинного обучения». Труды конференции по эмпирическим методам обработки естественного языка (EMNLP) . стр. 79–86.
  8. ^ ab Pang, Bo; Lee, Lillian (2005). «Видим звезды: использование классовых отношений для категоризации настроений в отношении рейтинговых шкал». Труды Ассоциации компьютерной лингвистики (ACL) . стр. 115–124.
  9. ^ ab Snyder, Benjamin; Barzilay, Regina (2007). «Многоаспектное ранжирование с использованием алгоритма Good Grief». Труды Объединенной конференции Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL) . стр. 300–307. Архивировано из оригинала 6 августа 2016 г. Получено 16 июня 2009 г.
  10. ^ Ку, Ян, Джеймс Шанахан и Джанис Вибе . «Изучение отношения и аффекта в тексте: теории и приложения». В AAAI Spring Symposium, Технический отчет SS-04-07. AAAI Press, Менло-Парк, Калифорния. 2004.
  11. ^ Вриниотис, Василис (2013). Важность нейтрального класса в анализе настроений.
  12. ^ Коппель, Моше; Шлер, Джонатан (2006). «Важность нейтральных примеров для изучения настроений». Вычислительный интеллект 22 . стр. 100–109. CiteSeerX 10.1.1.84.9735 . 
  13. ^ Рибейро, Филипе Нунес; Араужо, Матеус (2010). «Сравнение современных методов анализа настроений». Труды по встроенным вычислительным системам . 9 (4).
  14. ^ Табоада, Майте; Брук, Джулиан (2011). «Методы анализа настроений на основе лексики». Computational Linguistics . 37 (2): 272–274. CiteSeerX 10.1.1.188.5517 . doi :10.1162/coli_a_00049. S2CID  3181362. 
  15. ^ Августыняк, Лукаш; Шиманский, Петр; Кайданович, Томаш; Тулиглович, Влодзимеж (25 декабря 2015 г.). «Комплексное исследование анализа настроений ансамблевой классификации на основе лексикона». Энтропия . 18 (1): 4. Бибкод : 2015Entrp..18....4A. дои : 10.3390/e18010004 .
  16. ^ Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid (2010). «Определение силы настроения в коротком неформальном тексте». Журнал Американского общества информационной науки и технологий . 61 (12): 2544–2558. CiteSeerX 10.1.1.278.3863 . doi :10.1002/asi.21416. 
  17. ^ Панг, Бо; Ли, Лиллиан (2008). "4.1.2 Обнаружение субъективности и идентификация мнений". Анализ мнений и настроений . Now Publishers Inc.
  18. ^ Mihalcea, Rada; Banea, Carmen; Wiebe, Janyce (2007). "Изучение многоязычного субъективного языка с помощью кросс-языковых проекций" (PDF) . Труды Ассоциации компьютерной лингвистики (ACL) . стр. 976–983. Архивировано из оригинала (PDF) 8 июля 2010 г.
  19. ^ Су, Фанчжун; Маркерт, Катя (2008). «От слов к чувствам: исследование случая распознавания субъективности» (PDF) . Труды Колинга 2008, Манчестер, Великобритания .
  20. ^ Панг, Бо; Ли, Лиллиан (2004). «Сентиментальное образование: анализ настроений с использованием обобщения субъективности на основе минимальных сокращений». Труды Ассоциации компьютерной лингвистики (ACL) . С. 271–278.
  21. ^ ab Wiebe, Janyce ; Riloff, Ellen (2005). "Создание классификаторов субъективных и объективных предложений из неаннотированных текстов". В Gelbukh, Alexander (ред.). Computational Linguistics and Intelligent Text Processing . Lecture Notes in Computer Science. Vol. 3406. Berlin, Heidelberg: Springer. pp. 486–497. doi :10.1007/978-3-540-30586-6_53. ISBN 978-3-540-30586-6.
  22. ^ Куирк, Рэндольф; Гринбаум, Сидней; Джеффри, Лич; Ян, Свартвик (1985). Всеобъемлющая грамматика английского языка (общая грамматика) . Longman . стр. 175–239. ISBN 1933108312.
  23. ^ abc Лю, Бин (2010). «Анализ настроений и субъективность» (PDF) . В Indurkhya, N.; Damerau, FJ (ред.). Справочник по обработке естественного языка (второе изд.).
  24. ^ ab Pang, Bo; Lee, Lillian (6 июля 2008 г.). «Извлечение мнений и анализ настроений». Основы и тенденции в информационном поиске . 2 (1–2): 1–135. doi :10.1561/1500000011. ISSN  1554-0669. S2CID  207178694.
  25. ^ Riloff, Ellen; Wiebe, Janyce (11 июля 2003 г.). «Обучение шаблонам извлечения для субъективных выражений». Труды конференции 2003 г. по эмпирическим методам в обработке естественного языка - . EMNLP '03. Том 10. США: Ассоциация компьютерной лингвистики. стр. 105–112. doi : 10.3115/1119355.1119369 . S2CID  6541910.
  26. ^ Wiebe, Janyce ; Riloff, Ellen (июль 2011 г.). «Поиск взаимной выгоды между анализом субъективности и извлечением информации». IEEE Transactions on Affective Computing . 2 (4): 175–191. doi :10.1109/T-AFFC.2011.19. ISSN  1949-3045. S2CID  16820846.
  27. ^ Рилофф, Эллен (1 августа 1996 г.). «Эмпирическое исследование автоматизированного построения словаря для извлечения информации в трех областях». Искусственный интеллект . 85 (1): 101–134. doi : 10.1016/0004-3702(95)00123-9 . ISSN  0004-3702.
  28. ^ Рилофф, Эллен; Джонс, Рози (июль 1999 г.). «Изучение словарей для извлечения информации методом многоуровневой самонастройки» (PDF) . AAAI '99/IAAI '99: Труды Шестнадцатой национальной конференции по искусственному интеллекту и Одиннадцатой конференции по инновационным приложениям искусственного интеллекта Инновационные приложения искусственного интеллекта : 474–479.
  29. ^ Телен, Майкл; Рилофф, Эллен (6 июля 2002 г.). «Метод самонастройки для изучения семантических лексиконов с использованием контекстов шаблонов извлечения». Труды конференции ACL-02 по эмпирическим методам в обработке естественного языка — EMNLP '02 . Том 10. США: Ассоциация компьютерной лингвистики. С. 214–221. doi : 10.3115/1118693.1118721 . S2CID  137155.
  30. ^ Лю, Бин (23 мая 2012 г.). «Анализ настроений и добыча мнений». Synthesis Lectures on Human Language Technologies . 5 (1): 1–167. doi :10.2200/S00416ED1V01Y201204HLT016. ISSN  1947-4040. S2CID  38022159. Архивировано из оригинала 10 мая 2021 г. Получено 9 декабря 2020 г.
  31. ^ Ганьон, Кайл (17 мая 2024 г.). «Как ИИ превращает онлайн-обзоры в действенную бизнес-аналитику». Widewail . Получено 19 сентября 2024 г.
  32. ^ Дэн, Шанкун; Мицубучи, Такаши; Сиода, Кей; Шимада, Тацуро; Сакурай, Акито (декабрь 2011 г.). «Объединение технического анализа с анализом настроений для прогнозирования цен на акции». Девятая международная конференция IEEE по надежным, автономным и безопасным вычислениям 2011 г. IEEE. стр. 800–807. doi :10.1109/dasc.2011.138. ISBN 978-1-4673-0006-3. S2CID  15262023.
  33. ^ Нгуен, Киет Ван; Нгуен, Ву Дык; Нгуен, Фу XV; Труонг, Тхам TH; Нгуен, Нган LT. (1 октября 2018 г.). «UIT-VSFC: Корпус отзывов вьетнамских студентов для анализа настроений». 2018 10-я Международная конференция по знаниям и системной инженерии (KSE) . Вьетнам: IEEE. стр. 19–24. дои : 10.1109/KSE.2018.8573337. ISBN 978-1-5386-6113-0. S2CID  56172224.
  34. ^ Ю, Хонг; Хацивасилоглу, Василеос (11 июля 2003 г.). «К ответам на вопросы мнений». Труды конференции 2003 г. по эмпирическим методам в обработке естественного языка - . EMNLP '03. Том 10. США: Ассоциация компьютерной лингвистики. стр. 129–136. doi : 10.3115/1119355.1119372 .
  35. ^ Ху, Миньцин; Лю, Бин (2004). «Изучение и обобщение отзывов клиентов». Труды KDD 2004 .
  36. ^ Катальди, Марио; Баллаторе, Андреа; Тидди, Илария; Офор, Мари-Од (22 июня 2013 г.). «Хорошее расположение, ужасная еда: определение настроений в отзывах пользователей». Анализ и добыча социальных сетей . 3 (4): 1149–1163. CiteSeerX 10.1.1.396.9313 . doi :10.1007/s13278-013-0119-7. ISSN  1869-5450. S2CID  5025282. 
  37. ^ Лю, Бин; Ху, Миньцин; Чэн, Цзюньшэн (2005). «Обозреватель мнений: анализ и сравнение мнений в Интернете». Труды WWW 2005 .
  38. ^ Чжай, Чжунву; Лю, Бин; Сюй, Хуа; Цзя, Пейфа (1 января 2011 г.). «Ограниченный LDA для группировки характеристик продукта в добыче мнений». В Хуан, Джошуа Чжэсюэ; Цао, Лонгбин; Шривастава, Джайдип (ред.). Достижения в области обнаружения знаний и добычи данных . Конспект лекций по информатике. Том 6634. Springer Berlin Heidelberg. стр. 448–459. CiteSeerX 10.1.1.221.5178 . doi :10.1007/978-3-642-20841-6_37. ISBN  978-3-642-20840-9.
  39. ^ Титов, Иван; Макдональд, Райан (1 января 2008 г.). «Моделирование онлайн-обзоров с использованием многозерновых тематических моделей». Труды 17-й международной конференции по Всемирной паутине . WWW '08. Нью-Йорк, штат Нью-Йорк, США: ACM. С. 111–120. arXiv : 0801.1063 . doi :10.1145/1367497.1367513. ISBN 978-1-60558-085-2. S2CID  13609860.
  40. ^ Лян, Бин и др. (2022). «Аспектный анализ настроений с помощью сверточных сетей с улучшенными аффективными знаниями». Системы, основанные на знаниях . 235 : 107643. doi : 10.1016/j.knosys.2021.107643. S2CID  237258427.
  41. ^ Ма, Юкун и др. (2018). «Целевой аспектный анализ настроений посредством внедрения знаний здравого смысла в внимательную LSTM». Труды AAAI . С. 5876–5883.
  42. ^ Шарма, Ракша; Сомани; Кумар; Бхаттачарья (2017). «Рейтинг интенсивности тональности среди прилагательных с использованием вложений слов, несущих тональность» (PDF) . Ассоциация компьютерной лингвистики : 547–552.
  43. ^ М. С. Ахтар, А. Экбал и Э. Камбрия, «Насколько вы интенсивны? Прогнозирование интенсивности эмоций и чувств с использованием Stacked Ensemble [Примечания по применению]», в журнале IEEE Computational Intelligence Magazine , т. 15, № 1, стр. 64–75, февраль 2020 г., doi: 10.1109/MCI.2019.2954667.
  44. ^ X. Ouyang, P. Zhou, CH Li и L. Liu, «Анализ настроений с использованием сверточной нейронной сети», Международная конференция IEEE по компьютерам и информационным технологиям 2015 г.; Повсеместные вычисления и коммуникации; Надежные, автономные и безопасные вычисления; Всепроникающий интеллект и вычисления, 2015 г., стр. 2359–2364, doi: 10.1109/CIT/IUCC/DASC/PICOM.2015.349.
  45. ^ Y. Santur, «Анализ настроений на основе рекуррентного блока с гейтированием», Международный симпозиум по искусственному интеллекту и обработке данных (IDAP), 2019, стр. 1-5, doi: 10.1109/IDAP.2019.8875985.
  46. ^ Cambria, E; Schuller, B; Xia, Y; Havasi, C (2013). «Новые возможности в анализе мнений и настроений». IEEE Intelligent Systems . 28 (2): 15–21. CiteSeerX 10.1.1.688.1384 . doi :10.1109/MIS.2013.30. S2CID  12104996. 
  47. ^ Ортони, Эндрю; Клор, Г; Коллинз, А (1988). Когнитивная структура эмоций (PDF) . Cambridge Univ. Press. Архивировано из оригинала (PDF) 23 ноября 2015 г.
  48. ^ Стивенсон, Райан; Микельс, Джозеф; Джеймс, Томас (2007). «Характеристика аффективных норм для английских слов по дискретным эмоциональным категориям». Методы исследования поведения . 39 (4): 1020–1024. doi : 10.3758/bf03192999 . PMID  18183921. S2CID  6673690.
  49. ^ Сальгрен, Магнус ; Карлгрен, Юсси; Эрикссон, Гуннар (2007). «Аннотация валентности на основе семян в пространстве слов». Труды Четвертого международного семинара по семантическим оценкам (SemEval-2007) .
  50. ^ Ким, SM; Хови, EH (2006). «Идентификация и анализ мнений о суждениях». (PDF) . Труды конференции Human Language Technology / North American Association of Computational Linguistics (HLT-NAACL 2006). Нью-Йорк, штат Нью-Йорк . Архивировано из оригинала (PDF) 29 июня 2011 г.
  51. ^ Дей, Липика; Хак, С.К. Мираджул (2008). «Извлечение мнений из зашумленных текстовых данных». Труды второго семинара по аналитике зашумленных неструктурированных текстовых данных, стр. 83-90 .
  52. ^ Камбрия, Э.; Хуссейн, А. (2015). Sentic Computing: фреймворк на основе здравого смысла для анализа настроений на уровне концепций. Springer. ISBN 9783319236544.
  53. ^ Аккора, Джунейт Гуркан; Байир, Мурат Али; Демирбаш, Мурат; Ферхатосманоглу, Хакан (2010). «Определение точек разрыва в общественном мнении». SigKDD, Труды первого семинара по аналитике социальных сетей .
  54. ^ Кэмбрия, Эрик; Лю, Цянь; Декерчи, Серджио; Син, Фрэнк; Квок, Кеннет (2022). «SenticNet 7: нейросимволическая структура ИИ на основе здравого смысла для объяснимого анализа настроений» (PDF) . Труды LREC . стр. 3829–3839.
  55. ^ Борт, Дамиан; Цзи, Ронгронг; Чэнь, Тао; Брейель, Томас; Чанг, Ши-Фу (2013). «Онтология и детекторы крупномасштабной визуальной чувствительности с использованием пар прилагательных и существительных». Труды Международной конференции ACM по мультимедиа . С. 223–232. Архивировано из оригинала 15 апреля 2021 г. . Получено 2 ноября 2017 г.
  56. ^ Сохер, Ричард; Перелыгин, Алекс; Ву, Джин Ю.; Чуан, Джейсон; Мэннинг, Кристофер Д.; Нг, Эндрю Ю.; Поттс, Кристофер (2013). «Рекурсивные глубокие модели для семантической композиционности в банке деревьев настроений». В трудах EMNLP : 1631–1642. CiteSeerX 10.1.1.593.7427 . 
  57. ^ "Исследование случая: расширенный анализ настроений". Архивировано из оригинала 29 октября 2013 г. Получено 18 октября 2013 г.
  58. ^ Мозетич, Игорь; Грчар, Миха; Смайлович, Ясмина (5 мая 2016 г.). «Многоязычная классификация настроений в Твиттере: роль комментаторов». ПЛОС ОДИН . 11 (5): e0155036. arXiv : 1602.07563 . Бибкод : 2016PLoSO..1155036M. дои : 10.1371/journal.pone.0155036 . ISSN  1932-6203. ПМЦ 4858191 . ПМИД  27149621. 
  59. ^ Огнева, М. «Как компании могут использовать анализ настроений для улучшения своего бизнеса». Mashable . Получено 13 декабря 2012 г.
  60. ^ Карлгрен, Юсси , Магнус Салгрен , Фредрик Олссон, Фредрик Эспиноза и Ола Хамфорс. «Полезность анализа настроений». На Европейской конференции по поиску информации, стр. 426-435. Шпрингер Берлин Гейдельберг, 2012.
  61. ^ Карлгрен, Юсси . «Связь между настроением автора и аффектом в тексте и жанре текста». В трудах четвертого семинара по использованию семантических аннотаций в информационном поиске, стр. 9-10. ACM, 2011.
  62. ^ Карлгрен, Юсси . «Аффект, привлекательность и сентимент как факторы, влияющие на взаимодействие с мультимедийной информацией». В трудах семинара Theseus/ImageCLEF по оценке визуального поиска информации, стр. 8-11. 2009.
  63. ^ Амиго, Энрике, Адольфо Корухо, Хулио Гонсало, Эдгар Мей и Маартен де Рийке . «Обзор RepLab 2012: оценка систем управления онлайн-репутацией». В CLEF (онлайн-рабочие заметки/лабораторные работы/семинар). 2012.
  64. ^ Амиго, Энрике, Хорхе Каррильо Де Альборнос, Ирина Чугур, Адольфо Корухо, Хулио Гонсало, Тамара Мартин, Эдгар Мей, Маартен де Рийке и Дамиано Спина. «Обзор relab 2013: оценка систем мониторинга онлайн-репутации». На Международной конференции Форума межъязыковой оценки европейских языков, стр. 333-352. Шпрингер Берлин Гейдельберг, 2013.
  65. ^ Амиго, Энрике, Хорхе Каррильо-де-Альборнос, Ирина Чугур, Адольфо Корухо, Хулио Гонсало, Эдгар Мей, Маартен де Рийке и Дамиано Спина. «Обзор replab 2014: профилирование авторов и измерения репутации для управления репутацией в Интернете». В Международной конференции Форума по межъязыковой оценке европейских языков, стр. 307-322. Springer International Publishing, 2014.
  66. ^ ab Райт, Алекс. «Поиск чувств в Интернете, а не фактов», New York Times , 2009-08-23. Получено 2009-10-01.
  67. ^ "Анализ настроений на Reddit". 30 сентября 2014 г. Получено 10 октября 2014 г.
  68. ^ Киркпатрик, Маршалл. ", ReadWriteWeb , 2009-04-15. Получено 2009-10-01.
  69. ^ Кондлифф, Джейми. «Пламенные движители социальных сетей», New Scientist , 2010-12-07. Получено 2010-12-13.
  70. ^ Тумасян, Андраник; О. Шпренгер, Тимм; Г. Санднер, Филипп; М. Вельпе, Изабель (2010). «Прогнозирование выборов с помощью Twitter: что 140 символов говорят о политических настроениях» Архивировано 12 декабря 2020 г. в Wayback Machine . «Материалы Четвертой международной конференции AAAI по веблогам и социальным сетям»
  71. ^ Вуд, Ян Б.; Варела, Педро Л.; Боллен, Йохан; Роша, Луис М.; Гонсалвеш-Са, Жоана (2017). «Человеческие сексуальные циклы определяются культурой и соответствуют коллективным настроениям». Научные отчеты . 7 (1): 17973. arXiv : 1707.03959 . Бибкод : 2017NatSR...717973W. дои : 10.1038/s41598-017-18262-5. ПМК 5740080 . ПМИД  29269945. 
  72. ^ Корконцелос, Иоаннис; Никфарджам, Азаде; Шардлоу, Мэтью; Саркер, Абид; Ананиаду, София; Гонсалес, Грасиела Х. (2016). «Анализ влияния анализа настроений на извлечение нежелательных реакций на лекарства из твитов и сообщений на форумах». Журнал биомедицинской информатики . 62 : 148–158. doi :10.1016/j.jbi.2016.06.007. PMC 4981644. PMID  27363901 . 
  73. ^ Цзэн, Л.; Ли, Р.Й.М.; Йигитканлар, Т.; Цзэн, Х. Анализ общественного мнения по вопросам охраны труда и техники безопасности в строительстве: метод скрытого распределения Дирихле. Здания 2023, 13, 927. https://doi.org/10.3390/buildings13040927
  74. ^ Тан, Хуэйфэн; Тан, Сонгбо; Чэн, Сюэци (2009). «Обзор обнаружения настроений в отзывах» (PDF) . Экспертные системы с приложениями . 36 (7): 10760–10773. doi :10.1016/j.eswa.2009.02.063. S2CID  2178380. Архивировано из оригинала (PDF) 24 мая 2018 г.
  75. ^ ab Якоб, Никлас и др. «За пределами звезд: использование пользовательских обзоров в свободном тексте для повышения точности рекомендаций фильмов». Труды 1-го международного семинара CIKM по анализу тем и настроений для массового мнения . ACM, 2009.
  76. ^ Миньцин, Ху; Лю, Бин (2004). «Изучение особенностей мнений в отзывах клиентов» (PDF) . AAAI . 4 (4). S2CID  5724860. Архивировано из оригинала (PDF) 24 мая 2018 г.
  77. ^ Лю, Ян; Хуан, Сянцзи; Ань, Айцзюнь; Ю, Сяохуэй (2008). «Моделирование и прогнозирование полезности онлайн-обзоров» (PDF) . ICDM'08. Восьмая международная конференция IEEE по интеллектуальному анализу данных . IEEE. стр. 443–452. doi :10.1109/ICDM.2008.94. ISBN 978-0-7695-3502-9. S2CID  18235238.
  78. ^ Бермингем, Адам; Смитон, Алан Ф. (2010). «Классификация настроений в микроблогах». Труды 19-й международной конференции ACM по управлению информацией и знаниями (PDF) . стр. 1833–1836. doi :10.1145/1871437.1871741. ISBN 9781450300995. S2CID  2084603.
  79. ^ Ламба, Маника; Мадхусудхан, Маргам (2018). «Применение анализа настроений в библиотеках для предоставления услуг темпоральной информации: исследование различных аспектов производительности». Анализ и интеллектуальный анализ социальных сетей . 8 (1): 1–12. doi :10.1007/s13278-018-0541-y. S2CID  53047128.