Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. [1] Он может быть бимодальным, включающим различные комбинации двух модальностей, или тримодальным, включающим три модальности. [2] Благодаря большому количеству данных социальных сетей , доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, [3] которые можно применять при разработке виртуальных помощников , [4] анализ обзоров фильмов на YouTube, [5] анализ новостных видеороликов, [6] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , [7] среди других.
Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [8] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень решений и гибридное объединение. [3] На эффективность этих методов объединения и применяемых алгоритмов классификации влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. [9]
Разработка функций , которая включает в себя выбор функций, которые вводятся в алгоритмы машинного обучения , играет ключевую роль в эффективности классификации настроений. [9] В мультимодальном анализе настроений используется комбинация различных текстовых, аудио и визуальных функций. [3]
Подобно обычному анализу настроений на основе текста , некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе настроений — это униграммы и n-граммы , которые по сути представляют собой последовательность слов в данном текстовом документе. [10] Эти функции применяются с использованием представлений функций «мешок слов» или «мешок понятий», в которых слова или понятия представлены как векторы в подходящем пространстве. [11] [12]
Характеристики чувств и эмоций играют важную роль в различных фонетических и просодических свойствах, содержащихся в звуковых функциях. [13] Некоторые из наиболее важных аудиофункций, используемых в мультимодальном анализе настроений, — это мел-частотный кепстр (MFCC) , спектральный центроид , спектральный поток , гистограмма ударов, сумма ударов, самый сильный удар, продолжительность паузы и высота тона . [3] OpenSMILE [14] и Praat — популярные наборы инструментов с открытым исходным кодом для извлечения таких аудиофункций. [15]
Одним из основных преимуществ анализа видео по отношению только к текстам является наличие в визуальных данных насыщенных сигналов настроения. [16] К визуальным особенностям относятся выражения лица , которые имеют первостепенное значение для передачи чувств и эмоций , поскольку они являются основным каналом формирования текущего душевного состояния человека. [3] В частности, улыбка считается одним из наиболее прогнозирующих визуальных сигналов в мультимодальном анализе настроений. [11] OpenFace — это набор инструментов для анализа лица с открытым исходным кодом, доступный для извлечения и понимания таких визуальных особенностей. [17]
В отличие от традиционного анализа настроений на основе текста , мультимодальный анализ настроений подвергается процессу объединения, в котором данные из разных модальностей (текстовых, аудио или визуальных) объединяются и анализируются вместе. [3] Существующие подходы к объединению данных мультимодального анализа настроений можно сгруппировать в три основные категории: уровень функций, уровень решений и гибридное объединение, а эффективность классификации настроений зависит от того, какой тип метода объединения используется. [3]
Слияние на уровне объектов (иногда называемое ранним слиянием) собирает все признаки каждой модальности (текстовой, аудио или визуальной) и объединяет их в единый вектор признаков, который в конечном итоге передается в алгоритм классификации. [18] Одной из трудностей при реализации этого метода является интеграция разнородных функций. [3]
Слияние на уровне принятия решений (иногда известное как позднее слияние) передает данные из каждой модальности (текстовой, аудио или визуальной) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации настроений путем объединения каждого результата в единый вектор решения. [18] Одним из преимуществ этого метода объединения является то, что он устраняет необходимость объединения разнородных данных, и каждый метод может использовать свой наиболее подходящий алгоритм классификации . [3]
Гибридное слияние — это комбинация методов слияния на уровне объектов и на уровне решений, которая использует дополнительную информацию из обоих методов в процессе классификации. [5] Обычно это включает в себя двухэтапную процедуру, в которой первоначально выполняется объединение на уровне объектов между двумя модальностями, а затем в качестве второго шага применяется объединение на уровне решений, чтобы объединить первоначальные результаты объединения на уровне объектов с оставшаяся модальность . [19] [20]
Подобно анализу настроений на основе текста, мультимодальный анализ настроений может применяться при разработке различных форм рекомендательных систем , таких как анализ созданных пользователями видеороликов с обзорами фильмов [5] и общих обзоров продуктов, [21] для прогнозирования настроения клиентов и впоследствии создавать рекомендации по продуктам или услугам. [22] Мультимодальный анализ настроений также играет важную роль в развитии виртуальных помощников посредством применения методов обработки естественного языка (НЛП) и машинного обучения . [4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как стресс , тревога или депрессия . [7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в программах видеоновостей, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, как правило, менее очевидны или нейтральны. [23]
{{cite journal}}
: Требуется цитировать журнал |journal=
( помощь ){{cite journal}}
: Требуется цитировать журнал |journal=
( помощь )