Мультимодальный анализ настроений

Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. ^[1] Он может быть бимодальным, включающим различные комбинации двух модальностей, или тримодальным, включающим три модальности. ^[2] Благодаря большому количеству данных социальных сетей , доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, ^[3] которые можно применять при разработке виртуальных помощников , ^[4] анализ обзоров фильмов на YouTube, ^[5] анализ новостных видеороликов, ^[6] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , ^[7] среди других.

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. ^[8] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень решений и гибридное объединение. ^[3] На эффективность этих методов объединения и применяемых алгоритмов классификации влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. ^[9]

Функции

Разработка функций , которая включает в себя выбор функций, которые вводятся в алгоритмы машинного обучения , играет ключевую роль в эффективности классификации настроений. ^[9] В мультимодальном анализе настроений используется комбинация различных текстовых, аудио и визуальных функций. ^[3]

Текстовые особенности

Подобно обычному анализу настроений на основе текста , некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе настроений — это униграммы и n-граммы , которые по сути представляют собой последовательность слов в данном текстовом документе. ^[10] Эти функции применяются с использованием представлений функций «мешок слов» или «мешок понятий», в которых слова или понятия представлены как векторы в подходящем пространстве. ^[11]^[12]

Аудио функции

Характеристики чувств и эмоций играют важную роль в различных фонетических и просодических свойствах, содержащихся в звуковых функциях. ^[13] Некоторые из наиболее важных аудиофункций, используемых в мультимодальном анализе настроений, — это мел-частотный кепстр (MFCC) , спектральный центроид , спектральный поток , гистограмма ударов, сумма ударов, самый сильный удар, продолжительность паузы и высота тона . ^[3] OpenSMILE ^[14] и Praat — популярные наборы инструментов с открытым исходным кодом для извлечения таких аудиофункций. ^[15]

Визуальные особенности

Одним из основных преимуществ анализа видео по отношению только к текстам является наличие в визуальных данных насыщенных сигналов настроения. ^[16] К визуальным особенностям относятся выражения лица , которые имеют первостепенное значение для передачи чувств и эмоций , поскольку они являются основным каналом формирования текущего душевного состояния человека. ^[3] В частности, улыбка считается одним из наиболее прогнозирующих визуальных сигналов в мультимодальном анализе настроений. ^[11] OpenFace — это набор инструментов для анализа лица с открытым исходным кодом, доступный для извлечения и понимания таких визуальных особенностей. ^[17]

Техники слияния

В отличие от традиционного анализа настроений на основе текста , мультимодальный анализ настроений подвергается процессу объединения, в котором данные из разных модальностей (текстовых, аудио или визуальных) объединяются и анализируются вместе. ^[3] Существующие подходы к объединению данных мультимодального анализа настроений можно сгруппировать в три основные категории: уровень функций, уровень решений и гибридное объединение, а эффективность классификации настроений зависит от того, какой тип метода объединения используется. ^[3]

Слияние на уровне функций

Слияние на уровне объектов (иногда называемое ранним слиянием) собирает все признаки каждой модальности (текстовой, аудио или визуальной) и объединяет их в единый вектор признаков, который в конечном итоге передается в алгоритм классификации. ^[18] Одной из трудностей при реализации этого метода является интеграция разнородных функций. ^[3]

Слияние на уровне принятия решений

Слияние на уровне принятия решений (иногда известное как позднее слияние) передает данные из каждой модальности (текстовой, аудио или визуальной) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации настроений путем объединения каждого результата в единый вектор решения. ^[18] Одним из преимуществ этого метода объединения является то, что он устраняет необходимость объединения разнородных данных, и каждый метод может использовать свой наиболее подходящий алгоритм классификации . ^[3]

Гибридный синтез

Гибридное слияние — это комбинация методов слияния на уровне объектов и на уровне решений, которая использует дополнительную информацию из обоих методов в процессе классификации. ^[5] Обычно это включает в себя двухэтапную процедуру, в которой первоначально выполняется объединение на уровне объектов между двумя модальностями, а затем в качестве второго шага применяется объединение на уровне решений, чтобы объединить первоначальные результаты объединения на уровне объектов с оставшаяся модальность . ^[19]^[20]

Приложения

Подобно анализу настроений на основе текста, мультимодальный анализ настроений может применяться при разработке различных форм рекомендательных систем , таких как анализ созданных пользователями видеороликов с обзорами фильмов ^[5] и общих обзоров продуктов, ^[21] для прогнозирования настроения клиентов и впоследствии создавать рекомендации по продуктам или услугам. ^[22] Мультимодальный анализ настроений также играет важную роль в развитии виртуальных помощников посредством применения методов обработки естественного языка (НЛП) и машинного обучения . ^[4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как стресс , тревога или депрессия . ^[7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в программах видеоновостей, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, как правило, менее очевидны или нейтральны. ^[23]