stringtranslate.com

Мультимодальный анализ настроений

Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. [1] Он может быть бимодальным, включающим различные комбинации двух модальностей, или тримодальным, включающим три модальности. [2] Благодаря большому количеству данных социальных сетей , доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, [3] которые можно применять при разработке виртуальных помощников , [4] анализ обзоров фильмов на YouTube, [5] анализ новостных видеороликов, [6] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , [7] среди других.

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [8] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень решений и гибридное объединение. [3] На эффективность этих методов объединения и применяемых алгоритмов классификации влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. [9]

Функции

Разработка функций , которая включает в себя выбор функций, которые вводятся в алгоритмы машинного обучения , играет ключевую роль в эффективности классификации настроений. [9] В мультимодальном анализе настроений используется комбинация различных текстовых, аудио и визуальных функций. [3]

Текстовые особенности

Подобно обычному анализу настроений на основе текста , некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе настроений — это униграммы и n-граммы , которые по сути представляют собой последовательность слов в данном текстовом документе. [10] Эти функции применяются с использованием представлений функций «мешок слов» или «мешок понятий», в которых слова или понятия представлены как векторы в подходящем пространстве. [11] [12]

Аудио функции

Характеристики чувств и эмоций играют важную роль в различных фонетических и просодических свойствах, содержащихся в звуковых функциях. [13] Некоторые из наиболее важных аудиофункций, используемых в мультимодальном анализе настроений, — это мел-частотный кепстр (MFCC) , спектральный центроид , спектральный поток , гистограмма ударов, сумма ударов, самый сильный удар, продолжительность паузы и высота тона . [3] OpenSMILE [14] и Praat — популярные наборы инструментов с открытым исходным кодом для извлечения таких аудиофункций. [15]

Визуальные особенности

Одним из основных преимуществ анализа видео по отношению только к текстам является наличие в визуальных данных насыщенных сигналов настроения. [16] К визуальным особенностям относятся выражения лица , которые имеют первостепенное значение для передачи чувств и эмоций , поскольку они являются основным каналом формирования текущего душевного состояния человека. [3] В частности, улыбка считается одним из наиболее прогнозирующих визуальных сигналов в мультимодальном анализе настроений. [11] OpenFace — это набор инструментов для анализа лица с открытым исходным кодом, доступный для извлечения и понимания таких визуальных особенностей. [17]

Техники слияния

В отличие от традиционного анализа настроений на основе текста , мультимодальный анализ настроений подвергается процессу объединения, в котором данные из разных модальностей (текстовых, аудио или визуальных) объединяются и анализируются вместе. [3] Существующие подходы к объединению данных мультимодального анализа настроений можно сгруппировать в три основные категории: уровень функций, уровень решений и гибридное объединение, а эффективность классификации настроений зависит от того, какой тип метода объединения используется. [3]

Слияние на уровне функций

Слияние на уровне объектов (иногда называемое ранним слиянием) собирает все признаки каждой модальности (текстовой, аудио или визуальной) и объединяет их в единый вектор признаков, который в конечном итоге передается в алгоритм классификации. [18] Одной из трудностей при реализации этого метода является интеграция разнородных функций. [3]

Слияние на уровне принятия решений

Слияние на уровне принятия решений (иногда известное как позднее слияние) передает данные из каждой модальности (текстовой, аудио или визуальной) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации настроений путем объединения каждого результата в единый вектор решения. [18] Одним из преимуществ этого метода объединения является то, что он устраняет необходимость объединения разнородных данных, и каждый метод может использовать свой наиболее подходящий алгоритм классификации . [3]

Гибридный синтез

Гибридное слияние — это комбинация методов слияния на уровне объектов и на уровне решений, которая использует дополнительную информацию из обоих методов в процессе классификации. [5] Обычно это включает в себя двухэтапную процедуру, в которой первоначально выполняется объединение на уровне объектов между двумя модальностями, а затем в качестве второго шага применяется объединение на уровне решений, чтобы объединить первоначальные результаты объединения на уровне объектов с оставшаяся модальность . [19] [20]

Приложения

Подобно анализу настроений на основе текста, мультимодальный анализ настроений может применяться при разработке различных форм рекомендательных систем , таких как анализ созданных пользователями видеороликов с обзорами фильмов [5] и общих обзоров продуктов, [21] для прогнозирования настроения клиентов и впоследствии создавать рекомендации по продуктам или услугам. [22] Мультимодальный анализ настроений также играет важную роль в развитии виртуальных помощников посредством применения методов обработки естественного языка (НЛП) и машинного обучения . [4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как стресс , тревога или депрессия . [7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в программах видеоновостей, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, как правило, менее очевидны или нейтральны. [23]

Рекомендации

  1. ^ Сулеймани, Мохаммед; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантич, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисление изображений и зрительных образов . 65 : 3–14. doi :10.1016/j.imavis.2017.08.003. S2CID  19491070.
  2. ^ Каррай, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нурс, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. дои : 10.21307/ijssis-2017-283 .
  3. ^ abcdefghi Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хусейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от унимодального анализа к мультимодальному слиянию». Информационный синтез . 37 : 98–125. doi :10.1016/j.inffus.2017.02.003. hdl : 1893/25490 . S2CID  205433041.
  4. ^ ab «ИИ Google будет звонить за вас». Новости BBC . 8 мая 2018 года . Проверено 12 июня 2018 г.
  5. ^ abc Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьёрн; Сунь, Цункай; Сагаэ, Кенджи; Моренси, Луи-Филипп (май 2013 г.). «Обзоры фильмов на YouTube: анализ настроений в аудиовизуальном контексте» (PDF) . Интеллектуальные системы IEEE . 28 (3): 46–53. дои :10.1109/MIS.2013.34. S2CID  12789201.
  6. ^ Перейра, Мойзес HR; Падуя, Флавио LC; Перейра, Адриано CM; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [cs.CL].
  7. ^ аб Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). «Анализ настроений и аффективные вычисления для мониторинга депрессии». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) , 2017 г. IEEE. стр. 1988–1995 гг. дои : 10.1109/bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID  24408937.
  8. ^ Панг, Бо; Ли, Лилиан (2008). Анализ мнений и настроений . Ганновер, Массачусетс: Now Publishers. ISBN 978-1601981509.
  9. ^ аб Сунь, Шилян; Ло, Чен; Чен, Джунюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа мнений». Информационный синтез . 36 : 10–25. doi :10.1016/j.inffus.2016.10.004.
  10. ^ Ядоллахи, Али; Шахраки, Амене Голипур; Заяне, Осмар Р. (25 мая 2017 г.). «Текущее состояние анализа тональности текста: от мнений до анализа эмоций». Обзоры вычислительной техники ACM . 50 (2): 1–33. дои : 10.1145/3057270. S2CID  5275807.
  11. ^ аб Перес Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (май 2013 г.). «Мультимодальный анализ настроений испанских онлайн-видео». Интеллектуальные системы IEEE . 28 (3): 38–45. дои :10.1109/MIS.2013.9. S2CID  1132247.
  12. ^ Пория, Суджанья; Камбрия, Эрик; Хусейн, Амир; Хуан, Гуан-Бин (март 2015 г.). «На пути к интеллектуальной системе для мультимодального аффективного анализа данных». Нейронные сети . 63 : 104–116. doi :10.1016/j.neunet.2014.10.005. hdl : 1893/21310 . PMID  25523041. S2CID  342649.
  13. ^ Чунг-Сянь Ву; Вэй-Бин Лян (январь 2011 г.). «Распознавание эмоций аффективной речи на основе нескольких классификаторов с использованием акустико-просодической информации и семантических меток». Транзакции IEEE для аффективных вычислений . 2 (1): 10–21. дои : 10.1109/T-AFFC.2010.16. S2CID  52853112.
  14. ^ Эйбен, Флориан; Вёльмер, Мартин; Шуллер, Бьёрн (2009). «OpenEAR — Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом». OpenEAR — Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом — Публикация конференции IEEE. п. 1. дои : 10.1109/ACII.2009.5349350. ISBN 978-1-4244-4800-5. S2CID  2081569.
  15. ^ Моренси, Луи-Филипп; Михалча, Рада; Доши, Паял (14 ноября 2011 г.). «К мультимодальному анализу настроений». На пути к мультимодальному анализу настроений: сбор мнений из Интернета . АКМ. стр. 169–176. дои : 10.1145/2070481.2070509. ISBN 9781450306416. S2CID  1257599.
  16. ^ Пория, Суджанья; Камбрия, Эрик; Хазарика, Деваманью; Маджумдер, Навонил; Заде, Амир; Моренси, Луи-Филипп (2017). «Контекстно-зависимый анализ настроений в пользовательских видео». Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) : 873–883. дои : 10.18653/v1/p17-1081 .
  17. ^ «OpenFace: набор инструментов для анализа поведения лица с открытым исходным кодом - публикация конференции IEEE» . дои : 10.1109/WACV.2016.7477553. S2CID  1919851. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  18. ^ аб Пория, Суджанья; Камбрия, Эрик; Ховард, Ньютон; Хуан, Гуан-Бин; Хусейн, Амир (январь 2016 г.). «Объединение аудио, визуальных и текстовых подсказок для анализа настроений на основе мультимодального контента». Нейрокомпьютинг . 174 : 50–59. doi : 10.1016/j.neucom.2015.01.095. S2CID  15287807.
  19. ^ Шахла, Шахла; Нагш-Нилчи, Ахмад Реза (2017). «Использование доказательной теории в сочетании текстовых, аудио и визуальных модальностей для аффективного поиска музыкальных видео - Публикация конференции IEEE». дои : 10.1109/PRIA.2017.7983051. S2CID  24466718. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  20. ^ Пория, Суджанья; Пэн, Хайюнь; Хусейн, Амир; Ховард, Ньютон; Камбрия, Эрик (октябрь 2017 г.). «Ансамблевое применение сверточных нейронных сетей и множественное обучение ядра для мультимодального анализа настроений». Нейрокомпьютинг . 261 : 217–230. doi : 10.1016/j.neucom.2016.09.117.
  21. ^ Перес-Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (1 января 2013 г.). «Мультимодальный анализ настроений на уровне высказываний». Длинные статьи . Ассоциация компьютерной лингвистики (ACL).
  22. ^ Чуи, Майкл; Маньика, Джеймс; Миремади, Мехди; Хенке, Николаус; Чунг, Рита; Нел, Питер; Малхотра, Санкальп. «Заметки о передовых технологиях искусственного интеллекта. Результаты сотен случаев использования». МакКинси и компания . Проверено 13 июня 2018 г.
  23. ^ Эллис, Джозеф Г.; Джоу, Брендан; Чанг, Ши-Фу (12 ноября 2014 г.). «Почему мы смотрим новости». Почему мы смотрим новости: набор данных для изучения настроений в вещательных видеоновостях . АКМ. стр. 104–111. дои : 10.1145/2663204.2663237. ISBN 9781450328852. S2CID  14112246.