Признание активности

Распознавание активности направлено на распознавание действий и целей одного или нескольких агентов на основе серии наблюдений за действиями агентов и условиями окружающей среды. С 1980-х годов эта область исследований привлекла внимание нескольких сообществ компьютерных наук благодаря своей способности обеспечивать персонализированную поддержку множества различных приложений и ее связи со многими различными областями исследований, такими как медицина, взаимодействие человека и компьютера или социология.

Из-за его многогранного характера в разных областях распознавание деятельности может называться распознаванием плана, распознаванием цели, распознаванием намерений, распознаванием поведения, оценкой местоположения и услугами, основанными на местоположении .

Типы

Распознавание активности одного пользователя на основе датчиков

Распознавание активности на основе датчиков объединяет развивающуюся область сенсорных сетей с новыми методами интеллектуального анализа данных и машинного обучения для моделирования широкого спектра человеческой деятельности. ^[1]^[2] Мобильные устройства (например, смартфоны) предоставляют достаточные данные датчиков и вычислительную мощность, позволяющие распознавать физическую активность и оценивать потребление энергии в повседневной жизни. Исследователи распознавания активности на основе датчиков полагают, что, предоставив вездесущим компьютерам и датчикам возможность отслеживать поведение агентов (с согласия), эти компьютеры будут лучше подходить для действий от нашего имени. Визуальные датчики, которые включают информацию о цвете и глубине, такие как Kinect , обеспечивают более точное автоматическое распознавание действий и объединяют многие новые приложения, такие как интерактивное образование ^[3] и интеллектуальные среды. ^[4] Несколько представлений визуального датчика позволяют развивать машинное обучение для автоматического распознавания действий, инвариантных к виду. ^[5] Более совершенные датчики, используемые в системах 3D- захвата движения , обеспечивают высокоточное автоматическое распознавание без затрат на более сложную настройку аппаратной системы. ^[6]

Уровни распознавания активности на основе датчиков

Распознавание активности на основе датчиков является сложной задачей из-за присущей входным сигналам зашумленности. Таким образом, статистическое моделирование было основным направлением в этом направлении на уровнях, где распознавание на нескольких промежуточных уровнях проводится и связывается. На самом низком уровне, где собираются данные датчиков, статистическое обучение касается того, как найти подробное местоположение агентов на основе полученных данных сигнала. На промежуточном уровне статистический вывод может быть связан с тем, как распознать действия людей на основе предполагаемых последовательностей местоположений и условий окружающей среды на более низких уровнях. Более того, на самом высоком уровне главной задачей является выяснение общей цели или подцелей агента на основе последовательностей действий посредством сочетания логических и статистических рассуждений.

Распознавание активности нескольких пользователей на основе датчиков

Распознавание действий нескольких пользователей с использованием нательных датчиков впервые появилось в работе ORL с использованием систем активных бейджей ^[7] в начале 1990-х годов. Другие сенсорные технологии, такие как датчики ускорения, использовались для выявления моделей групповой активности во время офисных сценариев. ^[8] Деятельность нескольких пользователей в интеллектуальных средах рассматривается в Gu et al . ^[9] В этой работе они исследуют фундаментальную проблему распознавания действий нескольких пользователей по показаниям датчиков в домашней среде и предлагают новый подход к анализу шаблонов для распознавания как однопользовательских, так и многопользовательских действий в едином решении.

Распознавание групповой активности на основе датчиков

Распознавание групповой деятельности фундаментально отличается от распознавания одиночной или многопользовательской активности тем, что цель состоит в том, чтобы распознать поведение группы как целого, а не действия отдельных членов внутри нее. ^[10] Групповое поведение носит эмерджентный характер, что означает, что свойства поведения группы фундаментально отличаются от свойств поведения отдельных лиц внутри нее или любой суммы этого поведения. ^[11] Основные проблемы заключаются в моделировании поведения отдельных членов группы, а также ролей человека в групповой динамике ^[12] и их связи с возникающим поведением группы параллельно. ^[13] Проблемы, которые еще предстоит решить, включают количественную оценку поведения и ролей людей, которые присоединяются к группе, интеграцию явных моделей для описания ролей в алгоритмы вывода и оценки масштабируемости для очень больших групп и толп. Распознавание групповой активности имеет приложения для управления толпой и реагирования в чрезвычайных ситуациях, а также для социальных сетей и приложений Quantified Self . ^[14]

Подходы

Распознавание деятельности посредством логики и рассуждения

Подходы, основанные на логике, отслеживают все логически последовательные объяснения наблюдаемых действий. Таким образом, необходимо учитывать все возможные и последовательные планы и цели. Каутц предложил формальную теорию распознавания планов. Он описал распознавание плана как процесс логического вывода ограничений. Все действия и планы единообразно называются целями, а знания распознавателя представлены набором утверждений первого порядка, называемым иерархией событий. Иерархия событий кодируется логикой первого порядка, которая определяет абстракцию, декомпозицию и функциональные связи между типами событий. ^[15]

Общая структура Каутца для распознавания планов в худшем случае имеет экспоненциальную временную сложность, измеряемую размером входной иерархии. Леш и Этциони пошли еще дальше и представили методы расширения распознавания целей, чтобы расширить его вычислительную работу. В отличие от подхода Каутца, в котором библиотека планов представлена явно, подход Леша и Эциони обеспечивает автоматическое построение библиотеки планов из примитивов предметной области. Кроме того, они представили компактные представления и эффективные алгоритмы распознавания целей в больших библиотеках планов. ^[16]

Непоследовательные планы и цели неоднократно отсекаются, когда появляются новые действия. Кроме того, они также представили методы адаптации устройства распознавания целей для обработки индивидуального идиосинкразического поведения с учетом образца недавнего поведения человека. Поллак и др. описал модель прямой аргументации, которая может знать об относительной силе нескольких видов аргументов для описания убеждений и намерений.

Серьезной проблемой подходов, основанных на логике, является их неспособность или присущая им невозможность представить неопределенность. Они не предлагают никакого механизма для предпочтения одного последовательного подхода другому и не способны решить, является ли один конкретный план более вероятным, чем другой, до тех пор, пока оба они могут быть достаточно последовательными, чтобы объяснить наблюдаемые действия. Существует также недостаток способности к обучению, связанной с методами, основанными на логике.

Другой подход к распознаванию действий на основе логики заключается в использовании потокового рассуждения на основе программирования набора ответов [ ^17] и был применен для распознавания действий для приложений, связанных со здоровьем, ^[18] который использует слабые ограничения для моделирования степени двусмысленности/неопределенности. .

Распознавание деятельности посредством вероятностного рассуждения

Теория вероятностей и статистические модели обучения в последнее время применяются при распознавании деятельности, чтобы рассуждать о действиях, планах и целях в условиях неопределенности. ^[19] В литературе существует несколько подходов, которые явно отражают неопределенность в рассуждениях о планах и целях агента.

Используя данные датчиков в качестве входных данных, Ходжес и Поллак разработали системы на основе машинного обучения для идентификации людей, выполняющих повседневные действия, такие как приготовление кофе. ^[20] Исследовательская лаборатория Intel (Сиэтл) и Вашингтонский университет в Сиэтле провели ряд важных работ по использованию датчиков для обнаружения планов человека. ^[21]^[22]^[23] Некоторые из этих работ выводят способы передвижения пользователя на основе показаний радиочастотных идентификаторов (RFID) и систем глобального позиционирования (GPS).

Было показано, что использование временных вероятностных моделей хорошо работает при распознавании активности и в целом превосходит нетемпоральные модели. ^[24] Генеративные модели, такие как скрытая марковская модель (HMM) и более широко сформулированные динамические байесовские сети (DBN), являются популярным выбором при моделировании деятельности на основе данных датчиков. ^[25]^[26]^[27]^[28] Дискриминационные модели, такие как условные случайные поля (CRF), также широко применяются и также дают хорошие результаты при распознавании активности. ^[29]^[30]

Генеративные и дискриминационные модели имеют свои плюсы и минусы, и идеальный выбор зависит от области их применения. Набор данных вместе с реализациями ряда популярных моделей (HMM, CRF) для распознавания активности можно найти здесь.

Обычные временные вероятностные модели, такие как скрытая модель Маркова (HMM) и модель условных случайных полей (CRF), напрямую моделируют корреляции между действиями и наблюдаемыми данными датчиков. В последние годы появляется все больше данных в пользу использования иерархических моделей, которые принимают во внимание богатую иерархическую структуру, существующую в данных о поведении человека. ^[26]^[31]^[32] Основная идея здесь заключается в том, что модель не коррелирует напрямую действия с данными датчиков, а вместо этого разбивает действие на поддействия (иногда называемые действиями) и соответствующим образом моделирует основные корреляции. . Примером может быть приготовление жаркого, которое можно разбить на поддействия или действия: нарезка овощей, обжаривание овощей на сковороде и подача их на тарелке. Примерами такой иерархической модели являются многослойные скрытые марковские модели (LHMM) ^[31] и иерархическая скрытая марковская модель (HHMM), которые, как было показано, значительно превосходят свой неиерархический аналог в распознавании активности. ^[26]

Подход к распознаванию активности, основанный на интеллектуальном анализе данных

В отличие от традиционных подходов машинного обучения, недавно был предложен подход, основанный на интеллектуальном анализе данных. В работе Гу и др. проблема распознавания активности формулируется как задача классификации на основе шаблонов. Они предложили подход к интеллектуальному анализу данных, основанный на дискриминационных шаблонах, которые описывают значительные изменения между любыми двумя классами данных, чтобы распознавать последовательные, чередующиеся и параллельные действия в едином решении. ^[33] Гилберт и др. используйте 2D углы как в пространстве, так и во времени. Они группируются в пространстве и времени с использованием иерархического процесса с увеличивающейся областью поиска. На каждом этапе иерархии наиболее отличительные и описательные признаки эффективно изучаются посредством интеллектуального анализа данных (правило априори). ^[34]

Распознавание активности на основе GPS

Распознавание активности на основе местоположения также может опираться на данные GPS для распознавания действий. ^[35]^[36]

Использование датчика

Распознавание активности на основе зрения

Это очень важная и сложная задача — отслеживать и понимать поведение агентов с помощью видео, снятого различными камерами. Основной используемой технологией является компьютерное зрение . Распознавание активности на основе зрения нашло множество применений, таких как взаимодействие человека с компьютером, проектирование пользовательского интерфейса, обучение роботов и наблюдение, среди прочего. Научные конференции, на которых часто появляются работы по распознаванию деятельности на основе видения, - это ICCV и CVPR .

В области зрительного распознавания деятельности проделана большая работа. Исследователи опробовали ряд методов, таких как оптический поток , фильтрация Калмана , скрытые модели Маркова и т. д., в различных модальностях, таких как одна камера, стерео и инфракрасный порт. Кроме того, исследователи рассмотрели несколько аспектов этой темы, включая отслеживание одиночных пешеходов, групповое отслеживание и обнаружение упавших предметов.

Недавно некоторые исследователи использовали камеры RGBD , такие как Microsoft Kinect, для обнаружения человеческой деятельности. ^[37] Камеры глубины добавляют дополнительное измерение, то есть глубину, которую не может обеспечить обычная 2D-камера. Сенсорная информация от этих камер глубины была использована для создания скелетной модели человека в реальном времени с различными положениями тела. ^[38] Эта скелетная информация предоставляет значимую информацию, которую исследователи использовали для моделирования человеческой деятельности, которую обучают и позже используют для распознавания неизвестных действий. ^[39]^[40]

В связи с недавним развитием глубокого обучения распознавание активности на основе видео RGB получило быстрое развитие. Он использует видео, снятые камерами RGB, в качестве входных данных и выполняет несколько задач, в том числе: классификацию видео, обнаружение начала и окончания действия на видео, а также пространственно-временную локализацию действия и людей, выполняющих это действие. ^[41] Методы оценки позы ^[42] позволяют извлечь более репрезентативные особенности скелета для распознавания действий. ^[43] Тем не менее, было обнаружено, что распознавание действий на основе глубокого обучения может пострадать от состязательных атак, когда злоумышленник незначительно изменяет входные данные, чтобы обмануть систему распознавания действий. ^[44]

Несмотря на значительный прогресс в распознавании активности на основе зрения, его использование для большинства реальных приложений визуального наблюдения остается далекой мечтой. ^[45] И наоборот, человеческий мозг, похоже, усовершенствовал способность распознавать действия человека. Эта способность зависит не только от приобретенных знаний, но и от способности извлекать информацию, соответствующую данному контексту, и логическим рассуждениям. На основании этого наблюдения было предложено усовершенствовать системы распознавания действий на основе зрения путем интеграции рассуждений, основанных на здравом смысле , а также контекстуальных и здравых знаний .

Иерархическое распознавание человеческой деятельности (HAR)

Иерархическое распознавание человеческой деятельности — это метод компьютерного зрения и машинного обучения. Его цель — идентифицировать и понимать действия или поведение человека на основе визуальных данных. Этот метод предполагает иерархическое структурирование действий, создание структуры, которая представляет связи и взаимозависимости между различными действиями. ^[46] Методы HAR можно использовать для понимания корреляций данных и основ моделирования, чтобы улучшить модели, сбалансировать проблемы точности и конфиденциальности в чувствительных областях приложений, а также для идентификации и управления тривиальными метками, которые не имеют отношения к конкретным случаям использования. ^[47]

Уровни зрительного распознавания активности

При распознавании активности на основе зрения вычислительный процесс часто делится на четыре этапа, а именно: обнаружение человека, отслеживание человека, распознавание активности человека и затем оценка активности на высоком уровне.

Детальная локализация действий

При распознавании активности на основе компьютерного зрения мелкозернистая локализация действий обычно обеспечивает маски сегментации для каждого изображения, очерчивающие человеческий объект и категорию его действия (например, Segment-Tube ^[48] ). Такие методы, как динамические марковские сети , CNN и LSTM, часто используются для использования семантических корреляций между последовательными видеокадрами. Геометрические детализированные функции, такие как ограничивающие рамки объектов и позы людей, облегчают распознавание активности с помощью графовой нейронной сети . ^[41]^[49]

Автоматическое распознавание походки

Один из способов идентифицировать конкретных людей — это то, как они ходят. Программное обеспечение для распознавания походки можно использовать для записи походки человека или профиля его характеристик в базу данных с целью последующего распознавания этого человека, даже если он носит маскировку.

Распознавание активности на основе Wi-Fi

Когда распознавание активности выполняется внутри помещений и в городах с использованием широкодоступных сигналов Wi-Fi и точек доступа 802.11 , возникает много шума и неопределенности. Эти неопределенности можно смоделировать с помощью динамической модели байесовской сети . ^[50] В модели с множеством целей, которая может рассуждать о чередовании целей пользователя, применяется детерминированная модель перехода состояний. ^[51] Другой возможный метод моделирует параллельные и чередующиеся действия в вероятностном подходе. ^[52] Модель обнаружения действий пользователя может сегментировать сигналы Wi-Fi для выполнения возможных действий. ^[53]

Базовые модели распознавания Wi-Fi

Одна из основных идей распознавания активности Wi-Fi заключается в том, что когда сигнал проходит через тело человека во время передачи; что вызывает отражение, дифракцию и рассеяние. Исследователи могут получить информацию из этих сигналов для анализа деятельности человеческого организма.

Статическая модель передачи

Как показано в ^[54] , когда беспроводные сигналы передаются в помещении, препятствия, такие как стены, земля и человеческое тело, вызывают различные эффекты, такие как отражение, рассеяние, дифракция и дифракция. Таким образом, принимающая сторона одновременно получает несколько сигналов с разных путей, поскольку поверхности отражают сигнал во время передачи, что известно как эффект многолучевого распространения .

Статическая модель основана на этих двух видах сигналов: прямом сигнале и отраженном сигнале. Поскольку на прямом пути нет препятствий, прямую передачу сигнала можно смоделировать уравнением передачи Фрииса :

P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}d^{2}}}

P_{t}

– мощность, подаваемая на входные клеммы передающей антенны;

P_{r}

— мощность, доступная на выходных клеммах приемной антенны;

d

– расстояние между антеннами;

G_{t}

– усиление передающей антенны;

G_{r}

принимает усиление антенны;

\lambda

длина волны радиочастоты

Если мы рассмотрим отраженный сигнал, новое уравнение будет иметь вид:

P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h)^{2}}}

h

— расстояние между точками отражения и прямым путем.

Когда появляется человек, у нас появляется новый путь передачи. Следовательно, окончательное уравнение:

P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h+\Delta )^{2}}}

$\Delta$ — это приблизительная разница пути, пройденного человеческим телом.

Динамическая модель трансмиссии

В этой модели мы рассматриваем движение человека, которое приводит к постоянному изменению пути передачи сигнала. Мы можем использовать доплеровский сдвиг для описания этого эффекта, связанного со скоростью движения.

\Delta f={\frac {2v\cos \theta }{c}}f

Рассчитав доплеровский сдвиг принимаемого сигнала, мы можем выяснить характер движения, тем самым дополнительно идентифицируя деятельность человека. Например, в ^[55] доплеровский сдвиг используется в качестве отпечатка пальца для достижения высокоточной идентификации девяти различных моделей движения.

зона Френеля

Зона Френеля изначально использовалась для изучения интерференции и дифракции света, что позже использовалось для построения модели беспроводной передачи сигнала. Зона Френеля представляет собой серию эллиптических интервалов, фокусами которых являются положения отправителя и получателя.

Когда человек движется через разные зоны Френеля, путь сигнала, образуемый отражением человеческого тела, меняется, а если люди перемещаются вертикально через зоны Френеля, то изменение сигнала будет периодическим. В двух статьях Wang et.al. применил модель Френеля к задаче распознавания активности и получил более точный результат. ^[56]^[57]

Моделирование человеческого тела

В некоторых задачах нам следует рассмотреть возможность точного моделирования человеческого тела, чтобы добиться лучших результатов. Например, ^[57] описал человеческое тело как концентрические цилиндры для обнаружения дыхания. Внешняя часть цилиндра обозначает грудную клетку, когда люди вдыхают, а внутренняя — когда люди выдыхают. Таким образом, разница между радиусами этих двух цилиндров представляет собой расстояние перемещения во время дыхания. Изменение фаз сигнала можно выразить следующим уравнением:

\theta =2\pi {\frac {2\,\Delta d}{\lambda }}

\theta

– изменение фаз сигнала;

\lambda

– длина волны радиочастоты;

\Delta d

перемещается расстояние грудной клетки;

Наборы данных

Существует несколько популярных наборов данных, которые используются для сравнительного анализа алгоритмов распознавания активности или действий.

UCF-101: Он состоит из 101 класса действий человека, более 13 тысяч клипов и 27 часов видеоданных. Занятия активными действиями включают нанесение макияжа, игру в дхол, бросок в крикет, бритье бороды и т. д. ^[58]
HMDB51: это коллекция реалистичных видеороликов из различных источников, включая фильмы и веб-видео. Набор данных состоит из 6849 видеоклипов из 51 категории действий (таких как «прыгать», «поцелуй» и «смех»), причем каждая категория содержит не менее 101 клипа. ^[59]
Кинетика: это значительно больший набор данных, чем предыдущие. Он содержит 400 классов действий человека и не менее 400 видеоклипов для каждого действия. Каждый клип длится около 10 секунд и взят из другого видео на YouTube. Этот набор данных был создан DeepMind. ^[60]

Приложения

Благодаря автоматическому мониторингу деятельности человека можно обеспечить реабилитацию на дому для людей, страдающих черепно-мозговыми травмами. Можно найти самые разные приложения: от приложений, связанных с безопасностью и логистической поддержкой, до услуг, основанных на определении местоположения . ^[61] Системы распознавания активности были разработаны для наблюдения за дикой природой ^[62] и энергосбережения в зданиях. ^[63]