Распознавание активности направлено на распознавание действий и целей одного или нескольких агентов на основе серии наблюдений за действиями агентов и условиями окружающей среды. С 1980-х годов эта область исследований привлекла внимание нескольких сообществ компьютерных наук благодаря своей способности обеспечивать персонализированную поддержку множества различных приложений и ее связи со многими различными областями исследований, такими как медицина, взаимодействие человека и компьютера или социология.
Из-за его многогранного характера в разных областях распознавание деятельности может называться распознаванием плана, распознаванием цели, распознаванием намерений, распознаванием поведения, оценкой местоположения и услугами, основанными на местоположении .
Распознавание активности на основе датчиков объединяет развивающуюся область сенсорных сетей с новыми методами интеллектуального анализа данных и машинного обучения для моделирования широкого спектра человеческой деятельности. [1] [2] Мобильные устройства (например, смартфоны) предоставляют достаточные данные датчиков и вычислительную мощность, позволяющие распознавать физическую активность и оценивать потребление энергии в повседневной жизни. Исследователи распознавания активности на основе датчиков полагают, что, предоставив вездесущим компьютерам и датчикам возможность отслеживать поведение агентов (с согласия), эти компьютеры будут лучше подходить для действий от нашего имени. Визуальные датчики, которые включают информацию о цвете и глубине, такие как Kinect , обеспечивают более точное автоматическое распознавание действий и объединяют многие новые приложения, такие как интерактивное образование [3] и интеллектуальные среды. [4] Несколько представлений визуального датчика позволяют развивать машинное обучение для автоматического распознавания действий, инвариантных к виду. [5] Более совершенные датчики, используемые в системах 3D- захвата движения , обеспечивают высокоточное автоматическое распознавание без затрат на более сложную настройку аппаратной системы. [6]
Распознавание активности на основе датчиков является сложной задачей из-за присущей входным сигналам зашумленности. Таким образом, статистическое моделирование было основным направлением в этом направлении на уровнях, где распознавание на нескольких промежуточных уровнях проводится и связывается. На самом низком уровне, где собираются данные датчиков, статистическое обучение касается того, как найти подробное местоположение агентов на основе полученных данных сигнала. На промежуточном уровне статистический вывод может быть связан с тем, как распознать действия людей на основе предполагаемых последовательностей местоположений и условий окружающей среды на более низких уровнях. Более того, на самом высоком уровне главной задачей является выяснение общей цели или подцелей агента на основе последовательностей действий посредством сочетания логических и статистических рассуждений.
Распознавание действий нескольких пользователей с использованием нательных датчиков впервые появилось в работе ORL с использованием систем активных бейджей [7] в начале 1990-х годов. Другие сенсорные технологии, такие как датчики ускорения, использовались для выявления моделей групповой активности во время офисных сценариев. [8] Деятельность нескольких пользователей в интеллектуальных средах рассматривается в Gu et al . [9] В этой работе они исследуют фундаментальную проблему распознавания действий нескольких пользователей по показаниям датчиков в домашней среде и предлагают новый подход к анализу шаблонов для распознавания как однопользовательских, так и многопользовательских действий в едином решении.
Распознавание групповой деятельности фундаментально отличается от распознавания одиночной или многопользовательской активности тем, что цель состоит в том, чтобы распознать поведение группы как целого, а не действия отдельных членов внутри нее. [10] Групповое поведение носит эмерджентный характер, что означает, что свойства поведения группы фундаментально отличаются от свойств поведения отдельных лиц внутри нее или любой суммы этого поведения. [11] Основные проблемы заключаются в моделировании поведения отдельных членов группы, а также ролей человека в групповой динамике [12] и их связи с возникающим поведением группы параллельно. [13] Проблемы, которые еще предстоит решить, включают количественную оценку поведения и ролей людей, которые присоединяются к группе, интеграцию явных моделей для описания ролей в алгоритмы вывода и оценки масштабируемости для очень больших групп и толп. Распознавание групповой активности имеет приложения для управления толпой и реагирования в чрезвычайных ситуациях, а также для социальных сетей и приложений Quantified Self . [14]
Подходы, основанные на логике, отслеживают все логически последовательные объяснения наблюдаемых действий. Таким образом, необходимо учитывать все возможные и последовательные планы и цели. Каутц предложил формальную теорию распознавания планов. Он описал распознавание плана как процесс логического вывода ограничений. Все действия и планы единообразно называются целями, а знания распознавателя представлены набором утверждений первого порядка, называемым иерархией событий. Иерархия событий кодируется логикой первого порядка, которая определяет абстракцию, декомпозицию и функциональные связи между типами событий. [15]
Общая структура Каутца для распознавания планов в худшем случае имеет экспоненциальную временную сложность, измеряемую размером входной иерархии. Леш и Этциони пошли еще дальше и представили методы расширения распознавания целей, чтобы расширить его вычислительную работу. В отличие от подхода Каутца, в котором библиотека планов представлена явно, подход Леша и Эциони обеспечивает автоматическое построение библиотеки планов из примитивов предметной области. Кроме того, они представили компактные представления и эффективные алгоритмы распознавания целей в больших библиотеках планов. [16]
Непоследовательные планы и цели неоднократно отсекаются, когда появляются новые действия. Кроме того, они также представили методы адаптации устройства распознавания целей для обработки индивидуального идиосинкразического поведения с учетом образца недавнего поведения человека. Поллак и др. описал модель прямой аргументации, которая может знать об относительной силе нескольких видов аргументов для описания убеждений и намерений.
Серьезной проблемой подходов, основанных на логике, является их неспособность или присущая им невозможность представить неопределенность. Они не предлагают никакого механизма для предпочтения одного последовательного подхода другому и не способны решить, является ли один конкретный план более вероятным, чем другой, до тех пор, пока оба они могут быть достаточно последовательными, чтобы объяснить наблюдаемые действия. Существует также недостаток способности к обучению, связанной с методами, основанными на логике.
Другой подход к распознаванию действий на основе логики заключается в использовании потокового рассуждения на основе программирования набора ответов [ 17] и был применен для распознавания действий для приложений, связанных со здоровьем, [18] который использует слабые ограничения для моделирования степени двусмысленности/неопределенности. .
Теория вероятностей и статистические модели обучения в последнее время применяются при распознавании деятельности, чтобы рассуждать о действиях, планах и целях в условиях неопределенности. [19] В литературе существует несколько подходов, которые явно отражают неопределенность в рассуждениях о планах и целях агента.
Используя данные датчиков в качестве входных данных, Ходжес и Поллак разработали системы на основе машинного обучения для идентификации людей, выполняющих повседневные действия, такие как приготовление кофе. [20] Исследовательская лаборатория Intel (Сиэтл) и Вашингтонский университет в Сиэтле провели ряд важных работ по использованию датчиков для обнаружения планов человека. [21] [22] [23] Некоторые из этих работ выводят способы передвижения пользователя на основе показаний радиочастотных идентификаторов (RFID) и систем глобального позиционирования (GPS).
Было показано, что использование временных вероятностных моделей хорошо работает при распознавании активности и в целом превосходит нетемпоральные модели. [24] Генеративные модели, такие как скрытая марковская модель (HMM) и более широко сформулированные динамические байесовские сети (DBN), являются популярным выбором при моделировании деятельности на основе данных датчиков. [25] [26] [27] [28] Дискриминационные модели, такие как условные случайные поля (CRF), также широко применяются и также дают хорошие результаты при распознавании активности. [29] [30]
Генеративные и дискриминационные модели имеют свои плюсы и минусы, и идеальный выбор зависит от области их применения. Набор данных вместе с реализациями ряда популярных моделей (HMM, CRF) для распознавания активности можно найти здесь.
Обычные временные вероятностные модели, такие как скрытая модель Маркова (HMM) и модель условных случайных полей (CRF), напрямую моделируют корреляции между действиями и наблюдаемыми данными датчиков. В последние годы появляется все больше данных в пользу использования иерархических моделей, которые принимают во внимание богатую иерархическую структуру, существующую в данных о поведении человека. [26] [31] [32] Основная идея здесь заключается в том, что модель не коррелирует напрямую действия с данными датчиков, а вместо этого разбивает действие на поддействия (иногда называемые действиями) и соответствующим образом моделирует основные корреляции. . Примером может быть приготовление жаркого, которое можно разбить на поддействия или действия: нарезка овощей, обжаривание овощей на сковороде и подача их на тарелке. Примерами такой иерархической модели являются многослойные скрытые марковские модели (LHMM) [31] и иерархическая скрытая марковская модель (HHMM), которые, как было показано, значительно превосходят свой неиерархический аналог в распознавании активности. [26]
В отличие от традиционных подходов машинного обучения, недавно был предложен подход, основанный на интеллектуальном анализе данных. В работе Гу и др. проблема распознавания активности формулируется как задача классификации на основе шаблонов. Они предложили подход к интеллектуальному анализу данных, основанный на дискриминационных шаблонах, которые описывают значительные изменения между любыми двумя классами данных, чтобы распознавать последовательные, чередующиеся и параллельные действия в едином решении. [33] Гилберт и др. используйте 2D углы как в пространстве, так и во времени. Они группируются в пространстве и времени с использованием иерархического процесса с увеличивающейся областью поиска. На каждом этапе иерархии наиболее отличительные и описательные признаки эффективно изучаются посредством интеллектуального анализа данных (правило априори). [34]
Распознавание активности на основе местоположения также может опираться на данные GPS для распознавания действий. [35] [36]
Это очень важная и сложная задача — отслеживать и понимать поведение агентов с помощью видео, снятого различными камерами. Основной используемой технологией является компьютерное зрение . Распознавание активности на основе зрения нашло множество применений, таких как взаимодействие человека с компьютером, проектирование пользовательского интерфейса, обучение роботов и наблюдение, среди прочего. Научные конференции, на которых часто появляются работы по распознаванию деятельности на основе видения, - это ICCV и CVPR .
В области зрительного распознавания деятельности проделана большая работа. Исследователи опробовали ряд методов, таких как оптический поток , фильтрация Калмана , скрытые модели Маркова и т. д., в различных модальностях, таких как одна камера, стерео и инфракрасный порт. Кроме того, исследователи рассмотрели несколько аспектов этой темы, включая отслеживание одиночных пешеходов, групповое отслеживание и обнаружение упавших предметов.
Недавно некоторые исследователи использовали камеры RGBD , такие как Microsoft Kinect, для обнаружения человеческой деятельности. [37] Камеры глубины добавляют дополнительное измерение, то есть глубину, которую не может обеспечить обычная 2D-камера. Сенсорная информация от этих камер глубины была использована для создания скелетной модели человека в реальном времени с различными положениями тела. [38] Эта скелетная информация предоставляет значимую информацию, которую исследователи использовали для моделирования человеческой деятельности, которую обучают и позже используют для распознавания неизвестных действий. [39] [40]
В связи с недавним развитием глубокого обучения распознавание активности на основе видео RGB получило быстрое развитие. Он использует видео, снятые камерами RGB, в качестве входных данных и выполняет несколько задач, в том числе: классификацию видео, обнаружение начала и окончания действия на видео, а также пространственно-временную локализацию действия и людей, выполняющих это действие. [41] Методы оценки позы [42] позволяют извлечь более репрезентативные особенности скелета для распознавания действий. [43] Тем не менее, было обнаружено, что распознавание действий на основе глубокого обучения может пострадать от состязательных атак, когда злоумышленник незначительно изменяет входные данные, чтобы обмануть систему распознавания действий. [44]
Несмотря на значительный прогресс в распознавании активности на основе зрения, его использование для большинства реальных приложений визуального наблюдения остается далекой мечтой. [45] И наоборот, человеческий мозг, похоже, усовершенствовал способность распознавать действия человека. Эта способность зависит не только от приобретенных знаний, но и от способности извлекать информацию, соответствующую данному контексту, и логическим рассуждениям. На основании этого наблюдения было предложено усовершенствовать системы распознавания действий на основе зрения путем интеграции рассуждений, основанных на здравом смысле , а также контекстуальных и здравых знаний .
Иерархическое распознавание человеческой деятельности (HAR)
Иерархическое распознавание человеческой деятельности — это метод компьютерного зрения и машинного обучения. Его цель — идентифицировать и понимать действия или поведение человека на основе визуальных данных. Этот метод предполагает иерархическое структурирование действий, создание структуры, которая представляет связи и взаимозависимости между различными действиями. [46] Методы HAR можно использовать для понимания корреляций данных и основ моделирования, чтобы улучшить модели, сбалансировать проблемы точности и конфиденциальности в чувствительных областях приложений, а также для идентификации и управления тривиальными метками, которые не имеют отношения к конкретным случаям использования. [47]
При распознавании активности на основе зрения вычислительный процесс часто делится на четыре этапа, а именно: обнаружение человека, отслеживание человека, распознавание активности человека и затем оценка активности на высоком уровне.
При распознавании активности на основе компьютерного зрения мелкозернистая локализация действий обычно обеспечивает маски сегментации для каждого изображения, очерчивающие человеческий объект и категорию его действия (например, Segment-Tube [48] ). Такие методы, как динамические марковские сети , CNN и LSTM, часто используются для использования семантических корреляций между последовательными видеокадрами. Геометрические детализированные функции, такие как ограничивающие рамки объектов и позы людей, облегчают распознавание активности с помощью графовой нейронной сети . [41] [49]
Один из способов идентифицировать конкретных людей — это то, как они ходят. Программное обеспечение для распознавания походки можно использовать для записи походки человека или профиля его характеристик в базу данных с целью последующего распознавания этого человека, даже если он носит маскировку.
Когда распознавание активности выполняется внутри помещений и в городах с использованием широкодоступных сигналов Wi-Fi и точек доступа 802.11 , возникает много шума и неопределенности. Эти неопределенности можно смоделировать с помощью динамической модели байесовской сети . [50] В модели с множеством целей, которая может рассуждать о чередовании целей пользователя, применяется детерминированная модель перехода состояний. [51] Другой возможный метод моделирует параллельные и чередующиеся действия в вероятностном подходе. [52] Модель обнаружения действий пользователя может сегментировать сигналы Wi-Fi для выполнения возможных действий. [53]
Одна из основных идей распознавания активности Wi-Fi заключается в том, что когда сигнал проходит через тело человека во время передачи; что вызывает отражение, дифракцию и рассеяние. Исследователи могут получить информацию из этих сигналов для анализа деятельности человеческого организма.
Как показано в [54] , когда беспроводные сигналы передаются в помещении, препятствия, такие как стены, земля и человеческое тело, вызывают различные эффекты, такие как отражение, рассеяние, дифракция и дифракция. Таким образом, принимающая сторона одновременно получает несколько сигналов с разных путей, поскольку поверхности отражают сигнал во время передачи, что известно как эффект многолучевого распространения .
Статическая модель основана на этих двух видах сигналов: прямом сигнале и отраженном сигнале. Поскольку на прямом пути нет препятствий, прямую передачу сигнала можно смоделировать уравнением передачи Фрииса :
Если мы рассмотрим отраженный сигнал, новое уравнение будет иметь вид:
Когда появляется человек, у нас появляется новый путь передачи. Следовательно, окончательное уравнение:
— это приблизительная разница пути, пройденного человеческим телом.
В этой модели мы рассматриваем движение человека, которое приводит к постоянному изменению пути передачи сигнала. Мы можем использовать доплеровский сдвиг для описания этого эффекта, связанного со скоростью движения.
Рассчитав доплеровский сдвиг принимаемого сигнала, мы можем выяснить характер движения, тем самым дополнительно идентифицируя деятельность человека. Например, в [55] доплеровский сдвиг используется в качестве отпечатка пальца для достижения высокоточной идентификации девяти различных моделей движения.
Зона Френеля изначально использовалась для изучения интерференции и дифракции света, что позже использовалось для построения модели беспроводной передачи сигнала. Зона Френеля представляет собой серию эллиптических интервалов, фокусами которых являются положения отправителя и получателя.
Когда человек движется через разные зоны Френеля, путь сигнала, образуемый отражением человеческого тела, меняется, а если люди перемещаются вертикально через зоны Френеля, то изменение сигнала будет периодическим. В двух статьях Wang et.al. применил модель Френеля к задаче распознавания активности и получил более точный результат. [56] [57]
В некоторых задачах нам следует рассмотреть возможность точного моделирования человеческого тела, чтобы добиться лучших результатов. Например, [57] описал человеческое тело как концентрические цилиндры для обнаружения дыхания. Внешняя часть цилиндра обозначает грудную клетку, когда люди вдыхают, а внутренняя — когда люди выдыхают. Таким образом, разница между радиусами этих двух цилиндров представляет собой расстояние перемещения во время дыхания. Изменение фаз сигнала можно выразить следующим уравнением:
Существует несколько популярных наборов данных, которые используются для сравнительного анализа алгоритмов распознавания активности или действий.
Благодаря автоматическому мониторингу деятельности человека можно обеспечить реабилитацию на дому для людей, страдающих черепно-мозговыми травмами. Можно найти самые разные приложения: от приложений, связанных с безопасностью и логистической поддержкой, до услуг, основанных на определении местоположения . [61] Системы распознавания активности были разработаны для наблюдения за дикой природой [62] и энергосбережения в зданиях. [63]