Обнаружение пешеходов является важной и важной задачей в любой интеллектуальной системе видеонаблюдения , поскольку оно предоставляет фундаментальную информацию для семантического понимания видеозаписей . Он имеет очевидное распространение на автомобильную промышленность благодаря потенциалу улучшения систем безопасности. Многие производители автомобилей (например, Volvo, Ford, GM, Nissan) предлагают эту опцию в качестве опции ADAS в 2017 году.
Несмотря на проблемы, обнаружение пешеходов в последние годы по-прежнему остается активной областью исследований в области компьютерного зрения . Было предложено множество подходов.
Детекторы обучены искать пешеходов в кадре видео путем сканирования всего кадра. Детектор сработает, если элементы изображения внутри окна локального поиска соответствуют определенным критериям. Некоторые методы используют глобальные функции, такие как шаблон края, [1] другие используют локальные функции, такие как дескрипторы гистограммы ориентированных градиентов [2] . Недостаток этого подхода заключается в том, что на производительность могут легко повлиять фоновые помехи и окклюзии.
Пешеходы моделируются как наборы частей. Гипотезы о деталях сначала генерируются путем изучения локальных особенностей, включая Edgelet [3] и особенности ориентации. [4] Затем эти частичные гипотезы объединяются, чтобы сформировать наилучшую совокупность существующих пешеходных гипотез. Хотя этот подход привлекателен, само обнаружение деталей является сложной задачей. Реализация этого подхода следует стандартной процедуре обработки данных изображения, которая состоит из первого создания пирамиды изображений с плотной выборкой, вычисления признаков в каждом масштабе, выполнения классификации во всех возможных местах и, наконец, выполнения немаксимального подавления для создания окончательного набора ограничивающие рамки. [5]
В 2005 году Лейбе и др. [6] предложили подход, сочетающий в себе обнаружение и сегментацию , получивший название «Модель неявной формы» (ISM). В процессе обучения изучается кодовая книга местного облика. В процессе обнаружения извлеченные локальные объекты используются для сопоставления с записями кодовой книги, и каждое совпадение дает один голос за пешеходную гипотезу. Окончательные результаты обнаружения могут быть получены путем дальнейшего уточнения этих гипотез. Преимущество этого подхода заключается в том, что требуется лишь небольшое количество обучающих изображений.
Когда позволяют условия (фиксированная камера, стационарное освещение и т. д.), вычитание фона может помочь обнаружить пешеходов. Вычитание фона классифицирует пиксели видеопотоков как фон, где движение не обнаружено, или как передний план, где движение обнаружено. Эта процедура выделяет силуэты (соединенные компоненты на переднем плане) каждого движущегося элемента сцены, включая людей. В Льежском университете был разработан алгоритм [7] [8] для анализа формы этих силуэтов с целью обнаружения людей. Поскольку методы, рассматривающие силуэт в целом и выполняющие единую классификацию, как правило, весьма чувствительны к дефектам формы, для уменьшения влияния дефектов был предложен почастичный метод разделения силуэтов на набор более мелких областей. В отличие от других подходов, основанных на частях, эти области не имеют никакого анатомического значения. Этот алгоритм был расширен для обнаружения людей в потоках 3D-видео. [9]
Флёре и др. [10] предложили метод интеграции нескольких калиброванных камер для обнаружения нескольких пешеходов. В этом подходе плоскость земли делится на однородные, непересекающиеся ячейки сетки, обычно размером 25 на 25 (см). Детектор создает карту вероятности занятости (POM), он дает оценку вероятности того, что каждая ячейка сетки будет занята человеком. Учитывая два-четыре синхронизированных видеопотока, снятых на уровне глаз и под разными углами, этот метод может эффективно сочетать генеративную модель с динамическим программированием, чтобы точно отслеживать до шести человек в тысячах кадров, несмотря на значительные окклюзии и изменения освещения. Он также может определять метрически точные траектории для каждого из них.