stringtranslate.com

Эгоцентрическое видение

Эгоцентрическое зрение или зрение от первого лица — это подраздел компьютерного зрения , который подразумевает анализ изображений и видео, снятых носимой камерой , которая обычно носится на голове или на груди и естественным образом приближается к полю зрения владельца камеры. Следовательно, визуальные данные захватывают часть сцены, на которой пользователь фокусируется для выполнения поставленной задачи, и предлагают ценную перспективу для понимания действий пользователя и их контекста в естественной обстановке. [1]

Носимая камера, направленная вперед, часто дополняется камерой, направленной внутрь глаза пользователя и способной измерять направление взгляда пользователя, что полезно для выявления внимания и лучшего понимания действий и намерений пользователя.

История

Идея использования носимой камеры для сбора визуальных данных от первого лица восходит к 70-м годам, когда Стив Манн изобрел «цифровые очки» — устройство, при ношении которого человеческий глаз фактически превращается в электронную камеру и телевизионный дисплей. [2]

Впоследствии носимые камеры использовались для приложений, связанных со здоровьем, в контексте гуманистического интеллекта [3] и носимого искусственного интеллекта. [4] Эгоцентрическое зрение лучше всего достигается с точки зрения глаза, но его также можно осуществлять с помощью шейной камеры, когда очки будут мешать. [5] Этот шейный вариант был популяризирован с помощью Microsoft SenseCam в 2006 году для экспериментальных исследований в области здравоохранения. [6] Интерес сообщества компьютерного зрения к эгоцентрической парадигме медленно возрастал с приходом 2010-х годов и быстро растет в последние годы, [7] чему способствовали как впечатляющие достижения в области носимых технологий , так и растущее число потенциальных приложений.

Прототипическая система зрения от первого лица, описанная Канаде и Хебертом [8] в 2012 году, состоит из трех основных компонентов: компонента локализации, способного оценивать окружение, компонента распознавания, способного идентифицировать объекты и людей, и компонента распознавания активности , способного предоставлять информацию о текущей активности пользователя. Вместе эти три компонента обеспечивают полную ситуационную осведомленность пользователя, которая, в свою очередь, может использоваться для оказания помощи пользователю или лицу, осуществляющему уход. Следуя этой идее, первые вычислительные методы для эгоцентрического анализа были сосредоточены на распознавании активности, связанной с руками [9] и анализе социального взаимодействия. [10] Кроме того, учитывая неограниченный характер видео и огромный объем генерируемых данных, временная сегментация [11] и суммирование [12] были одними из первых рассмотренных проблем. После почти десяти лет эгоцентрического зрения (2007–2017) эта область все еще претерпевает диверсификацию. Новые темы исследований включают:

Технические проблемы

Оценка эгоэмоции

Современные носимые камеры — это небольшие и легкие цифровые записывающие устройства, которые могут автоматически получать изображения и видео без вмешательства пользователя с различными разрешениями и частотой кадров, а также с точки зрения первого лица. Поэтому носимые камеры естественным образом предназначены для сбора визуальной информации из наших повседневных взаимодействий, поскольку они предлагают интимную перспективу поля зрения владельца камеры.

В зависимости от частоты кадров принято различать фотокамеры (также называемые камерами для лайфлоггинга) и видеокамеры.

В обоих случаях, поскольку камера носится в естественной обстановке, визуальные данные представляют огромную изменчивость с точки зрения условий освещения и внешнего вида объекта. Более того, владелец камеры не виден на изображении, и то, что он/она делает, должно быть выведено из информации в поле зрения камеры, что подразумевает, что важная информация о владельце, например, оценка позы или выражения лица, недоступна.

Приложения

Коллекция исследований, опубликованных в специальном тематическом выпуске Американского журнала профилактической медицины [6], продемонстрировала потенциал лайфлогов, снятых с помощью носимых камер, с разных точек зрения. В частности, было показано, что лайфлоги, используемые в качестве инструмента для понимания и отслеживания образа жизни, позволят предотвратить неинфекционные заболевания, связанные с нездоровыми тенденциями и рискованными профилями (такими как ожирение, депрессия и т. д.). Кроме того, используемые в качестве инструмента когнитивной тренировки по восстановлению памяти, лайфлоги позволят предотвратить когнитивный и функциональный спад у пожилых людей.

В последнее время эгоцентрические камеры использовались для изучения человеческого и животного познания, социального взаимодействия человека с человеком, взаимодействия человека с роботом, человеческого опыта в сложных задачах. Другие приложения включают навигационные/вспомогательные технологии для слепых, [20] мониторинг и помощь в промышленных рабочих процессах, [21] [22] и интерфейсы дополненной реальности . [5]

Смотрите также

Ссылки

  1. ^ Введение в 3-й семинар по эгоцентрическому (от первого лица) зрению, Стив Манн, Крис М. Китани, Ён Чжэ Ли, М. С. Рю и Алиреза Фати, Конференция IEEE по компьютерному зрению и распознаванию образов, семинары 2160-7508/14, 2014, IEEE doi :10.1109/CVPRW.2014.1338272014
  2. ^ Манн, С. (1998). Гуманистические вычисления: «WearComp» как новая структура и приложение для интеллектуальной обработки сигналов. Труды IEEE, 86(11), 2123-2151.
  3. ^ Хайкин, Саймон С. и Барт Коско. Интеллектуальная обработка сигналов. Wiley-IEEE Press, 2001.
  4. ^ «Носимый искусственный интеллект», Стив Манн, Ли-Те Ченг, Джон Робинсон, Каору Суми, Тоёаки Нисида, Соитиро Мацусита, Омер Фарук Озер, Огуз Озун, К. Онсель Тюзель, Волкан Аталай, А. Энис Четин, Джошуа Анхальт, Асим Смайлагич, Дэниел П. Севиорек, Франсин Гемперле, Дэниел Салбер, Вебер, Джим Бек, Джим Дженнингс и Дэвид А. Росс, IEEE Intelligent Systems 16 (3), 2001, страницы с 0 (обложка) по 53.
  5. ^ ab Mann, S. (октябрь 2000 г.). «Телеуказатель: полностью автономная носимая визуальная дополненная реальность без использования рук, без головного убора и без какой-либо зависимости от инфраструктуры». Сборник статей. Четвертый международный симпозиум по носимым компьютерам . стр. 177–178. doi :10.1109/ISWC.2000.888489. ISBN 0-7695-0795-6. S2CID  6036868.
  6. ^ ab Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... и Foster, C. (2013). Носимые камеры в здравоохранении. Американский журнал профилактической медицины, 44(3), 320-323.
  7. ^ Боланос, М., Димикколи, М. и Радева, П. (2017). К повествованию от визуального лайфлоггинга: обзор. Труды IEEE по системам «человек-машина», 47(1), 77-90.
  8. ^ Канаде, Такео; Хеберт, Мартиал (август 2012 г.). «Видение от первого лица». Труды IEEE . 100 (8): 2442–2453. doi :10.1109/JPROC.2012.2200554. ISSN  1558-2256. S2CID  33060600.
  9. ^ Fathi, A., Farhadi, A., & Rehg, JM (2011, ноябрь). Понимание эгоцентрической деятельности. В Computer Vision (ICCV), 2011 IEEE Международная конференция по (стр. 407-414). IEEE.
  10. ^ ab Fathi, A., Hodgins, JK, & Rehg, JM (2012, июнь). Социальные взаимодействия: перспектива от первого лица. В Computer Vision and Pattern Recognition (CVPR), IEEE Conference 2012 (стр. 1226-1233). IEEE.
  11. ^ Poleg, Y., Arora, C., & Peleg, S. (2014). Временная сегментация эгоцентрических видео. В трудах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 2537-2544).
  12. ^ Ли, YJ, Гош, Дж. и Грауман, К. (2012, июнь). Обнаружение важных людей и объектов для эгоцентрического видеосуммирования. В Computer Vision and Pattern Recognition (CVPR), IEEE Conference 2012 (стр. 1346-1353). IEEE.
  13. ^ Парк, Х.С., Джейн, Э. и Шейх, И. (2012). 3D социальная заметность с помощью камер, закрепленных на голове. В Advances in Neural Information Processing Systems (стр. 422-430).
  14. ^ Су, Ю-Чуань; Грауман, Кристен (2016). «Обнаружение вовлеченности в эгоцентричном видео». В Лейбе, Бастиан; Матас, Джири; Себе, Нику; Уэллинг, Макс (ред.). Компьютерное зрение – ECCV 2016. Конспект лекций по информатике. Том 9909. Чам: Springer International Publishing. стр. 454–471. arXiv : 1604.00906 . doi :10.1007/978-3-319-46454-1_28. ISBN 978-3-319-46454-1. S2CID  1599840.
  15. ^ Rogez, G., Supancic, JS, & Ramanan, D. (2015). Распознавание позы от первого лица с использованием эгоцентрических рабочих пространств. В трудах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4325-4333).
  16. ^ Mann, S., Janzen, R., Ai, T., Yasrebi, SN, Kawwa, J., & Ali, MA (2014, май). Топоскульптура: вычислительная световая живопись и носимая вычислительная фотография для абакографических пользовательских интерфейсов. В Electrical and Computer Engineering (CCECE), 2014 IEEE 27th Canadian Conference on (стр. 1-10). IEEE.
  17. ^ Bettadapura, V., Essa, I., & Pantofaru, C. (2015, январь). Эгоцентрическая локализация поля зрения с использованием устройств с точкой зрения от первого лица. В Applications of Computer Vision (WACV), зимняя конференция IEEE 2015 г. (стр. 626-633). IEEE
  18. ^ Цзи, Пэн; Сун, Айго; Сюн, Пэнвэнь; И, Пин; Сю, Сяонун; Ли, Хуэйцзюнь (2017-09-01). «Система управления положением рук на основе эгоцентрического зрения для разведывательных роботов». Журнал интеллектуальных и робототехнических систем . 87 (3): 583–599. doi :10.1007/s10846-016-0440-2. ISSN  1573-0409. S2CID  254648250.
  19. ^ Bokhari, Syed Zahir; Kitani, Kris M. (2017). «Долгосрочное прогнозирование активности с использованием зрения от первого лица». In Lai, Shang-Hong; Lepetit, Vincent; Nishino, Ko; Sato, Yoichi (ред.). Computer Vision – ACCV 2016. Lecture Notes in Computer Science. Vol. 10115. Cham: Springer International Publishing. pp. 346–360. doi :10.1007/978-3-319-54193-8_22. ISBN 978-3-319-54193-8.
  20. ^ Яги, Т., Мангалам, К., Йонетани, Р. и Сато, Й. (2017). Локализация будущего человека в видео от первого лица. Препринт arXiv arXiv :1711.11217.
  21. ^ Leelasawassuk, Teesid; Damen, Dima; Mayol-Cuevas, Walterio (2017-03-16). «Автоматизированный захват и доставка вспомогательного руководства по задачам с помощью очкового компьютера». Труды 8-й Международной конференции по дополненной реальности. AH '17. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–9. doi : 10.1145/3041164.3041185. hdl : 1983/ed89a4ab-f375-40b7-bdf4-b3f97925a0fe. ISBN 978-1-4503-4835-5. S2CID  10231349.
  22. ^ Эдмундс, SR, Розга, A., Ли, Y., Карп, EA, Ибанез, LV, Рег, JM, и Стоун, WL (2017). Краткий отчет: использование камеры с точкой обзора для измерения взгляда у маленьких детей с расстройством аутистического спектра во время естественных социальных взаимодействий: пилотное исследование. [ мертвая ссылка ] Журнал аутизма и нарушений развития, 47(3), 898-904.