stringtranslate.com

Автоматическое аннотирование изображений

Результаты программы DenseCap для создания плотных субтитров, анализирующей фотографию человека, едущего на слоне.

Автоматическое аннотирование изображений (также известное как автоматическая маркировка изображений или лингвистическое индексирование ) — это процесс, посредством которого компьютерная система автоматически присваивает метаданные в форме подписей или ключевых слов цифровому изображению . Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .

Этот метод можно рассматривать как разновидность многоклассовой классификации изображений с очень большим количеством классов, равным размеру словаря. Обычно анализ изображений в виде извлеченных векторов признаков и обучающих слов аннотации используется методами машинного обучения , чтобы попытаться автоматически применить аннотации к новым изображениям. Первые методы изучали корреляцию между характеристиками изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода , чтобы попытаться перевести текстовый словарь с помощью «визуального словаря» или кластерных областей, известных как BLOB-объекты . Работа, последовавшая за этими усилиями, включала подходы к классификации, модели релевантности и т. д.

Преимущества автоматического аннотирования изображений по сравнению с поиском изображений на основе контента (CBIR) заключаются в том, что пользователь может более естественно задавать запросы. [1] CBIR обычно (в настоящее время) требует, чтобы пользователи выполняли поиск по понятиям изображения, таким как цвет и текстура , или находили примеры запросов. Определенные функции изображений в примерах изображений могут переопределять концепцию, на которой на самом деле фокусируется внимание пользователя. Традиционные методы поиска изображений, такие как те, что используются библиотеками, основаны на аннотированных изображениях вручную, что является дорогостоящим и отнимает много времени, особенно с учетом существующих больших и постоянно растущих баз данных изображений.

Смотрите также

Рекомендации

  1. ^ «Архивная копия» (PDF) . i.yz.yamagata-u.ac.jp . Архивировано из оригинала (PDF) 8 августа 2014 года . Проверено 13 января 2022 г.{{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )

дальнейшее чтение

И Мори; Х. Такахаши и Р. Ока (1999). «Преобразование изображения в слово на основе деления и векторного квантования изображений словами». Материалы международного семинара по интеллектуальному управлению хранением и поиском мультимедиа . CiteSeerX  10.1.1.31.1704 .
П Дуйгулу; К. Барнард; Н де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений». Материалы Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 5 марта 2005 г.
Джей Ли и Джей Зи Ван (2006). «Компьютеризированное аннотирование изображений в реальном времени». Учеб. АКМ Мультимедиа . стр. 911–920.
Джей Зи Ван и Джей Ли (2002). «Лингвистическое индексирование изображений на основе обучения с помощью 2D MHMM». Учеб. АКМ Мультимедиа . стр. 436–445.
Джей Ли и Джей Зи Ван (2008). «Компьютеризированное аннотирование изображений в реальном времени». Транзакции IEEE по анализу шаблонов и машинному интеллекту .
Джей Ли и Джей Зи Ван (2003). «Автоматическое лингвистическое индексирование изображений с помощью подхода статистического моделирования». Транзакции IEEE по анализу шаблонов и машинному интеллекту . стр. 1075–1088.
К. Барнард; Д.А. Форсайт (2001). «Изучение семантики слов и изображений». Материалы международной конференции по компьютерному зрению . стр. 408–415. Архивировано из оригинала 28 сентября 2007 г.
Д Блей; Нг и М Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . стр. 3: 993–1022. Архивировано из оригинала (PDF) 21 мая 2005 г.
Дж. Карнейру; АБ Чан; П. Морено и Н. Васконселос (2006). «Контролируемое обучение семантических классов для аннотации и поиска изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . стр. 394–410.
Р.В. Пикард и Т.П. Минка (1995). «Текстура зрения для аннотаций». Мультимедийные системы .
С Кусано; Дж. Чокка и Р. Скеттини (2004). Сантини, Симона и Скеттини, Раймондо (ред.). «Аннотация изображения с использованием SVM». Интернет-изображения V . 5304 : 330–338. Бибкод : 2003SPIE.5304..330C. дои : 10.1117/12.526746. S2CID  16246057.
Р Мари; П Гертс; Дж. Пиатер и Л. Вехенкель (2005). «Случайные подокна для надежной классификации изображений». Материалы Международной конференции IEEE по компьютерному зрению и распознаванию образов . стр. 1:34–30.
Джей Чон; Р. Манматха (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . стр. 24–32.
Джей Чон; В. Лавренко и Р. Манмата (2003). «Автоматическое аннотирование и поиск изображений с использованием моделей межмедийной релевантности» (PDF) . Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 119–126.
В Лавренко; Р. Манматха и Дж. Чон (2003). «Модель изучения семантики картинок» (PDF) . Материалы 16-й конференции по достижениям в области нейронных систем обработки информации NIPS .
Р Джин; Дж. Я. Чай; Л Си (2004). «Эффективное автоматическое аннотирование изображений с помощью связной языковой модели и активного обучения» (PDF) . Труды ММ'04 .
Д. Мецлер и Р. Манмата (2004). «Подход сети вывода к поиску изображений» (PDF) . Материалы международной конференции по поиску изображений и видео . стр. 42–50.
С Фэн; Р. Манмата и В. Лавренко (2004). «Множественные модели релевантности Бернулли для аннотаций изображений и видео» (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . стр. 1002–1009.
Дж. Я. Пан; Х. Дж. Ян; П Дуйгулу; С Фалуцсос (2004). «Автоматическое добавление титров к изображениям» (PDF) . Материалы Международной конференции IEEE по мультимедиа и выставкам 2004 г. (ICME'04) . Архивировано из оригинала (PDF) 9 декабря 2004 г.
Куан Хоанг Лам; Куанг Дуй Ле; Киет Ван Нгуен; Нган Луу-Туй Нгуен (2020). «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке». Материалы Международной конференции по вычислительному коллективному интеллекту 2020 года (ICCCI 2020) . arXiv : 2002.00175 . дои : 10.1007/978-3-030-63007-2_57.
Джей Фан; Ю Гао; Х Ло; Г Сюй (2004). «Автоматическое аннотирование изображений с использованием концептуально-чувствительных существенных объектов для представления содержимого изображения». Материалы 27-й ежегодной международной конференции по исследованиям и разработкам в области информационного поиска . стр. 361–368.
Олива и Торральба (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . Международный журнал компьютерного зрения . стр. 42: 145–175.
А. Явлинский, Э. Шофилд и С. Рюгер (2005). «Автоматическое аннотирование изображений с использованием глобальных функций и надежной непараметрической оценки плотности» (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинала (PDF) 20 декабря 2005 г.
Н. Васконселос и А. Липпман (2001). «Статистические модели структуры видео для анализа и характеристики контента» (PDF) . Транзакции IEEE при обработке изображений . стр. 1–17.
Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием сокращений». 3-й Международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиапроизводстве (AIEMPro10) .
Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации к изображениям путем объединения нескольких доказательств и wordNet». 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . стр. 706–715.
Чанху Ван; Фэн Цзин; Лей Чжан и Хун-Цзян Чжан (2006). «Уточнение аннотаций изображений с использованием случайного блуждания с перезапусками». 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .
Чанху Ван; Фэн Цзин; Лей Чжан и Хун-Цзян Чжан (2007). «уточнение аннотаций изображений на основе контента». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . дои : 10.1109/CVPR.2007.383221.
Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Адаптивный поиск мультимедиа Springer . дои : 10.1007/978-3-540-79860-6_3.
Илария Бартолини и Паоло Чачча (2010). «Многомерное аннотирование и поиск изображений на основе ключевых слов». 2-й международный семинар ACM по поиску по ключевым словам в структурированных данных (KEYS 2010) .
Эмре Акбас и Фатос Ю. Вурал (2007). «Автоматическое аннотирование изображений по ансамблю визуальных дескрипторов». Международный Конф. по компьютерному зрению (CVPR) 2007, Семинар по приложениям семантического обучения в мультимедиа . дои : 10.1109/CVPR.2007.383484. hdl : 11511/16027 .
Амиш Макадия, Владимир Павлович и Санджив Кумар (2008). «Новая основа для аннотаций изображений» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .

Одновременная классификация и аннотирование изображений

Чонг Ван, Дэвид Блей и Ли Фей-Фей (2009). «Одновременная классификация изображений и аннотации» (PDF) . Конф. по компьютерному зрению и распознаванию образов (CVPR) .
Матье Гийомен, Томас Менсинк, Якоб Вербек и Корделия Шмид (2009). «TagProp: дискриминационное обучение метрике в моделях ближайших соседей для автоматического аннотирования изображений» (PDF) . Международный Конф. по компьютерному зрению (ICCV) .
Яшасви Верма и К.В. Джавахар (2012). «Аннотация изображения с использованием метрического обучения в семантических окрестностях» (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинала (PDF) 14 мая 2013 г. Проверено 26 февраля 2014 г.
Венкатеш Н. Мурти, Субхрансу Маджи и Р. Манматха (2015). «Автоматическое аннотирование изображений с использованием представлений глубокого обучения» (PDF) . Международная конференция по мультимедиа (ICMR) .
Зарин, Супхеакмунгкол; Фармайр, Майкл; Вагнер, Матиас и Камеяма, Ватару (2012). Использование функций фона и заметных областей для автоматического аннотирования изображений. Журнал обработки информации. Том. 20. С. 250–266.
Н. Б. Марвасти, Э. Йорук и Б. Акар (2018). «Компьютерная аннотация медицинских изображений: предварительные результаты при поражениях печени при КТ». Журнал IEEE по биомедицинской и медицинской информатике .