Автоматическое аннотирование изображений

Автоматическое аннотирование изображений (также известное как автоматическая маркировка изображений или лингвистическое индексирование ) — это процесс, посредством которого компьютерная система автоматически присваивает метаданные в форме подписей или ключевых слов цифровому изображению . Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .

Этот метод можно рассматривать как разновидность многоклассовой классификации изображений с очень большим количеством классов, равным размеру словаря. Обычно анализ изображений в виде извлеченных векторов признаков и обучающих слов аннотации используется методами машинного обучения , чтобы попытаться автоматически применить аннотации к новым изображениям. Первые методы изучали корреляцию между характеристиками изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода , чтобы попытаться перевести текстовый словарь с помощью «визуального словаря» или кластерных областей, известных как BLOB-объекты . Работа, последовавшая за этими усилиями, включала подходы к классификации, модели релевантности и т. д.

Преимущества автоматического аннотирования изображений по сравнению с поиском изображений на основе контента (CBIR) заключаются в том, что пользователь может более естественно задавать запросы. ^[1] CBIR обычно (в настоящее время) требует, чтобы пользователи выполняли поиск по понятиям изображения, таким как цвет и текстура , или находили примеры запросов. Определенные функции изображений в примерах изображений могут переопределять концепцию, на которой на самом деле фокусируется внимание пользователя. Традиционные методы поиска изображений, такие как те, что используются библиотеками, основаны на аннотированных изображениях вручную, что является дорогостоящим и отнимает много времени, особенно с учетом существующих больших и постоянно растущих баз данных изображений.

Смотрите также

дальнейшее чтение

Модель совместного появления слов

И Мори; Х. Такахаши и Р. Ока (1999). «Преобразование изображения в слово на основе деления и векторного квантования изображений словами». Материалы международного семинара по интеллектуальному управлению хранением и поиском мультимедиа . CiteSeerX 10.1.1.31.1704 .

Аннотация как машинный перевод

П Дуйгулу; К. Барнард; Н де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений». Материалы Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 5 марта 2005 г.

Статистические модели

Джей Ли и Джей Зи Ван (2006). «Компьютеризированное аннотирование изображений в реальном времени». Учеб. АКМ Мультимедиа . стр. 911–920.

Джей Зи Ван и Джей Ли (2002). «Лингвистическое индексирование изображений на основе обучения с помощью 2D MHMM». Учеб. АКМ Мультимедиа . стр. 436–445.

Автоматическое лингвистическое индексирование изображений

Джей Ли и Джей Зи Ван (2008). «Компьютеризированное аннотирование изображений в реальном времени». Транзакции IEEE по анализу шаблонов и машинному интеллекту .

Джей Ли и Джей Зи Ван (2003). «Автоматическое лингвистическое индексирование изображений с помощью подхода статистического моделирования». Транзакции IEEE по анализу шаблонов и машинному интеллекту . стр. 1075–1088.

Иерархическая модель кластера аспектов

К. Барнард; Д.А. Форсайт (2001). «Изучение семантики слов и изображений». Материалы международной конференции по компьютерному зрению . стр. 408–415. Архивировано из оригинала 28 сентября 2007 г.

Скрытая модель распределения Дирихле

Д Блей; Нг и М Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . стр. 3: 993–1022. Архивировано из оригинала (PDF) 21 мая 2005 г.

Контролируемая многоклассовая маркировка

Дж. Карнейру; АБ Чан; П. Морено и Н. Васконселос (2006). «Контролируемое обучение семантических классов для аннотации и поиска изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . стр. 394–410.

Сходство текстуры

Р.В. Пикард и Т.П. Минка (1995). «Текстура зрения для аннотаций». Мультимедийные системы .

Машины опорных векторов

С Кусано; Дж. Чокка и Р. Скеттини (2004). Сантини, Симона и Скеттини, Раймондо (ред.). «Аннотация изображения с использованием SVM». Интернет-изображения V . 5304 : 330–338. Бибкод : 2003SPIE.5304..330C. дои : 10.1117/12.526746. S2CID 16246057.

Ансамбль деревьев решений и случайных подокн

Р Мари; П Гертс; Дж. Пиатер и Л. Вехенкель (2005). «Случайные подокна для надежной классификации изображений». Материалы Международной конференции IEEE по компьютерному зрению и распознаванию образов . стр. 1:34–30.

Максимальная энтропия

Джей Чон; Р. Манматха (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . стр. 24–32.

Модели релевантности

Джей Чон; В. Лавренко и Р. Манмата (2003). «Автоматическое аннотирование и поиск изображений с использованием моделей межмедийной релевантности» (PDF) . Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 119–126.

Модели релевантности, использующие непрерывные функции плотности вероятности

В Лавренко; Р. Манматха и Дж. Чон (2003). «Модель изучения семантики картинок» (PDF) . Материалы 16-й конференции по достижениям в области нейронных систем обработки информации NIPS .

Согласованная языковая модель

Р Джин; Дж. Я. Чай; Л Си (2004). «Эффективное автоматическое аннотирование изображений с помощью связной языковой модели и активного обучения» (PDF) . Труды ММ'04 .

Сети вывода

Д. Мецлер и Р. Манмата (2004). «Подход сети вывода к поиску изображений» (PDF) . Материалы международной конференции по поиску изображений и видео . стр. 42–50.

Множественное распределение Бернулли

С Фэн; Р. Манмата и В. Лавренко (2004). «Множественные модели релевантности Бернулли для аннотаций изображений и видео» (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . стр. 1002–1009.

Несколько вариантов дизайна

Дж. Я. Пан; Х. Дж. Ян; П Дуйгулу; С Фалуцсос (2004). «Автоматическое добавление титров к изображениям» (PDF) . Материалы Международной конференции IEEE по мультимедиа и выставкам 2004 г. (ICME'04) . Архивировано из оригинала (PDF) 9 декабря 2004 г.

Подпись к изображению

Куан Хоанг Лам; Куанг Дуй Ле; Киет Ван Нгуен; Нган Луу-Туй Нгуен (2020). «UIT-ViIC: Набор данных для первой оценки титров к изображениям на вьетнамском языке». Материалы Международной конференции по вычислительному коллективному интеллекту 2020 года (ICCCI 2020) . arXiv : 2002.00175 . дои : 10.1007/978-3-030-63007-2_57.

Аннотация к естественной сцене

Джей Фан; Ю Гао; Х Ло; Г Сюй (2004). «Автоматическое аннотирование изображений с использованием концептуально-чувствительных существенных объектов для представления содержимого изображения». Материалы 27-й ежегодной международной конференции по исследованиям и разработкам в области информационного поиска . стр. 361–368.

Соответствующие глобальные фильтры низкого уровня

Олива и Торральба (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . Международный журнал компьютерного зрения . стр. 42: 145–175.

Глобальные особенности изображения и непараметрическая оценка плотности

А. Явлинский, Э. Шофилд и С. Рюгер (2005). «Автоматическое аннотирование изображений с использованием глобальных функций и надежной непараметрической оценки плотности» (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинала (PDF) 20 декабря 2005 г.

Семантика видео

Н. Васконселос и А. Липпман (2001). «Статистические модели структуры видео для анализа и характеристики контента» (PDF) . Транзакции IEEE при обработке изображений . стр. 1–17.

Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием сокращений». 3-й Международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиапроизводстве (AIEMPro10) .

Уточнение аннотации изображения

Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации к изображениям путем объединения нескольких доказательств и wordNet». 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . стр. 706–715.

Чанху Ван; Фэн Цзин; Лей Чжан и Хун-Цзян Чжан (2006). «Уточнение аннотаций изображений с использованием случайного блуждания с перезапусками». 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .

Чанху Ван; Фэн Цзин; Лей Чжан и Хун-Цзян Чжан (2007). «уточнение аннотаций изображений на основе контента». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . дои : 10.1109/CVPR.2007.383221.

Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Адаптивный поиск мультимедиа Springer . дои : 10.1007/978-3-540-79860-6_3.

Илария Бартолини и Паоло Чачча (2010). «Многомерное аннотирование и поиск изображений на основе ключевых слов». 2-й международный семинар ACM по поиску по ключевым словам в структурированных данных (KEYS 2010) .

Автоматическое аннотирование изображений с помощью ансамбля визуальных дескрипторов

Эмре Акбас и Фатос Ю. Вурал (2007). «Автоматическое аннотирование изображений по ансамблю визуальных дескрипторов». Международный Конф. по компьютерному зрению (CVPR) 2007, Семинар по приложениям семантического обучения в мультимедиа . дои : 10.1109/CVPR.2007.383484. hdl : 11511/16027 .

Новая основа для аннотаций изображений

Амиш Макадия, Владимир Павлович и Санджив Кумар (2008). «Новая основа для аннотаций изображений» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .

Одновременная классификация и аннотирование изображений

Чонг Ван, Дэвид Блей и Ли Фей-Фей (2009). «Одновременная классификация изображений и аннотации» (PDF) . Конф. по компьютерному зрению и распознаванию образов (CVPR) .

TagProp: дискриминативное обучение метрике в моделях ближайших соседей для автоматической аннотации изображений

Матье Гийомен, Томас Менсинк, Якоб Вербек и Корделия Шмид (2009). «TagProp: дискриминационное обучение метрике в моделях ближайших соседей для автоматического аннотирования изображений» (PDF) . Международный Конф. по компьютерному зрению (ICCV) .

Аннотация изображения с использованием метрического обучения в семантических окрестностях

Яшасви Верма и К.В. Джавахар (2012). «Аннотация изображения с использованием метрического обучения в семантических окрестностях» (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинала (PDF) 14 мая 2013 г. Проверено 26 февраля 2014 г.

Автоматическое аннотирование изображений с использованием представлений глубокого обучения

Венкатеш Н. Мурти, Субхрансу Маджи и Р. Манматха (2015). «Автоматическое аннотирование изображений с использованием представлений глубокого обучения» (PDF) . Международная конференция по мультимедиа (ICMR) .

Целостная аннотация изображения с использованием существенных областей и информации фонового изображения

Зарин, Супхеакмунгкол; Фармайр, Майкл; Вагнер, Матиас и Камеяма, Ватару (2012). Использование функций фона и заметных областей для автоматического аннотирования изображений. Журнал обработки информации. Том. 20. С. 250–266.

Аннотация медицинских изображений с использованием байесовских сетей и активного обучения

Н. Б. Марвасти, Э. Йорук и Б. Акар (2018). «Компьютерная аннотация медицинских изображений: предварительные результаты при поражениях печени при КТ». Журнал IEEE по биомедицинской и медицинской информатике .

Автоматическое аннотирование изображений

Смотрите также

Рекомендации

дальнейшее чтение