stringtranslate.com

Многократное обучение

В машинном обучении обучение с несколькими экземплярами (MIL) является типом контролируемого обучения . Вместо получения набора экземпляров, которые помечены индивидуально , обучающийся получает набор помеченных мешков , каждый из которых содержит много экземпляров. В простом случае бинарной классификации с несколькими экземплярами мешок может быть помечен как отрицательный, если все экземпляры в нем отрицательные. С другой стороны, мешок помечен как положительный, если в нем есть хотя бы один экземпляр, который является положительным. Из коллекции помеченных мешков обучающийся пытается либо (i) вызвать концепцию, которая будет правильно маркировать отдельные экземпляры, либо (ii) научиться маркировать мешки, не вызывая концепцию.

Бабенко (2008) [1] приводит простой пример для MIL. Представьте себе нескольких человек, и у каждого из них есть брелок, содержащий несколько ключей. Некоторые из этих людей могут войти в определенную комнату, а некоторые нет. Затем задача состоит в том, чтобы предсказать, может ли определенный ключ или определенная брелок провести вас в эту комнату. Чтобы решить эту задачу, нам нужно найти точный ключ, который является общим для всех «положительных» цепочек ключей. Если мы можем правильно идентифицировать этот ключ, мы также можем правильно классифицировать всю цепочку ключей — положительную, если она содержит требуемый ключ, или отрицательную, если она его не содержит.

Машинное обучение

В зависимости от типа и вариации обучающих данных машинное обучение можно условно разделить на три фреймворка: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением. Обучение с несколькими экземплярами (MIL) относится к фреймворку контролируемого обучения, где каждый обучающий экземпляр имеет метку, либо дискретную, либо вещественную. MIL решает проблемы с неполным знанием меток в обучающих наборах. Точнее, при обучении с несколькими экземплярами обучающий набор состоит из помеченных «мешков», каждый из которых представляет собой набор непомеченных экземпляров. Мешок помечен положительно, если хотя бы один экземпляр в нем положительный, и помечен отрицательно, если все экземпляры в нем отрицательные. Цель MIL — предсказать метки новых, невидимых мешков.

История

Килер и др. [2] в своей работе в начале 1990-х годов были первыми, кто исследовал область MIL. Фактический термин «многоэкземплярное обучение» был введен в середине 1990-х годов Дитерихом и др., когда они исследовали проблему прогнозирования активности лекарств. [3] Они пытались создать обучающую систему, которая могла бы предсказать, подходит ли новая молекула для создания какого-либо лекарства или нет, путем анализа набора известных молекул. Молекулы могут иметь много альтернативных низкоэнергетических состояний, но только одно или некоторые из них подходят для создания лекарства. Проблема возникла из-за того, что ученые могли только определить, подходит ли молекула или нет, но они не могли точно сказать, какие из ее низкоэнергетических форм отвечают за это.

Одним из предложенных способов решения этой проблемы было использование контролируемого обучения и рассмотрение всех низкоэнергетических форм квалифицированной молекулы как положительных обучающих примеров, в то время как все низкоэнергетические формы неквалифицированных молекул как отрицательных примеров. Диттерих и др. показали, что такой метод будет иметь высокий уровень ложноположительного шума из-за всех низкоэнергетических форм, которые неправильно помечены как положительные, и, таким образом, не был действительно полезен. [3] Их подход заключался в рассмотрении каждой молекулы как маркированного мешка, а все альтернативные низкоэнергетические формы этой молекулы как экземпляров в мешке, без индивидуальных меток. Таким образом, формулируя обучение с несколькими примерами.

Решение проблемы обучения с множественными экземплярами, предложенное Дитерихом и др., — это алгоритм прямоугольника, параллельного осям (APR). [3] Он пытается найти подходящие прямоугольники, параллельные осям, построенные путем соединения признаков. Они протестировали алгоритм на наборе данных Маска, [4] [5] [ dubiousdiscussion ] , который представляет собой конкретные тестовые данные для прогнозирования активности лекарств и наиболее популярный эталон в обучении с множественными экземплярами. Алгоритм APR достиг наилучшего результата, но APR был разработан с учетом данных Маска.

Проблема обучения на нескольких экземплярах не является уникальной для поиска лекарств. В 1998 году Марон и Ратан нашли другое применение обучения на нескольких экземплярах для классификации сцен в машинном зрении и разработали структуру Diverse Density. [6] При наличии изображения экземпляр считается одним или несколькими подизображениями фиксированного размера, а мешок экземпляров считается всем изображением. Изображение помечается как положительное, если оно содержит целевую сцену — например, водопад — и как отрицательное в противном случае. Обучение на нескольких экземплярах может использоваться для изучения свойств подизображений, которые характеризуют целевую сцену. С тех пор эти структуры применялись к широкому спектру приложений, начиная от изучения концепций изображений и категоризации текста и заканчивая прогнозированием фондового рынка.

Примеры

Возьмем, к примеру, классификацию изображений Amores (2013). Имея изображение, мы хотим узнать его целевой класс на основе его визуального содержания. Например, целевым классом может быть «пляж», где изображение содержит как «песок», так и «воду». В терминах MIL изображение описывается как мешок , где каждый из них является вектором признаков (называемым экземпляром ), извлеченным из соответствующей -й области изображения, и является общими областями (экземплярами), разделяющими изображение. Мешок помечается как положительный («пляж»), если он содержит как экземпляры областей «песок», так и экземпляры областей «вода».

Примеры применения MIL:

Многочисленные исследователи работали над адаптацией классических методов классификации, таких как машины опорных векторов или бустинг , для работы в контексте обучения на множественных примерах.

Определения

Если пространство экземпляров равно , то набор сумок — это набор функций , который изоморфен набору мультиподмножеств . Для каждой сумки и каждого экземпляра , рассматривается как количество раз, которое встречается в . [8] Пусть будет пространством меток, тогда «концепцией множественного экземпляра» является карта . Целью MIL является изучение такой концепции. Оставшаяся часть статьи будет сосредоточена на бинарной классификации , где .

Предположения

Большинство работ по обучению множественным экземплярам, ​​включая ранние работы Dietterich et al. (1997) и Maron & Lozano-Pérez (1997), [3] [9] делают предположение относительно связи между экземплярами в пределах мешка и меткой класса мешка. Из-за своей важности это предположение часто называют стандартным предположением MI.

Стандартное предположение

Стандартное предположение предполагает, что каждый экземпляр имеет связанную метку , которая скрыта от обучающегося. Пара называется «концепцией уровня экземпляра». Мешок теперь рассматривается как мультимножество концепций уровня экземпляра и помечается как положительный, если хотя бы один из его экземпляров имеет положительную метку, и как отрицательный, если все его экземпляры имеют отрицательные метки. Формально, пусть будет мешком. Метка тогда равна . Стандартное предположение MI асимметрично, что означает, что если положительные и отрицательные метки поменять местами, предположение имеет другое значение. Из-за этого, когда мы используем это предположение, нам нужно четко понимать, какая метка должна быть положительной.

Стандартное предположение может рассматриваться как слишком строгое, и поэтому в последние годы исследователи пытались смягчить эту позицию, что привело к другим более свободным предположениям. [10] Причиной этого является убеждение, что стандартное предположение MI подходит для набора данных Маска, но поскольку MIL можно применять к многочисленным другим проблемам, некоторые другие предположения, вероятно, могли бы быть более подходящими. Руководствуясь этой идеей, Вайдманн [11] сформулировал иерархию обобщенных предположений на основе экземпляров для MIL. Она состоит из стандартного предположения MI и трех типов обобщенных предположений MI, каждое из которых более общее, чем предыдущее, в том смысле, что первое может быть получено как определенный выбор параметров последнего, стандартного предположения на основе присутствия, основанного на пороге, основанного на подсчете, причем предположение на основе подсчета является наиболее общим, а стандартное предположение — наименее общим. (Однако следует отметить, что любой мешок, удовлетворяющий предположению, основанному на количестве, удовлетворяет предположению, основанному на пороге, которое, в свою очередь, удовлетворяет предположению, основанному на присутствии, которое, в свою очередь, удовлетворяет стандартному предположению. В этом смысле также правильно утверждать, что стандартное предположение является самым слабым, а значит, наиболее общим, а предположение, основанное на количестве, является самым сильным, а значит, наименее общим.) Можно было бы ожидать, что алгоритм, который хорошо работает при одном из этих предположений, будет работать по крайней мере так же хорошо при менее общих предположениях.

Предположения, основанные на присутствии, пороговом значении и количестве

Предположение, основанное на присутствии, является обобщением стандартного предположения, в котором мешок должен содержать все экземпляры, которые принадлежат набору требуемых понятий уровня экземпляра, чтобы быть помеченным как положительный. Формально, пусть будет набором требуемых понятий уровня экземпляра, и пусть обозначает количество раз, когда понятие уровня экземпляра встречается в мешке . Тогда для всех . Обратите внимание, что, принимая, что содержит только одно понятие уровня экземпляра, предположение, основанное на присутствии, сводится к стандартному предположению.

Дальнейшее обобщение приходит с пороговым предположением, где каждое требуемое понятие уровня экземпляра должно встречаться не только один раз в мешке, но и некоторое минимальное (пороговое) количество раз, чтобы мешок был помечен как положительный. С указанной выше нотацией каждому требуемому понятию уровня экземпляра соответствует порог . Для мешка , для всех .

Предположение на основе подсчета является окончательным обобщением, которое обеспечивает как нижнюю, так и верхнюю границу для количества раз, которое требуемое понятие может встречаться в положительно помеченном мешке. Каждое требуемое понятие уровня экземпляра имеет нижний порог и верхний порог с . Мешок помечен в соответствии с для всех .

Предположение GMIL

Скотт, Чжан и Браун (2005) [12] описывают другое обобщение стандартной модели, которое они называют «обобщенным обучением множественных экземпляров» (GMIL). Предположение GMIL определяет набор требуемых экземпляров . Мешок помечается как положительный, если он содержит экземпляры, которые достаточно близки по крайней мере к требуемым экземплярам . [12] Только при этом условии предположение GMIL эквивалентно предположению, основанному на присутствии. [8] Однако Скотт и др. описывают дальнейшее обобщение, в котором есть набор точек притяжения и набор точек отталкивания . Мешок помечается как положительный, если и только если он содержит экземпляры, которые достаточно близки по крайней мере к точкам притяжения и достаточно близки по большей части к точкам отталкивания. [12] Это условие является строго более общим, чем условие, основанное на присутствии, хотя оно и не попадает в указанную выше иерархию.

Коллективное предположение

В отличие от предыдущих предположений, где сумки рассматривались как фиксированные, коллективное предположение рассматривает сумку как распределение по экземплярам , ​​и аналогично рассматривает метки как распределение по экземплярам. Целью алгоритма, работающего в рамках коллективного предположения, является моделирование распределения .

Так как обычно считается фиксированным, но неизвестным, алгоритмы вместо этого фокусируются на вычислении эмпирической версии: , где — число экземпляров в мешке . Так как также обычно считается фиксированным, но неизвестным, большинство методов, основанных на коллективных предположениях, фокусируются на изучении этого распределения, как в версии с одним экземпляром. [8] [10]

В то время как коллективное предположение взвешивает каждый экземпляр с одинаковой важностью, Фулдс расширил коллективное предположение, включив веса экземпляров. Взвешенное коллективное предположение тогда таково, что , где — весовая функция над экземплярами и . [8]

Алгоритмы

Структура MIL

Существует два основных вида алгоритмов для обучения множественным экземплярам: основанные на экземплярах и основанные на метаданных, или алгоритмы на основе встраивания. Термин «основанный на экземплярах» означает, что алгоритм пытается найти набор репрезентативных экземпляров на основе предположения MI и классифицировать будущие сумки из этих репрезентативных. Напротив, основанные на метаданных алгоритмы не делают никаких предположений о связи между экземплярами и метками сумок, а вместо этого пытаются извлечь независимую от экземпляра информацию (или метаданные) о сумках, чтобы изучить концепцию. [10] Для обзора некоторых современных алгоритмов MI см. Foulds and Frank. [8]

Алгоритмы, основанные на экземплярах

Самыми ранними предложенными алгоритмами MI были набор алгоритмов «итеративной дискриминации», разработанный Диттерихом и др., и алгоритм Diverse Density, разработанный Мароном и Лосано-Пересом. [3] [9] Оба эти алгоритма работали в соответствии со стандартным предположением.

Повторяющаяся дискриминация

В целом, все алгоритмы итеративной дискриминации состоят из двух фаз. Первая фаза заключается в выращивании прямоугольника, параллельного осям (APR), который содержит по крайней мере один экземпляр из каждого положительного мешка и ни одного экземпляра из отрицательных мешков. Это делается итеративно: начиная со случайного экземпляра в положительном мешке, APR расширяется до наименьшего APR, охватывающего любой экземпляр в новом положительном мешке . Этот процесс повторяется до тех пор, пока APR не покроет по крайней мере один экземпляр из каждого положительного мешка. Затем каждому экземпляру, содержащемуся в APR, присваивается «релевантность», соответствующая количеству отрицательных точек, которые он исключает из APR при удалении. Затем алгоритм выбирает кандидатные репрезентативные экземпляры в порядке убывания релевантности, пока ни один экземпляр, содержащийся в отрицательном мешке, также не будет содержаться в APR. Алгоритм повторяет эти шаги роста и репрезентативного выбора до сходимости, где размер APR на каждой итерации принимается только вдоль кандидатов-представителей.

После первой фазы APR, как полагают, плотно содержит только репрезентативные атрибуты. Вторая фаза расширяет этот плотный APR следующим образом: распределение Гаусса центрируется на каждом атрибуте, а более свободный APR строится таким образом, что положительные примеры будут выпадать из плотного APR с фиксированной вероятностью. [4] Хотя методы итерационной дискриминации хорошо работают со стандартным предположением, они не очень хорошо обобщаются на другие предположения MI. [8]

Разнообразная плотность

В своей простейшей форме, Разнообразная плотность (DD) предполагает один представительный экземпляр в качестве концепции. Этот представительный экземпляр должен быть «плотным» в том смысле, что он гораздо ближе к экземплярам из положительных мешков, чем из отрицательных мешков, а также «разнообразным» в том смысле, что он близок по крайней мере к одному экземпляру из каждого положительного мешка.

Пусть будет набором положительно помеченных сумок, а будет набором отрицательно помеченных сумок, тогда наилучшим кандидатом для представительного экземпляра будет , где разнообразная плотность при предположении, что сумки распределены независимо, учитывая концепцию . Обозначая j-й экземпляр сумки i, модель шумового ИЛИ дает:

принимается за масштабированное расстояние, где — масштабирующий вектор. Таким образом, если каждый положительный мешок имеет экземпляр, близкий к , то будет высоким для каждого , но если любой отрицательный мешок имеет экземпляр, близкий к , то будет низким. Следовательно, является высоким только если каждый положительный мешок имеет экземпляр, близкий к , и ни один отрицательный мешок не имеет экземпляра, близкого к . Понятие кандидата может быть получено с помощью градиентных методов. Классификация новых мешков затем может быть выполнена путем оценки близости к . [9] Хотя Diverse Density изначально был предложен Мароном и др. в 1998 году, более поздние алгоритмы MIL используют структуру DD, такую ​​как EM-DD в 2001 году [13] и DD-SVM в 2004 году [14] и MILES в 2006 году [8]

Ряд алгоритмов с одним экземпляром также были адаптированы к контексту с несколькими экземплярами в рамках стандартного предположения, включая

После 2000 года произошел отход от стандартных предположений и разработка алгоритмов, предназначенных для решения более общих предположений, перечисленных выше. [10]

Из-за высокой размерности нового пространства признаков и стоимости явного перечисления всех APR исходного пространства экземпляров GMIL-1 неэффективен как с точки зрения вычислений, так и памяти. GMIL-2 был разработан как усовершенствование GMIL-1 в попытке повысить эффективность. GMIL-2 предварительно обрабатывает экземпляры, чтобы найти набор кандидатов-представителей экземпляров. Затем GMIL-2 сопоставляет каждый мешок с булевым вектором, как в GMIL-1, но рассматривает только APR, соответствующие уникальным подмножествам кандидатов-представителей экземпляров. Это значительно снижает требования к памяти и вычислительным ресурсам. [8]

Алгоритмы на основе метаданных (или встраивания)

Сопоставляя каждый мешок с вектором признаков метаданных, алгоритмы на основе метаданных обеспечивают гибкость использования произвольного алгоритма с одним экземпляром для выполнения фактической задачи классификации. Будущие мешки просто сопоставляются (встраиваются) в пространство признаков метаданных и маркируются выбранным классификатором. Поэтому большая часть внимания алгоритмов на основе метаданных сосредоточена на том, какие признаки или какой тип встраивания приводит к эффективной классификации. Обратите внимание, что некоторые из ранее упомянутых алгоритмов, такие как TLC и GMIL, можно считать основанными на метаданных.

Они определяют две разновидности kNN, байесовскую-kNN и цитируемую-kNN, как адаптации традиционной задачи ближайшего соседа к многоэкземплярной среде.

Обобщения

До сих пор в этой статье рассматривалось обучение множественных экземпляров исключительно в контексте бинарных классификаторов. Однако обобщения одноэкземплярных бинарных классификаторов могут быть перенесены на случай множественных экземпляров.

Смотрите также

Ссылки

  1. ^ Бабенко, Борис. «Множественное обучение: алгоритмы и приложения». Просмотреть статью PubMed/NCBI Google Scholar (2008).
  2. ^ Килер, Джеймс Д., Дэвид Э. Румельхарт и Ви-Кхенг Леоу. Интегрированная сегментация и распознавание рукописных цифр. Корпорация по микроэлектронике и компьютерным технологиям, 1991.
  3. ^ abcde Дитерих, Томас Г., Ричард Х. Латроп и Томас Лосано-Перес. «Решение проблемы множественных экземпляров с помощью прямоугольников, параллельных осям». Искусственный интеллект 89.1 (1997): 31-71.
  4. ^ ab C. Blake, E. Keogh и CJ Merz. Репозиторий баз данных машинного обучения UCI [1], Департамент информации и компьютерных наук, Калифорнийский университет, Ирвайн, Калифорния, 1998.
  5. ^ Ван, Вэй-Хонг; Ду, Ян-е; Ли, Цюй; Фан, Чжао-линь (2011). «Оценка кредита на основе программирования экспрессии генов и клональной селекции». Процедия Инжиниринг . 15 : 3759–3763. дои : 10.1016/j.proeng.2011.08.704 .
  6. ^ О. Марон и А. Л. Ратан. Многократное обучение для классификации естественных сцен. В трудах 15-й Международной конференции по машинному обучению, Мэдисон, Висконсин, стр. 341–349, 1998.
  7. ^ Минхас, Ф. у. А. А.; Бен-Хур, А (2012). «Множественное обучение сайтов связывания кальмодулина». Биоинформатика . 28 (18): i416–i422. doi :10.1093/bioinformatics/bts416. PMC 3436843. PMID  22962461 . 
  8. ^ abcdefghijk Фулдс, Джеймс и Эйб Франк. «Обзор предположений о многоэкземплярном обучении». The Knowledge Engineering Review 25.01 (2010): 1-25.
  9. ^ abc Марон, Одед и Томас Лосано-Перес. "Структура для обучения на основе множественных экземпляров". Достижения в области нейронных систем обработки информации (1998): 570-576
  10. ^ abcde Сюй, X. Статистическое обучение в задачах с несколькими экземплярами. Магистерская диссертация, Университет Вайкато (2003).
  11. ^ аб Вайдманн, Нильс Б. «Двухуровневая классификация для обобщенных данных из нескольких экземпляров». Дисс. Университет Альберта-Людвига, 2003 г.
  12. ^ abcd Скотт, Стивен, Цзюнь Чжан и Джошуа Браун. «Об обобщенном многоэкземплярном обучении». Международный журнал вычислительного интеллекта и приложений 5.01 (2005): 21-35.
  13. ^ Чжан, Ци и Салли А. Голдман . "EM-DD: улучшенная техника обучения на основе множественных экземпляров". Достижения в области нейронных систем обработки информации. (2001): 1073 - 80
  14. ^ Чен, Исинь и Джеймс З. Ван. «Категоризация изображений путем обучения и рассуждения с областями». Журнал исследований машинного обучения 5 (2004): 913-939
  15. ^ Эндрюс, Стюарт, Иоаннис Цочантаридис и Томас Хофманн. «Машины опорных векторов для обучения на множественных экземплярах». Достижения в области нейронных систем обработки информации (2003). С. 561–658
  16. ^ Чжоу, Чжи-Хуа и Мин-Лин Чжан. «Нейронные сети для многоэкземплярного обучения». Труды Международной конференции по интеллектуальным информационным технологиям, Пекин, Китай. (2002). С. 455 - 459
  17. ^ Блокил, Хендрик, Дэвид Пейдж и Эшвин Шринивасан. «Многоэкземплярное обучение деревьев». Труды 22-й международной конференции по машинному обучению. ACM, 2005. С. 57-64
  18. ^ Ауэр, Питер и Рональд Ортнер. «Подход к многократному обучению». Машинное обучение: ECML 2004. Springer Berlin Heidelberg, 2004. 63-74.
  19. ^ Чэнь, Исинь; Би, Джинбо; Ван, Дж. З. (2006-12-01). «MILES: Обучение множественным экземплярам с помощью встроенного выбора экземпляров». Труды IEEE по анализу шаблонов и машинному интеллекту . 28 (12): 1931–1947. doi :10.1109/TPAMI.2006.248. ISSN  0162-8828. PMID  17108368. S2CID  18137821.
  20. ^ Чеплыгина, Вероника; Такс, Дэвид М.Дж.; Луг, Марко (2015-01-01). «Обучение на нескольких экземплярах с различиями в мешках». Распознавание образов . 48 (1): 264–275. arXiv : 1309.5643 . Bibcode : 2015PatRe..48..264C. doi : 10.1016/j.patcog.2014.07.022. S2CID  17606924.
  21. ^ Ван, Джун и Жан-Даниэль Цукер. «Решение многоэкземплярной проблемы: ленивый подход к обучению». ICML (2000): 1119-25
  22. ^ Чжоу, Чжи-Хуа и Мин-Лин Чжан. «Многократное обучение с множественными метками и его применение для классификации сцен». Достижения в области нейронных систем обработки информации. 2006. С. 1609–16
  23. ^ Рэй, Соумья и Дэвид Пейдж. «Множественная регрессия». ICML. Том 1. 2001. С. 425–32.

Дальнейшее чтение

Недавние обзоры литературы по МИЛ включают: