stringtranslate.com

Особенности обучения

Схема парадигмы обучения функциям в машинном обучении для применения в последующих задачах, которую можно применять либо к необработанным данным, таким как изображения или текст, либо к начальному набору функций данных . Обучение функциям предназначено для более быстрого обучения или повышения производительности при настройке конкретных задач, чем если бы данные вводились напрямую. [1]

В машинном обучении обучение признакам или обучение представлениям [2] — это набор методов, которые позволяют системе автоматически обнаруживать представления, необходимые для обнаружения или классификации признаков , на основе необработанных данных. Это заменяет ручную разработку функций и позволяет машине как изучать функции, так и использовать их для выполнения конкретной задачи.

Обучение признакам мотивируется тем фактом, что задачи машинного обучения, такие как классификация, часто требуют ввода, который математически и вычислительно удобен для обработки. Однако реальные данные, такие как изображения, видео и данные датчиков, не уступили попыткам алгоритмически определить конкретные характеристики. Альтернативой является обнаружение таких функций или представлений путем исследования, не полагаясь на явные алгоритмы.

Обучение функциям может быть контролируемым, неконтролируемым или самоконтролируемым.

Контролируемый

Обучение функций с учителем — это изучение функций на основе помеченных данных. Метка данных позволяет системе вычислить термин ошибки, степень, в которой система не может создать метку, которую затем можно использовать в качестве обратной связи для корректировки процесса обучения (уменьшения/минимизации ошибки). Подходы включают в себя:

Обучение словарю под присмотром

При обучении словарю разрабатывается набор (словарь) репрезентативных элементов из входных данных, так что каждая точка данных может быть представлена ​​как взвешенная сумма репрезентативных элементов. Элементы словаря и веса могут быть найдены путем минимизации средней ошибки представления (по входным данным) вместе с регуляризацией L1 весов для обеспечения разреженности (т. е. представление каждой точки данных имеет только несколько ненулевых весов).

Контролируемое обучение словарю использует как структуру, лежащую в основе входных данных, так и метки для оптимизации элементов словаря. Например, этот метод обучения словаря с учителем [12] применяет обучение словарю к задачам классификации путем совместной оптимизации элементов словаря, весов для представления точек данных и параметров классификатора на основе входных данных. В частности, формулируется задача минимизации, где целевая функция состоит из ошибки классификации, ошибки представления, регуляризации L1 по представляющим весам для каждой точки данных (чтобы обеспечить разреженное представление данных) и регуляризации L2 по параметрам. классификатора.

Нейронные сети

Нейронные сети — это семейство алгоритмов обучения, использующих «сеть», состоящую из нескольких слоев взаимосвязанных узлов. Он вдохновлен нервной системой животных, где узлы рассматриваются как нейроны, а края — как синапсы. Каждое ребро имеет связанный с ним вес, и сеть определяет вычислительные правила для передачи входных данных из входного слоя сети на выходной уровень. Сетевая функция, связанная с нейронной сетью, характеризует взаимосвязь между входным и выходным слоями, которая параметрируется весами. При правильно определенных сетевых функциях различные задачи обучения могут выполняться путем минимизации функции стоимости по сетевой функции (весам).

Многослойные нейронные сети можно использовать для обучения функций, поскольку они изучают представление своих входных данных на скрытых слоях, которые впоследствии используются для классификации или регрессии на выходном слое. Самая популярная сетевая архитектура этого типа — сиамские сети .

Без присмотра

Обучение функций без учителя — это изучение функций на основе немаркированных данных. Целью обучения функций без учителя часто является обнаружение низкоразмерных функций, которые отражают некоторую структуру, лежащую в основе многомерных входных данных. Когда обучение функциям выполняется без присмотра, это обеспечивает форму полуконтролируемого обучения , при которой функции, полученные из немаркированного набора данных, затем используются для повышения производительности в контролируемых условиях с маркированными данными. [13] [14] Ниже представлены несколько подходов.

K - означает кластеризацию

Кластеризация K -средних — это подход к векторному квантованию. В частности, для данного набора из n векторов кластеризация k -средних группирует их в k кластеров (т. е. подмножеств) таким образом, что каждый вектор принадлежит кластеру с ближайшим средним значением. Проблема является вычислительно NP-сложной , хотябыли разработаны субоптимальные жадные алгоритмы .

Кластеризацию K-средних можно использовать для группировки немаркированного набора входных данных в k кластеров, а затем использовать центроиды этих кластеров для создания признаков. Эти функции могут быть созданы несколькими способами. Самый простой способ — добавить k бинарных признаков в каждую выборку, где каждый признак j имеет значение, равное единице, тогда и только тогда , когда j - й центроид, полученный с помощью k -means, наиболее близок к рассматриваемой выборке. [6] Также можно использовать расстояния до кластеров в качестве признаков, возможно, после их преобразования с помощью радиальной базисной функции (метод, который использовался для обучения RBF-сетей [15] ). Коутс и Нг отмечают, что некоторые варианты k -средних ведут себя аналогично алгоритмам разреженного кодирования . [16]

В сравнительной оценке методов обучения признаков без учителя Коутс, Ли и Нг обнаружили, что кластеризация k -средних с соответствующим преобразованием превосходит недавно изобретенные автоматические кодировщики и RBM в задаче классификации изображений. [6] K -means также повышает производительность в области НЛП , особенно при распознавании именованных объектов ; [17] там он конкурирует с кластеризацией Брауна , а также с распределенными представлениями слов (также известными как нейронные встраивания слов). [14]

Анализ главных компонентов

Анализ главных компонентов (PCA) часто используется для уменьшения размерности. Учитывая немаркированный набор из n векторов входных данных, PCA генерирует p (которые намного меньше размерности входных данных) правых сингулярных векторов, соответствующих p наибольшим сингулярным значениям матрицы данных, где k -я строка матрицы данных — это k- й вектор входных данных, сдвинутый на выборочное среднее входных данных (т. е. вычитание выборочного среднего значения из вектора данных). Эквивалентно, эти сингулярные векторы являются собственными векторами , соответствующими p наибольшим собственным значениям выборочной ковариационной матрицы входных векторов. Эти p сингулярных векторов представляют собой векторы признаков, извлеченные из входных данных, и они представляют направления, вдоль которых данные имеют наибольшие вариации.

PCA — это подход к изучению линейных признаков, поскольку сингулярные векторы p являются линейными функциями матрицы данных. Сингулярные векторы могут быть сгенерированы с помощью простого алгоритма с p итераций. На i- й итерации проекция матрицы данных на (i-1) -й собственный вектор вычитается, и i- й сингулярный вектор находится как правый сингулярный вектор, соответствующий наибольшему сингулярному числу матрицы остаточных данных.

PCA имеет несколько ограничений. Во-первых, предполагается, что наибольший интерес представляют направления с большой дисперсией, что может быть не так. PCA полагается только на ортогональные преобразования исходных данных и использует только моменты данных первого и второго порядка, которые могут плохо характеризовать распределение данных. Более того, PCA может эффективно уменьшать размерность только тогда, когда векторы входных данных коррелируют (что приводит к небольшому количеству доминирующих собственных значений).

Локальное линейное вложение

Локальное линейное встраивание (LLE) — это подход нелинейного обучения для создания низкоразмерных представлений, сохраняющих соседей, из (немаркированных) входных данных высокой размерности. Этот подход был предложен Ровейсом и Саулом (2000). [18] [19] Общая идея LLE заключается в восстановлении исходных многомерных данных с использованием точек более низкой размерности при сохранении некоторых геометрических свойств окрестностей в исходном наборе данных.

LLE состоит из двух основных этапов. Первый шаг предназначен для «сохранения соседей», где каждая точка входных данных Xi восстанавливается как взвешенная сумма K точек данных ближайших соседей , а оптимальные веса находятся путем минимизации средней квадратичной ошибки восстановления (т. е. разницы между входными точка и ее реконструкция) при условии, что сумма весов, связанных с каждой точкой, равна единице. Второй шаг — «уменьшение размерности» путем поиска векторов в пространстве меньшей размерности, которое минимизирует ошибку представления с использованием оптимизированных весов на первом этапе. Обратите внимание, что на первом этапе веса оптимизируются с использованием фиксированных данных, которые можно решить как задачу наименьших квадратов . На втором этапе точки меньшей размерности оптимизируются с использованием фиксированных весов, которые можно решить с помощью разреженного разложения по собственным значениям.

Веса реконструкции, полученные на первом этапе, отражают «внутренние геометрические свойства» окрестности во входных данных. [19] Предполагается, что исходные данные лежат на гладком многообразии меньшей размерности , и ожидается, что «внутренние геометрические свойства», зафиксированные весами исходных данных, также будут находиться на многообразии. Вот почему на втором этапе LLE используются те же веса. По сравнению с PCA, LLE более эффективно использует базовую структуру данных.

Независимый анализ компонентов

Анализ независимых компонентов (ICA) — это метод формирования представления данных с использованием взвешенной суммы независимых негауссовских компонентов. [20] Предположение о негауссовости налагается, поскольку веса не могут быть определены однозначно, когда все компоненты подчиняются гауссовскому распределению.

Изучение словаря без присмотра

При обучении словаря без учителя не используются метки данных и используется структура, лежащая в основе данных, для оптимизации элементов словаря. Примером неконтролируемого обучения словарю является разреженное кодирование , целью которого является изучение базовых функций (элементов словаря) для представления данных из неразмеченных входных данных. Разреженное кодирование можно применять для изучения переполненных словарей, в которых количество элементов словаря превышает размерность входных данных. [21] Аарон и др. предложил алгоритм K-SVD для изучения словаря элементов, обеспечивающего разреженное представление. [22]

Многоуровневые/глубокие архитектуры

Иерархическая архитектура биологической нейронной системы вдохновляет архитектуры глубокого обучения для изучения функций путем объединения нескольких уровней узлов обучения. [23] Эти архитектуры часто разрабатываются на основе предположения о распределенном представлении : наблюдаемые данные генерируются в результате взаимодействия множества различных факторов на нескольких уровнях. В архитектуре глубокого обучения выходные данные каждого промежуточного уровня можно рассматривать как представление исходных входных данных. Каждый уровень использует представление, созданное предыдущим, более низким уровнем, в качестве входных данных и создает новые представления в качестве выходных данных, которые затем передаются на более высокие уровни. Входные данные нижнего слоя — это необработанные данные, а выходные данные последнего, самого высокого слоя — окончательный низкоразмерный объект или представление.

Ограниченная машина Больцмана

Ограниченные машины Больцмана (RBM) часто используются в качестве строительного блока для многоуровневых архитектур обучения. [6] [24] RBM может быть представлен неориентированным двудольным графом , состоящим из группы двоичных скрытых переменных , группы видимых переменных и ребер, соединяющих скрытые и видимые узлы. Это частный случай более общих машин Больцмана с ограничением отсутствия внутриузловых связей. Каждому ребру в RBM присвоен вес. Веса вместе со связями определяют энергетическую функцию , на основе которой можно разработать совместное распределение видимых и скрытых узлов. В зависимости от топологии RBM скрытые (видимые) переменные являются независимыми и зависят от видимых (скрытых) переменных. [ необходимо разъяснение ] Такая условная независимость облегчает вычисления.

RBM можно рассматривать как одноуровневую архитектуру для неконтролируемого обучения функциям. В частности, видимые переменные соответствуют входным данным, а скрытые переменные соответствуют детекторам признаков. Веса можно обучить путем максимизации вероятности видимых переменных с использованием алгоритма контрастивной дивергенции (CD) Хинтона . [24]

В общем, обучение RBM путем решения задачи максимизации имеет тенденцию приводить к неразреженным представлениям. Разреженный RBM [25] был предложен для обеспечения разреженных представлений. Идея состоит в том, чтобы добавить член регуляризации в целевую функцию правдоподобия данных, который наказывает за отклонение ожидаемых скрытых переменных от небольшой константы .

Автоэнкодер

Автоэнкодер , состоящий из кодера и декодера, является парадигмой для архитектур глубокого обучения. Пример предоставлен Хинтоном и Салахутдиновым [24] , где кодер использует необработанные данные (например, изображение) в качестве входных данных и создает признак или представление в качестве выходных данных, а декодер использует извлеченный из кодера признак в качестве входных данных и реконструирует исходные входные необработанные данные. в качестве вывода. Кодер и декодер создаются путем объединения нескольких уровней RBM. Параметры, задействованные в архитектуре, изначально обучались жадным послойным способом: после изучения одного уровня детекторов признаков они используются как видимые переменные для обучения соответствующего RBM. Современные подходы обычно применяют сквозное обучение с методами стохастического градиентного спуска . Обучение можно повторять до тех пор, пока не будут выполнены некоторые критерии остановки.

Самоконтролируемый

Обучение представлению с самоконтролем — это изучение функций путем обучения структуре неразмеченных данных, а не использования явных меток для информационного сигнала . Этот подход позволил комбинированно использовать архитектуру глубоких нейронных сетей и более крупные неразмеченные наборы данных для создания глубоких представлений объектов. [9] Задачи обучения обычно подпадают под классы контрастивных, генеративных или обоих классов. [26] Обучение контрастному представлению обучает представления связанных пар данных, называемых положительными выборками, выравнивать, в то время как пары без связи, называемые отрицательными выборками, контрастируют. Обычно требуется большая часть отрицательных выборок, чтобы предотвратить катастрофический коллапс, когда все входные данные отображаются в одно и то же представление. [9] Обучение генеративному представлению ставит перед моделью задачу создания правильных данных, которые либо соответствуют ограниченному вводу, либо восстанавливают полный ввод из представления более низкой размерности. [26]

Обычная настройка для самостоятельного обучения представлению определенного типа данных (например, текста, изображения, аудио, видео) заключается в предварительном обучении модели с использованием больших наборов данных общего контекста, немаркированных данных. [11] В зависимости от контекста результатом этого является либо набор представлений для общих сегментов данных (например, слов), на которые могут быть разбиты новые данные, либо нейронная сеть, способная преобразовать каждую новую точку данных (например, изображение) в набор функций более низкого измерения. [9] В любом случае выходные представления могут затем использоваться в качестве инициализации во многих различных ситуациях, где помеченные данные могут быть ограничены. Специализация модели для конкретных задач обычно осуществляется с помощью контролируемого обучения, либо путем точной настройки модели/представлений с использованием меток в качестве сигнала, либо замораживания представлений и обучения дополнительной модели, которая принимает их в качестве входных данных. [11]

Многие схемы обучения с самоконтролем были разработаны для использования в обучении представлению различных модальностей , часто сначала демонстрируя успешное применение в тексте или изображении, прежде чем их переносить в другие типы данных. [9]

Текст

Word2vec — это метод встраивания слов , который учится представлять слова посредством самоконтроля над каждым словом и соседними с ним словами в скользящем окне в большом корпусе текста. [27] Модель имеет две возможные схемы обучения для создания представлений векторов слов: одну генеративную и одну контрастирующую. [26] Первый — это предсказание слов, учитывая каждое из соседних слов в качестве входных данных. [27] Второй — это тренировка сходства представлений соседних слов и несходства представлений случайных пар слов. [10] Ограничением word2vec является то, что используется только попарная структура данных, а не порядок или весь набор контекстных слов. Более поздние подходы к обучению представлению на основе преобразователей пытаются решить эту проблему с помощью задач прогнозирования слов. [9] GPT предварительно обучается предсказанию следующего слова, используя предыдущие входные слова в качестве контекста, [28] тогда как BERT маскирует случайные токены, чтобы обеспечить двунаправленный контекст. [29]

Другие методы самоконтроля расширяют встраивание слов, находя во входных данных представления для более крупных текстовых структур, таких как предложения или абзацы. [9] Doc2vec расширяет подход генеративного обучения в word2vec, добавляя дополнительные входные данные к задаче прогнозирования слов на основе абзаца, в котором оно находится, и поэтому предназначен для представления контекста уровня абзаца. [30]

Изображение

В области обучения представлению изображений используется множество различных методов обучения с самоконтролем, включая трансформацию, [31] рисование, [32] распознавание фрагментов [33] и кластеризацию. [34]

Примерами генеративных подходов являются контекстные кодировщики, которые обучают архитектуру AlexNet CNN генерировать удаленную область изображения, учитывая замаскированное изображение в качестве входных данных, [32] и iGPT, который применяет архитектуру языковой модели GPT-2 к изображениям путем обучения предсказанию пикселей после уменьшение разрешения изображения . [35]

Многие другие методы самоконтроля используют сиамские сети , которые генерируют разные представления изображения посредством различных дополнений, которые затем выравниваются для получения схожих представлений. Задача состоит в том, чтобы избежать коллапса решений, при которых модель кодирует все изображения в одно и то же представление. [36] SimCLR — это контрастный подход, который использует отрицательные примеры для создания представлений изображений с помощью ResNet CNN . [33] Bootstrap Your Own Latent (BYOL) устраняет необходимость в отрицательных выборках, кодируя одно из представлений с помощью медленного скользящего среднего значений параметров модели, которые изменяются во время обучения. [37]

График

Целью многих методов обучения представлению графов является создание встроенного представления каждого узла на основе общей топологии сети . [38] node2vec расширяет технику обучения word2vec на узлы графа, используя совместное появление при случайных блужданиях по графу в качестве меры связи. [39] Другой подход заключается в максимизации взаимной информации , меры сходства, между представлениями связанных структур внутри графа. [9] Примером является Deep Graph Infomax, который использует контрастирующий самоконтроль, основанный на взаимной информации между представлением «патча» вокруг каждого узла и сводным представлением всего графа. Отрицательные выборки получаются путем объединения представления графа либо с представлениями из другого графа в настройке обучения с несколькими графами, либо с поврежденными представлениями патчей при обучении с одним графом. [40]

видео

Имея аналогичные результаты в маскированном прогнозировании [41] и кластеризации, [42] подходы к обучению представлению видео часто похожи на методы изображения, но должны использовать временную последовательность видеокадров в качестве дополнительной обучаемой структуры. Примеры включают VCP, который маскирует видеоклипы и обучает выбирать правильный из набора параметров клипа, а также Сюй и др., которые обучают 3D-CNN идентифицировать исходный порядок с учетом перетасованного набора видеоклипов. [43]

Аудио

Методы самоконтролируемого представления также применялись ко многим форматам аудиоданных, особенно для обработки речи . [9] Wav2vec 2.0 дискретизирует форму аудиосигнала на временные шаги с помощью временных сверток , а затем обучает преобразователь маскированному предсказанию случайных временных шагов с использованием контрастных потерь. [44] Это похоже на языковую модель BERT , за исключением того, что во многих подходах SSL к видео модель выбирает среди набора параметров, а не по всему словарю слов. [29] [44]

Мультимодальный

Самообучение также использовалось для разработки совместных представлений нескольких типов данных. [9] Подходы обычно полагаются на некоторую естественную или созданную человеком связь между модальностями в качестве неявного ярлыка, например, видеоклипы с животными или объектами с характерными звуками, [45] или подписи, написанные для описания изображений. [46] CLIP создает совместное пространство представления изображения и текста путем обучения выравниванию кодировок изображения и текста из большого набора данных пар изображение-подпись с использованием контрастной потери. [46] MERLOT Reserve обучает кодировщик на основе преобразователя совместно представлять аудио, субтитры и видеокадры из большого набора данных видео с помощью трех совместных задач предварительного обучения: контрастное маскированное предсказание аудио- или текстовых сегментов с учетом видеокадров и окружающего их аудио и текста. контексте, а также контрастное выравнивание видеокадров с соответствующими им подписями. [45]

Модели мультимодального представления обычно не могут предполагать прямое соответствие представлений в различных модальностях, поскольку точное соответствие часто может быть зашумленным или неоднозначным. Например, текст «собака» может сочетаться со многими различными изображениями собак, и, соответственно, изображение собаки может быть озаглавлено с разной степенью специфичности. Это ограничение означает, что последующие задачи могут потребовать дополнительной генеративной сети сопоставления между модальностями для достижения оптимальной производительности, например, в DALLE-2 для генерации текста в изображение. [47]

Обучение динамическому представлению

Методы обучения динамическому представлению [48] генерируют скрытые вложения для динамических систем, таких как динамические сети. Поскольку определенные функции расстояния инвариантны относительно определенных линейных преобразований, разные наборы векторов внедрения могут фактически представлять одну и ту же/похожую информацию. Следовательно, для динамической системы временная разница в ее вложениях может быть объяснена несовпадением вложений из-за произвольных преобразований и/или реальных изменений в системе. [49] Поэтому, вообще говоря, временные вложения, полученные с помощью методов обучения динамическому представлению, должны быть проверены на предмет любых ложных изменений и выровнены перед последующим динамическим анализом.

Смотрите также

Рекомендации

  1. ^ Гудфеллоу, Ян (2016). Глубокое обучение . Йошуа Бенджио, Аарон Курвиль. Кембридж, Массачусетс. стр. 524–534. ISBN  0-262-03561-8 . ОКЛК  955778308.
  2. ^ Ю. Бенджио; А. Курвиль; П. Винсент (2013). «Обучение репрезентации: обзор и новые перспективы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . дои : 10.1109/tpami.2013.50. PMID  23787338. S2CID  393948.
  3. ^ Стюарт Дж. Рассел, Питер Норвиг (2010) Искусственный интеллект: современный подход , третье издание , ISBN Prentice Hall 978-0-13-604259-4
  4. ^ Хинтон, Джеффри; Сейновский, Терренс (1999). Обучение без учителя: основы нейронных вычислений . МТИ Пресс. ISBN 978-0-262-58168-4
  5. ^ Натан Сребро; Джейсон Д.М. Ренни; Томми С. Яаккола (2004). Матричная факторизация максимальной маржи . НИПС .
  6. ^ abcd Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей при обучении функций без учителя (PDF) . Международная конференция. по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 13 августа 2017 г. Проверено 24 ноября 2014 г.
  7. ^ Цурка, Габриэлла; Дэнс, Кристофер С.; Фан, Ликсин; Вилламовский, Ютта; Брей, Седрик (2004). Визуальная категоризация с набором ключевых точек (PDF) . Семинар ECCV по статистическому обучению в области компьютерного зрения.
  8. ^ Дэниел Юрафски ; Джеймс Х. Мартин (2009). Речевая и языковая обработка . Пирсон Эдьюкейшн Интернэшнл. стр. 145–146.
  9. ^ abcdefghijk Эрикссон, Лайнус; Гук, Генри; Лой, Чен Чендж; Хоспедалес, Тимоти М. (май 2022 г.). «Обучение самоконтролируемому представлению: введение, достижения и проблемы». Журнал обработки сигналов IEEE . 39 (3): 42–62. arXiv : 2110.09327 . Бибкод : 2022ISPM...39c..42E. дои : 10.1109/MSP.2021.3134634. ISSN  1558-0792. S2CID  239017006.
  10. ^ аб Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег С; Дин, Джефф (2013). «Распределенные представления слов и фраз и их композиционность». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 26 . arXiv : 1310.4546 .
  11. ^ abc Гудфеллоу, Ян (2016). Глубокое обучение . Йошуа Бенджио, Аарон Курвиль. Кембридж, Массачусетс. стр. 499–516. ISBN 0-262-03561-8 . ОКЛК  955778308. 
  12. ^ Майрал, Жюльен; Бах, Фрэнсис; Понсе, Жан; Сапиро, Гильермо; Зиссерман, Эндрю (2009). «Обучение словарю под присмотром». Достижения в области нейронных систем обработки информации .
  13. ^ Перси Лян (2005). Обучение естественному языку с полуконтролем (PDF) (магистр английского языка). Массачусетский технологический институт . стр. 44–52.
  14. ^ аб Джозеф Туриан; Лев Ратинов; Йошуа Бенджио (2010). Словесные представления: простой и общий метод обучения под учителем (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Архивировано из оригинала (PDF) 26 февраля 2014 г. Проверено 22 февраля 2014 г.
  15. ^ Швенкер, Фридхельм; Кестлер, Ганс А.; Пальм, Гюнтер (2001). «Три этапа обучения для сетей с радиальными базисными функциями». Нейронные сети . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . дои : 10.1016/s0893-6080(01)00027-2. ПМИД  11411631. 
  16. ^ Коутс, Адам; Нг, Эндрю Ю. (2012). «Изучение представлений функций с помощью k-средних». У Г. Монтавона, Г.Б. Орра и К.-Р. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.
  17. ^ Декан Лин; Сяоюнь Ву (2009). Кластеризация фраз для различительного обучения (PDF) . Учеб. Дж. Конф. ACL и 4-й Международной J. Conf. по обработке естественного языка AFNLP. стр. 1030–1038.
  18. ^ Роуэйс, Сэм Т; Сол, Лоуренс К. (2000). «Нелинейное уменьшение размерности путем локально линейного встраивания». Наука . Новая серия. 290 (5500): 2323–2326. Бибкод : 2000Sci...290.2323R. дои : 10.1126/science.290.5500.2323. JSTOR  3081722. PMID  11125150. S2CID  5987139.
  19. ^ аб Саул, Лоуренс К; Роуэйс, Сэм Т. (2000). «Введение в локально линейное вложение». {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  20. ^ Хиваринен, Аапо; Оя, Эркки (2000). «Независимый анализ компонентов: алгоритмы и приложения». Нейронные сети . 13 (4): 411–430. дои : 10.1016/s0893-6080(00)00026-5. PMID  10946390. S2CID  11959218.
  21. ^ Ли, Хонглак; Битва, Алексис; Райна, Раджат; Нг, Эндрю Ю (2007). «Эффективные алгоритмы разреженного кодирования». Достижения в области нейронных систем обработки информации .
  22. ^ Аарон, Михал ; Элад, Майкл; Брукштейн, Альфред (2006). «K-SVD: алгоритм разработки сверхполных словарей для разреженного представления». IEEE Транс. Сигнальный процесс . 54 (11): 4311–4322. Бибкод : 2006ITSP...54.4311A. дои :10.1109/TSP.2006.881199. S2CID  7477309.
  23. ^ Бенджио, Йошуа (2009). «Изучение глубокой архитектуры для ИИ». Основы и тенденции в машинном обучении . 2 (1): 1–127. дои : 10.1561/2200000006. S2CID  207178999.
  24. ^ abc Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H. дои : 10.1126/science.1127647. PMID  16873662. S2CID  1658773.
  25. ^ Ли, Хонглак; Эканадхам, Чайтанья; Эндрю, Нг (2008). «Разреженная модель глубокой сети убеждений для визуальной области V2». Достижения в области нейронных систем обработки информации .
  26. ^ abc Лю, Сяо; Чжан, Фаньцзинь; Хоу, Чжэньюй; Миан, Ли; Ван, Чжаоюй; Чжан, Цзин; Тан, Цзе (2021). «Самоконтролируемое обучение: порождающее или контрастное». Транзакции IEEE по знаниям и инженерии данных . 35 (1): 857–876. arXiv : 2006.08218 . дои :10.1109/TKDE.2021.3090866. ISSN  1558-2191. S2CID  219687051.
  27. ^ аб Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
  28. ^ «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . Проверено 10 октября 2022 г.
  29. ^ аб Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (июнь 2019 г.). «Материалы конференции Севера 2019». Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 4171–4186. дои : 10.18653/v1/N19-1423. S2CID  52967399.
  30. ^ Ле, Куок; Миколов, Томас (18 июня 2014 г.). «Распределенные представления предложений и документов». Международная конференция по машинному обучению . ПМЛР: 1188–1196. arXiv : 1405.4053 .
  31. ^ Спирос Гидарис, Правир Сингх и Никос Комодакис. Обучение представлению без учителя путем прогнозирования вращения изображения. В ИКЛР, 2018.
  32. ^ аб Патхак, Дипак; Краэнбюль, Филипп; Донахью, Джефф; Даррелл, Тревор; Эфрос, Алексей А. (2016). «Кодировщики контекста: обучение функциям путем рисования»: 2536–2544. arXiv : 1604.07379 . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  33. ^ Аб Чен, Тин; Корнблит, Саймон; Норузи, Мохаммед; Хинтон, Джеффри (21 ноября 2020 г.). «Простая основа для контрастного изучения визуальных представлений». Международная конференция по машинному обучению . ПМЛР: 1597–1607.
  34. ^ Матильда, Кэрон; Ишан, Мишра; Жюльен, Майрал; Прия, Гоял; Петр, Бояновский; Арманд, Жулен (2020). «Изучение визуальных функций без учителя путем сопоставления назначений кластеров». Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.09882 .
  35. ^ Чен, Марк; Рэдфорд, Алек; Дитя, Ревон; Ву, Джеффри; Джун, Хиву; Луан, Дэвид; Суцкевер, Илья (21 ноября 2020 г.). «Генеративная предварительная подготовка по пикселям». Международная конференция по машинному обучению . ПМЛР: 1691–1703.
  36. ^ Чен, Синлэй; Он, Кайминг (2021). «Изучение простого сиамского представления»: 15750–15758. arXiv : 2011.10566 . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  37. ^ Жан-Бастьен, Гриль; Флориан, Струб; Флоран, Альтче; Корантен, Таллек; Пьер, Ричмонд; Елена, Бучацкая; Карл, Дёрш; Бернардо, Авила Пирес; Чжаохан, Го; Мохаммед, Гешлаги Азар; Билал, Пиот; корай, кавукчуоглу; Реми, Мунос; Михал, Валко (2020). «Начните использовать свое собственное скрытое - новый подход к самостоятельному обучению». Достижения в области нейронных систем обработки информации . 33 .
  38. ^ Цай, ХунЮнь; Чжэн, Винсент В.; Чанг, Кевин Чен-Чуан (сентябрь 2018 г.). «Комплексный обзор встраивания графов: проблемы, методы и приложения». Транзакции IEEE по знаниям и инженерии данных . 30 (9): 1616–1637. arXiv : 1709.07604 . дои :10.1109/TKDE.2018.2807452. ISSN  1558-2191. S2CID  13999578.
  39. ^ Гровер, Адитья; Лесковец, Юре (13 августа 2016 г.). «Ноде2век». Материалы 22-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . КДД '16. Том. 2016. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 855–864. дои : 10.1145/2939672.2939754. ISBN 978-1-4503-4232-2. ПМК  5108654 . ПМИД  27853626.
  40. ^ Великови П., Федус В., Гамильтон В.Л., Ли П., Бенджио Ю. и Хьельм Р.Д. Deep Graph InfoMax. На Международной конференции по обучению представлениям (ICLR'2019), 2019.
  41. ^ Ло, Дэчжао; Лю, Чанг; Чжоу, Ю; Ян, Дунбао; Ма, Джан; Е, Цисян; Ван, Вэйпин (03 апреля 2020 г.). «Процедура закрытия видео для самостоятельного пространственно-временного обучения». Материалы конференции AAAI по искусственному интеллекту . 34 (7): 11701–11708. arXiv : 2001.00294 . дои : 10.1609/aaai.v34i07.6840 . ISSN  2374-3468. S2CID  209531629.
  42. ^ Хумам, Альвассель; Дхрув, Махаджан; Бруно, Корбар; Лоренцо, Торресани; Бернард, Ганем; Ду, Тран (2020). «Самоконтролируемое обучение посредством кросс-модальной кластеризации аудио-видео». Достижения в области нейронных систем обработки информации . 33 . arXiv : 1911.12667 .
  43. ^ Сюй, Дэцзин; Сяо, Цзюнь; Чжао, Чжоу; Шао, Цзянь; Се, Ди; Чжуан, Юетинг (июнь 2019 г.). «Пространственно-временное обучение с самоконтролем посредством прогнозирования порядка видеоклипов». Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . стр. 10326–10335. дои :10.1109/CVPR.2019.01058. ISBN 978-1-7281-3293-8. S2CID  195504152.
  44. ^ аб Алексей, Баевский; Юхао, Чжоу; Абдельрахман, Мохамед; Майкл, Аули (2020). «wav2vec 2.0: Структура для самостоятельного изучения речевых представлений». Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.11477 .
  45. ^ аб Зеллерс, Роуэн; Лу, Цзясэн; Лу, Симин; Ю, Ёнджэ; Чжао, Янпэн; Салехи, Мохаммадреза; Кусупати, Адитья; Хессель, Джек; Фархади, Али; Чой, Еджин (2022). «Резерв МЕРЛО: знание нейронного сценария посредством зрения, языка и звука»: 16375–16387. arXiv : 2201.02639 . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  46. ^ Аб Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела; Кларк, Джек; Крюгер, Гретхен; Суцкевер, Илья (01.07.2021). «Изучение переносимых визуальных моделей под контролем естественного языка». Международная конференция по машинному обучению . ПМЛР: 8748–8763. arXiv : 2103.00020 .
  47. ^ Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация текстовых условных изображений с помощью CLIP Latents». arXiv : 2204.06125 [cs.CV].
  48. ^ Чжан, Даокунь; Инь, Цзе; Чжу, Синцюань; Чжан, Ченци (март 2020 г.). «Обучение сетевому представлению: опрос». Транзакции IEEE для больших данных . 6 (1): 3–28. arXiv : 1801.05852 . doi : 10.1109/TBDATA.2018.2850013. ISSN  2332-7790. S2CID  1479507.
  49. ^ Гюрсой, Фуркан; Хаддад, Мунир; Боторель, Сесиль (07 октября 2023 г.). «Выравнивание и устойчивость вложений: улучшение измерений и выводов». Нейрокомпьютинг . 553 : 126517. arXiv : 2101.07251 . doi : 10.1016/j.neucom.2023.126517. ISSN  0925-2312. S2CID  231632462.