stringtranslate.com

Сверточная нейронная сеть

Сверточная нейронная сеть ( CNN ) — это регуляризованный тип нейронной сети с прямой связью , которая самостоятельно изучает разработку функций посредством оптимизации фильтров (или ядра). Исчезающие и взрывные градиенты, наблюдаемые во время обратного распространения ошибки в более ранних нейронных сетях, предотвращаются за счет использования регуляризованных весов для меньшего количества соединений. [1] [2] Например, для каждого нейрона в полносвязном слое потребуется 10 000 весов для обработки изображения размером 100 × 100 пикселей. Однако, применяя ядра каскадной свертки (или взаимной корреляции), [3] [4] для обработки плиток размером 5x5 требуется всего 25 нейронов. [5] [6] Функции более высокого уровня извлекаются из более широких контекстных окон по сравнению с функциями более низкого уровня.

У них есть приложения:

CNN также известны как инвариантные к сдвигу или инвариантные к пространству искусственные нейронные сети ( SIANN ), основанные на архитектуре с общим весом ядер или фильтров свертки, которые скользят вдоль входных признаков и обеспечивают трансляционно- эквивариантные ответы, известные как карты признаков. [12] [13] Как ни странно, большинство сверточных нейронных сетей не инвариантны к трансляции из-за операции понижения дискретизации, которую они применяют к входным данным. [14]

Нейронные сети прямого распространения обычно представляют собой полносвязные сети, то есть каждый нейрон в одном слое связан со всеми нейронами в следующем слое . «Полная связность» этих сетей делает их склонными к переобучению данных. Типичные способы регуляризации или предотвращения переобучения включают в себя: наложение штрафов на параметры во время обучения (например, снижение веса) или обрезку связности (пропущенные соединения, выпадение и т. д.). Надежные наборы данных также увеличивают вероятность того, что CNN изучат обобщенные принципы, которые характеризуют данный набор данных, а не предвзятость малонаселенного набора. [15]

Сверточные сети были вдохновлены биологическими процессами [16] [17] [18] [19] в том смысле , что структура связей между нейронами напоминает организацию зрительной коры головного мозга животных . Отдельные кортикальные нейроны реагируют на стимулы только в ограниченной области поля зрения , известной как рецептивное поле . Рецептивные поля разных нейронов частично перекрываются и охватывают все поле зрения.

CNN используют относительно небольшую предварительную обработку по сравнению с другими алгоритмами классификации изображений . Это означает, что сеть учится оптимизировать фильтры (или ядра) посредством автоматического обучения, тогда как в традиционных алгоритмах эти фильтры разрабатываются вручную . Эта независимость от предварительных знаний и вмешательства человека в извлечение признаков является основным преимуществом. [ кому? ]

Архитектура

Сравнение свертки, объединения и плотных слоев LeNet и AlexNet
(размер изображения AlexNet должен быть 227×227×3 вместо 224×224×3, чтобы математические расчеты были верными. В исходной статье были указаны другие цифры, но Андрей Карпатий , глава отдела компьютерного зрения в Tesla, сказал, что должно быть 227×227×3 (по его словам, Алекс не объяснил, почему он поставил 224×224×3). Следующая свертка должна быть 11×11 с шагом 4: 55×. 55×96 (вместо 54×54×96). Это будет рассчитываться, например, как: [(входная ширина 227 - ширина ядра 11) / шаг 4] + 1 = [(227 - 11) / 4] + 1 = 55. Поскольку длина вывода ядра равна ширине, его площадь равна 55×55.)

Сверточная нейронная сеть состоит из входного слоя, скрытых слоев и выходного слоя. В сверточной нейронной сети скрытые слои включают один или несколько слоев, выполняющих свертки. Обычно это включает в себя слой, который выполняет скалярное произведение ядра свертки с входной матрицей слоя. Этот продукт обычно является внутренним продуктом Фробениуса , а его функция активации обычно ReLU . Когда ядро ​​свертки скользит по входной матрице слоя, операция свертки генерирует карту объектов, которая, в свою очередь, вносит вклад во входные данные следующего слоя. За этим следуют другие уровни, такие как слои пула, полностью связанные слои и слои нормализации. Здесь следует отметить, насколько близки сверточные нейронные сети к согласованному фильтру . [20]

Сверточные слои

В CNN входные данные представляют собой тензор формы:

(количество входов) × (высота входа) × (ширина входа) × (входные каналы )

После прохождения сверточного слоя изображение абстрагируется на карту объектов, также называемую картой активации, с формой:

(количество входов) × (высота карты объектов) × (ширина карты объектов) × ( каналы карты функций ).

Сверточные слои свертывают входные данные и передают результат на следующий слой. Это похоже на реакцию нейрона зрительной коры на определенный стимул. [21] Каждый сверточный нейрон обрабатывает данные только для своего рецептивного поля .

Пример прямой связи 1D сверточной нейронной сети

Хотя полностью связанные нейронные сети прямого распространения могут использоваться для изучения функций и классификации данных, эта архитектура, как правило, непрактична для больших входных данных (например, изображений с высоким разрешением), для которых потребуется огромное количество нейронов, поскольку каждый пиксель является значимым входным признаком. Полносвязный слой для изображения размером 100×100 имеет 10 000 весов для каждого нейрона второго слоя. Свертка уменьшает количество свободных параметров, позволяя сделать сеть более глубокой. [5] Например, для использования области мозаики 5 × 5, каждая из которых имеет одинаковый общий вес, требуется всего 25 нейронов. Использование регуляризованных весов для меньшего количества параметров позволяет избежать проблем с исчезающими и взрывными градиентами, которые наблюдались во время обратного распространения ошибки в более ранних нейронных сетях. [1] [2]

Для ускорения обработки стандартные сверточные слои можно заменить сверточными слоями с разделением по глубине, [22] которые основаны на глубинной свертке, за которой следует точечная свертка. Глубинная свертка — это пространственная свертка, применяемая независимо к каждому каналу входного тензора, тогда как точечная свертка — это стандартная свертка, ограниченная использованием ядер.

Объединение слоев

Сверточные сети могут включать в себя локальные и/или глобальные уровни пула наряду с традиционными сверточными уровнями. Слои объединения уменьшают размеры данных за счет объединения выходных данных кластеров нейронов одного слоя в один нейрон следующего слоя. Локальный пул объединяет небольшие кластеры, обычно используются тайлы размером 2 × 2. Глобальное объединение действует на все нейроны карты объектов. [23] [24] Существует два распространенных типа объединения: максимальное и среднее. При максимальном пуле используется максимальное значение каждого локального кластера нейронов на карте объектов, [25] [26], тогда как при среднем пуле принимается среднее значение.

Полностью связанные слои

Полностью связанные слои соединяют каждый нейрон одного слоя с каждым нейроном другого слоя. Это то же самое, что и традиционная многослойная нейронная сеть перцептрона (MLP). Сплющенная матрица проходит через полностью связный слой для классификации изображений.

Рецептивное поле

В нейронных сетях каждый нейрон получает входные данные из некоторого количества мест предыдущего слоя. В сверточном слое каждый нейрон получает входные данные только из ограниченной области предыдущего слоя, называемой рецептивным полем нейрона . Обычно область представляет собой квадрат (например, 5 на 5 нейронов). Тогда как в полносвязном слое рецептивное поле — это весь предыдущий слой . Таким образом, в каждом сверточном слое каждый нейрон получает входные данные из большей области входных данных, чем предыдущие слои. Это происходит из-за многократного применения свертки, которая учитывает значение пикселя, а также окружающих его пикселей. При использовании расширенных слоев количество пикселей в рецептивном поле остается постоянным, однако поле становится более разреженным, поскольку его размеры растут при объединении эффекта нескольких слоев.

Чтобы манипулировать размером рецептивного поля по желанию, существует несколько альтернатив стандартному сверточному слою. Например, атральная или расширенная свертка [27] [28] расширяет размер рецептивного поля без увеличения количества параметров за счет чередования видимых и слепых областей. Более того, один расширенный сверточный слой может содержать фильтры с несколькими коэффициентами расширения, [29] таким образом, имея переменный размер рецептивного поля.

Веса

Каждый нейрон в нейронной сети вычисляет выходное значение, применяя определенную функцию к входным значениям, полученным из рецептивного поля на предыдущем слое. Функция, которая применяется к входным значениям, определяется вектором весов и смещением (обычно действительными числами). Обучение состоит из итеративной корректировки этих предубеждений и весов.

Векторы весов и смещений называются фильтрами и представляют собой определенные характеристики входных данных (например, определенную форму). Отличительной особенностью CNN является то, что многие нейроны могут использовать один и тот же фильтр. Это уменьшает объем памяти , поскольку для всех рецептивных полей, которые используют этот фильтр, используется одно смещение и один вектор весов, в отличие от того, что каждое рецептивное поле имеет свое собственное смещение и векторное взвешивание. [30]

История

CNN часто сравнивают с тем, как мозг обрабатывает зрение в живых организмах . [31] [32]

Рецептивные поля зрительной коры

Работа Хьюбела и Визеля в 1950-х и 1960-х годах показала, что зрительная кора кошки содержит нейроны, которые индивидуально реагируют на небольшие области зрительного поля . При условии, что глаза неподвижны, область зрительного пространства, в которой зрительные стимулы влияют на срабатывание одного нейрона, называется его рецептивным полем . [33] Соседние клетки имеют схожие и перекрывающиеся рецептивные поля. [31] Размер и расположение рецептивного поля систематически варьируются по всей коре, образуя полную карту зрительного пространства. [31] [ нужна ссылка ] Кора в каждом полушарии представляет контралатеральное поле зрения . [ нужна цитата ]

Их статья 1968 года определила два основных типа зрительных клеток в мозге: [17]

Хьюбел и Визель также предложили каскадную модель этих двух типов клеток для использования в задачах распознавания образов. [34] [33]

Неокогнитрон, происхождение архитектуры CNN

« Неокогнитрон » [16] был представлен Кунихико Фукусимой в 1980 году. [18] [26] [35] Он был вдохновлен вышеупомянутой работой Хьюбела и Визеля. Неокогнитрон представил два основных типа слоев в CNN:

В 1969 году Кунихико Фукусима также представил функцию активации ReLU (выпрямленная линейная единица) . [36] [37] Выпрямитель стал самой популярной функцией активации для CNN и глубоких нейронных сетей в целом. [38]

В варианте неокогнитрона, называемом кресцептроном, вместо использования пространственного усреднения Фукусимы Дж. Венг и др. в 1993 году был представлен метод под названием max-pooling, при котором модуль понижающей дискретизации вычисляет максимальное количество активаций модулей в своем патче. [39] Макс-пулинг часто используется в современных CNN. [40]

На протяжении десятилетий для тренировки весов неокогнитрона было предложено несколько алгоритмов обучения с учителем и без него. [16] Однако сегодня архитектура CNN обычно обучается посредством обратного распространения ошибки .

Неокогнитрон — это первая CNN, которая требует , чтобы единицы, расположенные в нескольких позициях сети, имели общий вес.

Сверточные нейронные сети были представлены на семинаре по обработке нейронной информации в 1987 году, автоматически анализируя изменяющиеся во времени сигналы путем замены выученного умножения на свертку во времени, и были продемонстрированы для распознавания речи. [41]

Нейронные сети с задержкой времени

Нейронная сеть с временной задержкой (TDNN) была представлена ​​в 1987 году Алексом Вайбелем и др. и была одной из первых сверточных сетей, поскольку она достигла сдвиговой инвариантности. [42] Это было достигнуто за счет использования распределения веса в сочетании с тренировкой обратного распространения ошибки . [43] Таким образом, хотя он также использует пирамидальную структуру, как в неокогнитроне, он выполняет глобальную оптимизацию весов вместо локальной. [42]

TDNN — это сверточные сети, которые имеют общие веса во временном измерении. [44] Они позволяют обрабатывать речевые сигналы независимо от времени. В 1990 году Хэмпшир и Вайбель представили вариант, выполняющий двумерную свертку. [45] Поскольку эти TDNN работали на спектрограммах, полученная система распознавания фонем была инвариантной как к сдвигам во времени, так и к частоте. Это вдохновило на инвариантность перевода при обработке изображений с помощью CNN. [43] Мозаичное распределение выходов нейронов может охватывать временные этапы. [46]

TDNN сейчас [ когда? ] достичь наилучшей производительности в распознавании речи на большом расстоянии. [47]

Максимальное объединение

В 1990 году Ямагути и др. представил концепцию максимального пула, который представляет собой фиксированную операцию фильтрации, которая вычисляет и распространяет максимальное значение данного региона. Они сделали это, объединив TDNN с максимальным пулом, чтобы реализовать независимую от говорящего систему распознавания изолированных слов. [25] В своей системе они использовали несколько TDNN на слово, по одному на каждый слог . Результаты каждого TDNN по входному сигналу объединялись с использованием максимального пула, а выходные данные слоев пула затем передавались в сети, выполняющие фактическую классификацию слов.

Распознавание изображений с помощью CNN, обученных градиентным спуском

Система распознавания рукописных номеров почтовых индексов [48] включала свертки, в которых коэффициенты ядра тщательно разрабатывались вручную. [49]

Янн ЛеКун и др. (1989) [49] использовали обратное распространение ошибки для изучения коэффициентов ядра свертки непосредственно по изображениям рукописных чисел. Таким образом, обучение было полностью автоматическим, работало лучше, чем ручное проектирование коэффициентов, и подходило для более широкого спектра задач распознавания изображений и типов изображений.

Вэй Чжан и др. (1988) [12] [13] использовали обратное распространение ошибки для обучения ядер свертки CNN для распознавания алфавитов. Модель называлась Shift-Invariant Artificial Neural Network (SIANN) до того, как позже, в начале 1990-х годов, было придумано название CNN. Вэй Чжан и др. также применил ту же самую CNN без последнего полносвязного слоя для сегментации объектов медицинских изображений (1991) [50] и обнаружения рака молочной железы на маммограммах (1994). [51]

Этот подход стал основой современного компьютерного зрения .

ЛеНет-5

LeNet-5, новаторская 7-уровневая сверточная сеть, разработанная LeCun et al. в 1995 году [52] , классифицирующий цифры, был применен несколькими банками для распознавания рукописных чисел на чеках ( британский английский : checks ), оцифрованных в изображениях размером 32x32 пикселя. Способность обрабатывать изображения с более высоким разрешением требует все большего количества слоев сверточных нейронных сетей, поэтому этот метод ограничен доступностью вычислительных ресурсов.

Инвариантная к сдвигу нейронная сеть

Нейронная сеть, инвариантная к сдвигу, была предложена Вэй Чжан и др. для распознавания символов изображения в 1988 году. [12] [13] Это модифицированный неокогнитрон, сохраняющий только сверточные взаимосвязи между слоями признаков изображения и последним полностью связанным слоем. Модель была обучена с помощью обратного распространения ошибки. Алгоритм обучения был дополнительно усовершенствован в 1991 году [53] для улучшения его способности к обобщению. Архитектура модели была модифицирована путем удаления последнего полностью связанного слоя и применена для сегментации медицинских изображений (1991 г.) [50] и автоматического обнаружения рака молочной железы на маммограммах (1994 г.) . [51]

Другая конструкция, основанная на свертке, была предложена в 1988 году [54] для применения для разложения одномерных свернутых сигналов электромиографии посредством обратной свертки. Эта конструкция была изменена в 1989 году на другие конструкции, основанные на деконволюции. [55] [56]

Пирамида нейронной абстракции

Пирамида нейронной абстракции
Пирамида нейронной абстракции

Архитектура сверточных нейронных сетей с прямой связью была расширена в пирамиде нейронной абстракции [57] за счет боковых связей и связей обратной связи. Получающаяся в результате рекуррентная сверточная сеть позволяет гибко включать контекстную информацию для итеративного разрешения локальных неоднозначностей. В отличие от предыдущих моделей, выходные данные, подобные изображениям, были созданы с самым высоким разрешением, например, для задач семантической сегментации, реконструкции изображения и локализации объектов.

Реализации графического процессора

Хотя CNN были изобретены в 1980-х годах, их прорыв в 2000-х потребовал быстрого внедрения графических процессоров (GPU).

В 2004 году К.С. Ох и К. Юнг показали, что стандартные нейронные сети можно значительно ускорить на графических процессорах. Их реализация была в 20 раз быстрее, чем эквивалентная реализация на CPU . [58] [40] В 2005 году в другой статье также подчеркивалась ценность GPGPU для машинного обучения . [59]

Первая реализация CNN на графическом процессоре была описана в 2006 году К. Челлапилла и др. Их реализация была в 4 раза быстрее, чем эквивалентная реализация на ЦП. [60] В последующих работах также использовались графические процессоры, первоначально для других типов нейронных сетей (отличных от CNN), особенно для неконтролируемых нейронных сетей. [61] [62] [63] [64]

В 2010 году Дэн Чиресан и др. в IDSIA показали, что даже глубокие стандартные нейронные сети с множеством слоев можно быстро обучить на графическом процессоре с помощью контролируемого обучения с помощью старого метода, известного как обратное распространение ошибки . Их сеть превзошла предыдущие методы машинного обучения в тесте рукописных цифр MNIST . [65] В 2011 году они распространили этот подход на основе графического процессора на CNN, добившись коэффициента ускорения 60 и получив впечатляющие результаты. [23] В 2011 году они использовали такие CNN на графическом процессоре, чтобы выиграть конкурс по распознаванию изображений, где они впервые достигли сверхчеловеческой производительности. [66] В период с 15 мая 2011 г. по 30 сентября 2012 г. их телеканалы CNN выиграли не менее четырех имиджевых конкурсов. [67] [40] В 2012 году они также значительно улучшили лучшую в литературе производительность для нескольких баз данных изображений , включая базу данных MNIST , базу данных NORB, набор данных HWDB1.0 (китайские иероглифы) и набор данных CIFAR10 (набор данных 60 000 изображений размером 32x32 с маркировкой RGB ). [26]

Впоследствии аналогичный CNN на базе графического процессора, разработанный Алексом Крижевским и др. выиграл конкурс ImageNet Large Scale Visual Recognition Challenge 2012. [68] Очень глубокая CNN с более чем 100 слоями от Microsoft выиграла конкурс ImageNet 2015. [69]

Реализации Intel Xeon Phi

По сравнению с обучением CNN с использованием графических процессоров , сопроцессору Intel Xeon Phi уделялось мало внимания . [70] Заметным достижением является метод распараллеливания для обучения сверточных нейронных сетей на процессоре Intel Xeon Phi, получивший название Controlled Hogwild с произвольным порядком синхронизации (CHAOS). [71] CHAOS использует параллелизм на уровне потоков и SIMD , доступный в Intel Xeon Phi.

Отличительные особенности

Раньше для распознавания изображений использовались традиционные модели многослойного перцептрона (MLP). [ нужен пример ] Однако полная связность между узлами вызывала проклятие размерности и была вычислительно неразрешима для изображений с более высоким разрешением. Изображение размером 1000×1000 пикселей с цветовыми каналами RGB имеет 3 миллиона весов на полностью связанный нейрон, что слишком много для эффективной обработки в масштабе.

Слои CNN расположены в трех измерениях

Например, в CIFAR-10 изображения имеют размер всего 32×32×3 (32 в ширину, 32 в высоту, 3 цветовых канала), поэтому один полностью связанный нейрон в первом скрытом слое обычной нейронной сети будет иметь 32* 32*3 = 3072 веса. Однако изображение размером 200×200 приведет к тому, что нейроны будут иметь веса 200*200*3 = 120 000.

Кроме того, такая сетевая архитектура не учитывает пространственную структуру данных, обрабатывая входные пиксели, находящиеся далеко друг от друга, так же, как и пиксели, находящиеся близко друг к другу. При этом игнорируется локальность ссылки в данных с топологией сетки (например, изображениях) как в вычислительном, так и в семантическом плане. Таким образом, полная связность нейронов является расточительной для таких целей, как распознавание изображений, в которых доминируют пространственно-локальные входные шаблоны.

Сверточные нейронные сети — это варианты многослойных перцептронов, предназначенные для имитации поведения зрительной коры . Эти модели смягчают проблемы, связанные с архитектурой MLP, используя сильную пространственно-локальную корреляцию, присутствующую в естественных изображениях. В отличие от MLP, CNN имеют следующие отличительные особенности:

Вместе эти свойства позволяют CNN добиться лучшего обобщения проблем со зрением . Распределение веса значительно сокращает количество изучаемых свободных параметров , тем самым снижая требования к памяти для работы сети и позволяя обучать более крупные и мощные сети.

Строительные блоки

Архитектура CNN формируется стеком отдельных слоев, которые преобразуют входной объем в выходной объем (например, сохраняя оценки классов) с помощью дифференцируемой функции. Обычно используются несколько различных типов слоев. Они обсуждаются ниже.

Нейроны сверточного слоя (синий), связанные со своим рецептивным полем (красный)

Сверточный слой

Сверточный слой является основным строительным блоком CNN. Параметры слоя состоят из набора обучаемых фильтров (или ядер ), которые имеют небольшое восприимчивое поле, но простираются на всю глубину входного объема. Во время прямого прохода каждый фильтр свертывается по ширине и высоте входного объема, вычисляя скалярное произведение между записями фильтра и входными данными, создавая двумерную карту активации этого фильтра. В результате сеть изучает фильтры, которые активируются, когда она обнаруживает какой-то конкретный тип объекта в некоторой пространственной позиции во входных данных. [74] [№ 1]

Сложение карт активации для всех фильтров по измерению глубины формирует полный выходной объем слоя свертки. Таким образом, каждую запись в выходном объеме можно интерпретировать как выходной сигнал нейрона, который просматривает небольшую область входных данных. Каждая запись в карте активации использует один и тот же набор параметров, которые определяют фильтр.

Самоконтролируемое обучение было адаптировано для использования в сверточных слоях за счет использования разреженных патчей с высоким коэффициентом маски и слоя нормализации глобального ответа. [75]

Локальное подключение

Типичная архитектура CNN

При работе с многомерными входными данными, такими как изображения, непрактично соединять нейроны со всеми нейронами в предыдущем томе, поскольку такая сетевая архитектура не учитывает пространственную структуру данных. Сверточные сети используют пространственно-локальную корреляцию, обеспечивая разреженный шаблон локальной связи между нейронами соседних слоев: каждый нейрон связан только с небольшой областью входного объема.

Степень этой связи определяется гиперпараметром, называемым рецептивным полем нейрона. Связи локальны в пространстве (по ширине и высоте), но всегда распространяются по всей глубине входного объема. Такая архитектура гарантирует, что изученные ( британский английский : выученные ) фильтры производят самый сильный ответ на пространственно-локальный входной шаблон.

Пространственное расположение

Три гиперпараметра управляют размером выходного объема сверточного слоя: глубина, шаг и размер заполнения:

Пространственный размер выходного тома является функцией размера входного тома , размера поля ядра нейронов сверточного слоя, шага и количества заполнения нулями на границе. Тогда количество нейронов, «помещающихся» в данном объеме, равно:

Если это число не является целым числом , то шаги неверны, и нейроны не могут быть выложены плиткой, чтобы симметрично разместиться во входном объеме . В общем, установка заполнения нулями при шаге гарантирует, что входной и выходной объемы будут иметь одинаковый пространственный размер. Однако не всегда полностью необходимо задействовать все нейроны предыдущего слоя. Например, разработчик нейронной сети может решить использовать только часть заполнения.

Совместное использование параметров

Схема совместного использования параметров используется в сверточных слоях для управления количеством свободных параметров. Он основан на предположении, что если объект-заплатку полезно вычислить в какой-то пространственной позиции, то его также полезно вычислить и в других позициях. Обозначая одиночный двумерный срез глубины как срез глубины , нейроны в каждом срезе глубины ограничены использованием одних и тех же весов и смещений.

Поскольку все нейроны в одном срезе глубины имеют одни и те же параметры, прямой проход в каждом срезе глубины сверточного слоя можно вычислить как свертку весов нейронов с входным объемом. [nb 2] Поэтому наборы весов принято называть фильтром (или ядром ) , который свернут с входными данными. Результатом этой свертки является карта активации , а набор карт активации для каждого отдельного фильтра складываются вместе по измерению глубины для получения выходного объема. Совместное использование параметров способствует трансляционной инвариантности архитектуры CNN. [14]

Иногда предположение о совместном использовании параметров может не иметь смысла. Это особенно актуально, когда входные изображения в CNN имеют определенную центрированную структуру; для которого мы ожидаем, что в разных пространственных точках будут изучены совершенно разные функции. Одним из практических примеров является случай, когда входными данными являются лица, которые были центрированы на изображении: мы могли бы ожидать, что в разных частях изображения будут изучены разные особенности глаз или волос. В этом случае принято ослаблять схему совместного использования параметров и вместо этого просто называть уровень «локально подключенным уровнем».

Слой объединения

Максимальное объединение с фильтром 2x2 и шагом = 2

Другой важной концепцией CNN является объединение, которое представляет собой форму нелинейной понижающей выборки . Существует несколько нелинейных функций для реализации пула, наиболее распространенной из которых является максимальный пул . Он разбивает входное изображение на набор прямоугольников и для каждой такой подобласти выводит максимум.

Интуитивно понятно, что точное местоположение объекта менее важно, чем его приблизительное расположение относительно других объектов. В этом заключается идея использования пула в сверточных нейронных сетях. Уровень объединения служит для постепенного уменьшения пространственного размера представления, уменьшения количества параметров, объема памяти и объема вычислений в сети и, следовательно, для контроля переобучения . Это известно как понижающая выборка. Обычно в архитектуре CNN периодически вставляют слой пула между последовательными сверточными уровнями (за каждым из которых обычно следует функция активации, такая как уровень ReLU). [74] : 460–461  Хотя слои объединения способствуют локальной трансляционной инвариантности, они не обеспечивают глобальную трансляционную инвариантность в CNN, если не используется форма глобального объединения. [14] [73] Слой объединения обычно работает независимо на каждой глубине или срезе входных данных и изменяет их размеры в пространстве. Очень распространенной формой максимального пула является слой с фильтрами размера 2×2, применяемыми с шагом 2, который субдискретизирует каждый срез глубины во входных данных на 2 по ширине и высоте, отбрасывая 75% активаций:

максимальная операция

В дополнение к максимальному объединению, объединяющие единицы могут использовать другие функции, такие как среднее объединение или объединение 2 -нормы . Исторически часто использовалось среднее объединение, но в последнее время оно вышло из употребления по сравнению с максимальным объединением, которое на практике обычно работает лучше. [77]

Из-за эффектов быстрого пространственного уменьшения размера представления [ какой? ] в последнее время наблюдается тенденция к использованию фильтров меньшего размера [78] или полному отказу от слоев пула. [79]

Объединение ROI до размера 2x2. В этом примере предложение региона (входной параметр) имеет размер 7x5.

Объединение « области интереса » (также известное как объединение областей интереса) — это вариант максимального объединения, при котором выходной размер фиксирован, а входной прямоугольник является параметром. [80]

Пул — это метод понижающей дискретизации и важный компонент сверточных нейронных сетей для обнаружения объектов на основе архитектуры Fast R-CNN [81] .

Максимальное объединение каналов

Уровень операций CMP выполняет операцию MP вдоль стороны канала среди соответствующих позиций последовательных карт признаков с целью устранения избыточной информации. CMP позволяет собрать важные функции в меньшем количестве каналов, что важно для более детальной классификации изображений, требующей большего количества различающих функций. Между тем, еще одним преимуществом операции CMP является уменьшение количества каналов карт объектов перед их подключением к первому полносвязному (FC) уровню. Подобно операции MP, мы обозначаем входные карты признаков и выходные карты признаков слоя CMP как F ∈ R(C×M×N) и C ∈ R(c×M×N) соответственно, где C и c — это номера каналов входных и выходных карт объектов, M и N — это ширина и высота карт объектов соответственно. Обратите внимание, что операция CMP изменяет только номер канала карт объектов. Ширина и высота карт объектов не изменяются, в отличие от операции MP. [82]

слой ReLU

ReLU — это аббревиатура выпрямленной линейной единицы , введенная Кунихико Фукусимой в 1969 году. [36] [37] ReLU применяет ненасыщающую функцию активации . [68] Он эффективно удаляет отрицательные значения из карты активации, устанавливая их на ноль. [83] Это вносит нелинейность в функцию принятия решения и в сеть в целом, не затрагивая восприимчивые поля сверточных слоев. В 2011 году Ксавье Глоро, Антуан Бордес и Йошуа Бенджио обнаружили, что ReLU позволяет лучше обучать более глубокие сети [84] по сравнению с широко используемыми функциями активации до 2011 года.

Для увеличения нелинейности также можно использовать другие функции , например насыщающий гиперболический тангенс и сигмовидную функцию . ReLU часто предпочтительнее других функций, поскольку он обучает нейронную сеть в несколько раз быстрее без значительного снижения точности обобщения . [85]

Полностью связный слой

После нескольких сверточных слоев и слоев максимального пула окончательная классификация выполняется через полностью связанные слои. Нейроны в полностью связном слое имеют связи со всеми активациями предыдущего слоя, как это видно в обычных (несверточных) искусственных нейронных сетях . Таким образом, их активации можно вычислить как аффинное преобразование с умножением матрицы , за которым следует смещение смещения ( векторное сложение изученного или фиксированного термина смещения).

Слой потерь

«Уровень потерь» или « функция потерь » определяет, как обучение наказывает за отклонение между прогнозируемыми выходными данными сети и истинными метками данных (во время контролируемого обучения). В зависимости от конкретной задачи могут использоваться различные функции потерь .

Функция потерь Softmax используется для прогнозирования одного класса из K взаимоисключающих классов. [nb 3] Сигмоидальная кросс-энтропийная потеря используется для прогнозирования K независимых значений вероятности в . Евклидова потеря используется для регрессии к меткам с действительным значением .

Гиперпараметры

Гиперпараметры — это различные настройки, которые используются для управления процессом обучения. CNN используют больше гиперпараметров , чем стандартный многослойный перцептрон (MLP).

Размер ядра

Ядро — это количество пикселей, обработанных вместе. Обычно это выражается в размерах ядра, например, 2x2 или 3x3.

Заполнение

Заполнение — это добавление (обычно) пикселей со значением 0 на границах изображения. Это делается для того, чтобы граничные пиксели не были занижены (не потеряны) в выходных данных, поскольку обычно они участвуют только в одном экземпляре рецептивного поля. Применяемое дополнение обычно на единицу меньше соответствующего размера ядра. Например, сверточный слой, использующий ядра 3x3, получит 2-пиксельную площадку, то есть по 1 пикселю с каждой стороны изображения. [86]

Страйд

Шаг — это количество пикселей, на которое окно анализа перемещается на каждой итерации. Шаг 2 означает, что каждое ядро ​​смещено на 2 пикселя относительно своего предшественника.

Количество фильтров

Поскольку размер карты объектов уменьшается с глубиной, слои рядом с входным слоем, как правило, имеют меньше фильтров, а более высокие слои могут иметь больше. Чтобы уравнять вычисления на каждом слое, произведение значений признаков v a на положение пикселя поддерживается примерно постоянным на всех слоях. Для сохранения большего количества информации о входных данных потребуется, чтобы общее количество активаций (количество карт объектов, умноженное на количество позиций пикселей) не уменьшалось от одного слоя к другому.

Количество карт признаков напрямую влияет на емкость и зависит от количества доступных примеров и сложности задачи.

Размер фильтра

Общие размеры фильтров, встречающиеся в литературе, сильно различаются и обычно выбираются на основе набора данных.

Задача состоит в том, чтобы найти правильный уровень детализации, чтобы создавать абстракции в нужном масштабе с учетом конкретного набора данных и без переобучения .

Тип и размер пула

Обычно используется максимальное объединение , часто с размером 2x2. Это означает, что входные данные значительно уменьшаются , что снижает затраты на обработку.

Большие объемы входных данных могут потребовать объединения 4×4 на нижних уровнях. [87] Увеличение пула уменьшает размерность сигнала и может привести к неприемлемой потере информации . Зачастую лучше всего работают непересекающиеся окна пула. [77]

Расширение

Расширение предполагает игнорирование пикселей внутри ядра. Это потенциально уменьшает обработку/память без значительной потери сигнала. Расширение 2 в ядре 3x3 расширяет ядро ​​до 5x5, при этом все еще обрабатывается 9 (равномерно расположенных) пикселей. Соответственно, расширение 4 расширяет ядро ​​до 9x9. [88] [89]

Эквивариантность перевода и псевдонимы

Обычно предполагается, что CNN инвариантны к сдвигам входных данных. Слои свертки или объединения внутри CNN, шаг которых не превышает единицы, действительно эквивалентны переводам входных данных. [73] Однако слои с шагом больше единицы игнорируют теорему выборки Найквиста-Шеннона и могут привести к сглаживанию входного сигнала . [73] Хотя в принципе CNN способны реализовывать фильтры сглаживания, наблюдалось что на практике этого не происходит [90] и приводят к моделям, неэквивариантным переводам. Более того, если CNN использует полносвязные слои, трансляционная эквивалентность не подразумевает трансляционную инвариантность, поскольку полносвязные слои не инвариантны к сдвигам входных данных. [91] [14] Одним из решений для обеспечения полной трансляционной инвариантности является отказ от понижающей выборки во всей сети и применение глобального среднего пула на последнем уровне. [73] Кроме того, было предложено несколько других частичных решений, таких как сглаживание перед операциями понижения дискретизации, [92] сети пространственных преобразователей, [93] увеличение данных , субдискретизация в сочетании с объединением в пул, [14] и капсульные нейронные сети . [94]

Оценка

Точность окончательной модели основана на части набора данных, выделенной в начале и часто называемой тестовым набором. В других случаях применяются такие методы, как k -кратная перекрестная проверка . Другие стратегии включают использование конформного предсказания . [95] [96]

Методы регуляризации

Регуляризация — это процесс введения дополнительной информации для решения некорректной задачи или предотвращения переобучения . CNN используют различные типы регуляризации.

Эмпирический

Выбывать

Поскольку полносвязный слой занимает большую часть параметров, он склонен к переобучению. Одним из методов уменьшения переоснащения является dropout , введенный в 2014 году. [97] [98] На каждом этапе обучения отдельные узлы либо «выпадают» из сети (игнорируются) с вероятностью, либо сохраняются с вероятностью , так что сокращенная сеть левый; входящие и исходящие ребра к выпавшему узлу также удаляются. На этом этапе на данных обучается только сокращенная сеть. Удаленные узлы затем повторно вставляются в сеть с их первоначальными весами.

На этапах обучения обычно составляет 0,5; для входных узлов оно обычно намного выше, поскольку информация напрямую теряется, когда входные узлы игнорируются.

Во время тестирования после завершения обучения нам в идеале хотелось бы найти выборочное среднее значение всех возможных исключенных сетей; к сожалению, это невозможно для больших значений . Однако мы можем найти приближение, используя полную сеть с выходными данными каждого узла, взвешенными с коэффициентом , поэтому ожидаемое значение выходных данных любого узла такое же, как и на этапах обучения. Это самый большой вклад метода отсева: хотя он эффективно генерирует нейронные сети и, как таковой, позволяет комбинировать модели, во время тестирования необходимо тестировать только одну сеть.

Избегая обучения всех узлов на всех обучающих данных, отсев уменьшает переобучение. Метод также значительно повышает скорость обучения. Это делает комбинацию моделей практичной даже для глубоких нейронных сетей . Кажется, что этот метод уменьшает взаимодействие узлов, что приводит к тому, что они изучают более надежные функции [ необходимы пояснения ] , которые лучше обобщаются на новые данные.

DropConnect

DropConnect — это обобщение исключения, при котором с вероятностью может быть отброшено каждое соединение, а не каждый выходной блок . Таким образом, каждый блок получает входные данные от случайного подмножества блоков на предыдущем уровне. [99]

DropConnect аналогичен исключению, поскольку он вводит динамическую разреженность в модели, но отличается тем, что разреженность связана с весами, а не с выходными векторами слоя. Другими словами, полностью связанный уровень с DropConnect становится разреженным слоем, в котором соединения выбираются случайным образом на этапе обучения.

Стохастическое объединение

Основным недостатком Dropout является то, что он не дает тех же преимуществ для сверточных слоев, где нейроны не полностью связаны.

Еще до Dropout, в 2013 году, метод, называемый стохастическим объединением, [100] традиционные детерминированные операции объединения были заменены стохастической процедурой, где активация в каждой области объединения выбирается случайным образом в соответствии с полиномиальным распределением , заданным действиями в объединении. область, край. Этот подход не содержит гиперпараметров и может сочетаться с другими подходами к регуляризации, такими как исключение и увеличение данных .

Альтернативный взгляд на стохастическое объединение состоит в том, что оно эквивалентно стандартному максимальному объединению, но со многими копиями входного изображения, каждая из которых имеет небольшие локальные деформации . Это похоже на явные упругие деформации входных изображений [101] , что обеспечивает превосходную производительность при работе с набором данных MNIST . [101] Использование стохастического объединения в многослойной модели приводит к экспоненциальному числу деформаций, поскольку выборка в более высоких слоях не зависит от выборки в нижних слоях.

Искусственные данные

Поскольку степень переобучения модели определяется как ее мощностью, так и объемом обучения, которое она получает, предоставление сверточной сети большего количества обучающих примеров может уменьшить переобучение. Поскольку доступных данных для обучения часто недостаточно, особенно если учесть, что некоторую часть следует сохранить для последующего тестирования, есть два подхода: либо сгенерировать новые данные с нуля (если это возможно), либо изменить существующие данные для создания новых. Последний используется с середины 1990-х годов. [52] Например, входные изображения можно обрезать, вращать или масштабировать для создания новых примеров с теми же метками, что и исходный обучающий набор. [102]

Явный

Ранняя остановка

Один из самых простых способов предотвратить переобучение сети — просто остановить обучение до того, как произойдет переобучение. Недостатком этого является то, что процесс обучения останавливается.

Количество параметров

Еще один простой способ предотвратить переоснащение — ограничить количество параметров, обычно путем ограничения количества скрытых модулей в каждом слое или ограничения глубины сети. Для сверточных сетей размер фильтра также влияет на количество параметров. Ограничение количества параметров напрямую ограничивает прогнозирующую способность сети, уменьшая сложность функции, которую она может выполнять с данными, и, таким образом, ограничивает количество переобучения. Это эквивалентно « нулевой норме ».

Снижение веса

Простая форма добавленного регуляризатора — это затухание веса, которое просто добавляет дополнительную ошибку, пропорциональную сумме весов ( норма L1 ) или квадрату величины ( норма L2 ) весового вектора, к ошибке в каждом узле. Уровень приемлемой сложности модели можно снизить, увеличив константу пропорциональности (гиперпараметр «альфа»), тем самым увеличив штраф за большие весовые векторы.

Регуляризация L2 — наиболее распространенная форма регуляризации. Это можно реализовать путем штрафования квадратов всех параметров непосредственно в цели. Регуляризация L2 имеет интуитивную интерпретацию, заключающуюся в строгом наказании пиковых весовых векторов и предпочтении диффузных весовых векторов. Из-за мультипликативного взаимодействия между весами и входными данными это имеет полезное свойство, побуждающее сеть использовать все свои входные данные понемногу, а не часто использовать некоторые из своих входных данных.

Регуляризация L1 также распространена. Это делает весовые векторы разреженными во время оптимизации. Другими словами, нейроны с регуляризацией L1 в конечном итоге используют только разреженное подмножество своих наиболее важных входных данных и становятся почти инвариантными к зашумленным входным сигналам. Регуляризацию L1 и L2 можно комбинировать; это называется эластичной сетевой регуляризацией .

Максимальные ограничения нормы

Другая форма регуляризации — установить абсолютную верхнюю границу величины весового вектора для каждого нейрона и использовать прогнозируемый градиентный спуск для обеспечения соблюдения ограничения. На практике это соответствует обычному обновлению параметров, а затем обеспечению соблюдения ограничения путем фиксации весового вектора каждого нейрона для удовлетворения . Типичные значения порядка 3–4. В некоторых статьях сообщается об улучшениях [103] при использовании этой формы регуляризации.

Иерархические системы координат

При объединении теряются точные пространственные отношения между частями высокого уровня (такими как нос и рот на изображении лица). Эти отношения необходимы для распознавания личности. Перекрытие пулов, так что каждый объект встречается в нескольких пулах, помогает сохранить информацию. Сам по себе перевод не может экстраполировать понимание геометрических отношений на радикально новую точку зрения, например, на другую ориентацию или масштаб. С другой стороны, люди очень хорошо умеют экстраполировать; увидев новую форму, они смогут распознать ее с другой точки зрения. [104]

Более ранний распространенный способ решения этой проблемы — обучение сети на преобразованных данных в разных ориентациях, масштабах, освещении и т. д., чтобы сеть могла справиться с этими изменениями. Это требует больших вычислительных ресурсов для больших наборов данных. Альтернативой является использование иерархии систем координат и использование группы нейронов для представления сочетания формы объекта и его положения относительно сетчатки . Поза относительно сетчатки — это взаимосвязь между системой координат сетчатки и системой координат внутренних особенностей. [105]

Таким образом, один из способов представить что-либо — это встроить в него систему координат. Это позволяет распознавать крупные черты лица, используя согласованность поз их частей (например, позы носа и рта позволяют последовательно прогнозировать позу всего лица). Этот подход гарантирует, что объект более высокого уровня (например, лицо) присутствует, когда объект более низкого уровня (например, нос и рот) соглашается с прогнозом позы. Векторы активности нейронов, представляющие позу («векторы позы»), позволяют осуществлять пространственные преобразования, моделируемые как линейные операции, которые облегчают сети изучение иерархии визуальных объектов и обобщение точек зрения. Это похоже на то, как зрительная система человека накладывает рамки координат для представления форм. [106]

Приложения

Распознавание изображений

CNN часто используются в системах распознавания изображений . В 2012 году сообщалось о частоте ошибок в базе данных MNIST 0,23% . [26] В другой статье об использовании CNN для классификации изображений сообщается, что процесс обучения был «на удивление быстрым»; в той же статье лучшие опубликованные результаты по состоянию на 2011 год были достигнуты в базе данных MNIST и базе данных NORB. [23] Впоследствии аналогичная CNN под названием AlexNet [107] выиграла конкурс ImageNet Large Scale Visual Recognition Challenge 2012.

Применительно к распознаванию лиц CNN добились значительного снижения частоты ошибок. [108] В другой статье сообщалось о 97,6% распознавании «5600 неподвижных изображений более 10 предметов». [19] CNN использовались для объективной оценки качества видео после ручного обучения; полученная система имела очень низкую среднеквадратическую ошибку . [46]

Масштабный конкурс визуального распознавания ImageNet — это эталон в классификации и обнаружении объектов, в котором участвуют миллионы изображений и сотни классов объектов. В ILSVRC 2014, [109] крупномасштабном соревновании по визуальному распознаванию, почти каждая команда с высоким рейтингом использовала CNN в качестве базовой структуры. Победитель GoogLeNet [110] (основатель DeepDream ) увеличил среднюю точность обнаружения объектов до 0,439329 и снизил ошибку классификации до 0,06656, что является лучшим результатом на сегодняшний день. В его сети применено более 30 слоев. Производительность сверточных нейронных сетей в тестах ImageNet была близка к показателям людей. [111] Лучшие алгоритмы по-прежнему с трудом справляются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий в руке перо. У них также возникают проблемы с изображениями, искаженными фильтрами, что является все более распространенным явлением в современных цифровых камерах. Напротив, подобные изображения редко беспокоят людей. Однако у людей, как правило, возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по детальным категориям, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим. [ нужна цитата ]

В 2015 году многослойная CNN продемонстрировала способность распознавать лица под разными углами, в том числе перевернутыми, даже при частичном закрытии, с конкурентоспособными характеристиками. Сеть была обучена на базе данных из 200 000 изображений, включающих лица под разными углами и ориентациями, а также еще 20 миллионов изображений без лиц. Они использовали пакеты по 128 изображений в течение 50 000 итераций. [112]

Видео анализ

По сравнению с доменами данных изображений, работы по применению CNN для классификации видео относительно мало. Видео сложнее изображений, поскольку оно имеет другое (временное) измерение. Тем не менее, были изучены некоторые расширения CNN в область видео. Один из подходов состоит в том, чтобы рассматривать пространство и время как эквивалентные измерения входных данных и выполнять свертки как во времени, так и в пространстве. [113] [114] Другой способ — объединить характеристики двух сверточных нейронных сетей: одной для пространственного и одной для временного потока. [115] [116] [117] Рекуррентные единицы долговременной краткосрочной памяти (LSTM) обычно включаются после CNN для учета зависимостей между кадрами или между клипами. [118] [119] Были введены схемы обучения без учителя для обучения пространственно-временных характеристик, основанные на сверточных вентилируемых ограниченных машинах Больцмана [120] и независимом анализе подпространства. [121] Это приложение можно увидеть в модели преобразования текста в видео . [122]

Обработка естественного языка

CNN также использовались для обработки естественного языка . Модели CNN эффективны для решения различных задач НЛП и достигли отличных результатов в семантическом анализе , [123] поиске поисковых запросов, [124] моделировании предложений, [125] классификации, [126] прогнозировании [127] и других традиционных задачах НЛП. [128] По сравнению с традиционными методами обработки языка, такими как рекуррентные нейронные сети , CNN могут представлять различные контекстуальные реалии языка, которые не полагаются на предположение о последовательностях рядов, в то время как RNN лучше подходят, когда требуется классическое моделирование временных рядов. [129] [130] [131] [132]

Обнаружение аномалий

CNN с одномерными свертками использовалась во временных рядах в частотной области (спектральный остаток) с помощью неконтролируемой модели для обнаружения аномалий во временной области. [133]

Открытие лекарств

CNN использовались при открытии лекарств . Прогнозирование взаимодействия между молекулами и биологическими белками может определить потенциальные методы лечения. В 2015 году Atomwise представила AtomNet, первую нейронную сеть глубокого обучения для разработки лекарств на основе структуры . [134] Система обучается непосредственно на трехмерных представлениях химических взаимодействий. Подобно тому, как сети распознавания изображений учатся объединять меньшие, пространственно близкие элементы в более крупные и сложные структуры, [135] AtomNet обнаруживает химические особенности, такие как ароматичность , атомы углерода sp 3 и водородные связи . Впоследствии AtomNet использовался для прогнозирования новых биомолекул -кандидатов для лечения множества заболеваний, в первую очередь для лечения вируса Эбола [136] и рассеянного склероза . [137]

игра в шашки

CNN использовались в игре в шашки . С 1999 по 2001 год Фогель и Челлапилла опубликовали статьи, показывающие, как сверточная нейронная сеть может научиться играть в шашку , используя коэволюцию. В процессе обучения не использовались предшествующие человеческие профессиональные игры, а, скорее, основное внимание уделялось минимальному набору информации, содержащейся в шахматной доске: расположению и типу фигур, а также разнице в количестве фигур на двух сторонах. В конечном итоге программа ( Blondie24 ) была протестирована на 165 играх против игроков и заняла высшие 0,4%. [138] [139] Он также одержал победу над программой Chinook на ее «экспертном» уровне игры. [140]

Идти

CNN использовались в компьютерном Go . В декабре 2014 года Кларк и Сторки опубликовали статью, показывающую, что CNN, обученная контролируемым обучением на основе базы данных профессиональных игр людей, может превзойти GNU Go и выиграть несколько игр против поиска по дереву Монте-Карло Fuego 1.1 за долю времени, которое потребовалось Fuego играть. [141] Позже было объявлено, что большая 12-слойная сверточная нейронная сеть правильно предсказала профессиональный ход в 55% позиций, что соответствует точности игрока- человека с 6 даном . Когда обученная сверточная сеть использовалась непосредственно для игр в Го, без какого-либо поиска, она превзошла традиционную программу поиска GNU Go в 97% игр и сравнялась по производительности с программой поиска по дереву Монте-Карло Fuego, имитирующей десять тысяч игр (около миллион позиций) за ход. [142]

Пара CNN для выбора ходов («политическая сеть») и оценки позиций («сеть ценности»), управляющих MCTS, использовалась AlphaGo , первой, кто обыграл лучшего игрока-человека того времени. [143]

Прогнозирование временных рядов

Рекуррентные нейронные сети обычно считаются лучшими архитектурами нейронных сетей для прогнозирования временных рядов (и моделирования последовательностей в целом), но недавние исследования показывают, что сверточные сети могут работать сопоставимо или даже лучше. [144] [11] Расширенные свертки [145] могут позволить одномерным сверточным нейронным сетям эффективно изучать зависимости временных рядов. [146] Свертки могут быть реализованы более эффективно, чем решения на основе RNN, и они не страдают от исчезновения (или взрыва) градиентов. [147] Сверточные сети могут обеспечить повышенную эффективность прогнозирования, когда имеется несколько похожих временных рядов, на которых можно учиться. [148] CNN также можно применять для дальнейших задач анализа временных рядов (например, классификации временных рядов [149] или квантильного прогнозирования [150] ).

Культурное наследие и наборы 3D-данных

Поскольку археологические находки, такие как глиняные таблички с клинописью , все чаще приобретаются с помощью 3D-сканеров , становятся доступными первые наборы эталонных данных, такие как HeiCuBeDa [151] , предоставляющие почти 2000 нормализованных наборов 2D- и 3D-данных, подготовленных с помощью GigaMesh Software Framework . [152] Таким образом, измерения на основе кривизны используются в сочетании с геометрическими нейронными сетями (GNN), например, для классификации периода тех глиняных табличек, которые являются одними из старейших документов истории человечества. [153] [154]

Тонкая настройка

Для многих приложений данные обучения менее доступны. Сверточные нейронные сети обычно требуют большого объема обучающих данных, чтобы избежать переобучения . Распространенным методом является обучение сети на большем наборе данных из связанной области. После того как параметры сети сошлись, выполняется дополнительный этап обучения с использованием внутридоменных данных для точной настройки весов сети. Это называется трансферным обучением . Более того, этот метод позволяет успешно применять сверточные сетевые архитектуры для решения задач с крошечными обучающими наборами. [155]

Человеческие интерпретируемые объяснения

Сквозное обучение и прогнозирование — обычная практика в компьютерном зрении . Однако для таких критически важных систем , как беспилотные автомобили, требуются понятные человеку объяснения . [156] Благодаря недавним достижениям в области визуальной значимости , пространственного внимания и временного внимания , наиболее важные пространственные области/временные моменты могут быть визуализированы, чтобы оправдать предсказания CNN. [157] [158]

Связанные архитектуры

Глубокие Q-сети

Глубокая Q-сеть (DQN) — это тип модели глубокого обучения, которая сочетает в себе глубокую нейронную сеть с Q-обучением , формой обучения с подкреплением . В отличие от более ранних агентов обучения с подкреплением, DQN, использующие CNN, могут учиться непосредственно на многомерных сенсорных входных данных посредством обучения с подкреплением. [159]

Предварительные результаты были представлены в 2014 году, а сопроводительная статья — в феврале 2015 года. [160] В исследовании описывалось приложение для игр Atari 2600 . Этому предшествовали другие модели глубокого обучения с подкреплением. [161]

Сети глубоких убеждений

Сверточные сети глубокого убеждения (CDBN) имеют структуру, очень похожую на сверточные нейронные сети, и обучаются аналогично сетям глубокого убеждения. Поэтому они используют двумерную структуру изображений, как это делают CNN, и используют предварительное обучение, например, сети глубокого убеждения . Они предоставляют общую структуру, которую можно использовать во многих задачах обработки изображений и сигналов. Результаты сравнительного тестирования стандартных наборов данных изображений, таких как CIFAR [162], были получены с использованием CDBN. [163]

Известные библиотеки

Смотрите также

Примечания

  1. ^ Применительно к другим типам данных, кроме данных изображения, например звуковым данным, «пространственное положение» может по-разному соответствовать различным точкам во временной области , частотной области или других математических пространствах .
  2. ^ отсюда и название «сверточный слой».
  3. ^ Так называемые категориальные данные .

Рекомендации

  1. ^ аб Венкатесан, Рагав; Ли, Баоксин (23 октября 2017 г.). Сверточные нейронные сети в визуальных вычислениях: краткое руководство. ЦРК Пресс. ISBN 978-1-351-65032-8. Архивировано из оригинала 16 октября 2023 г. Проверено 13 декабря 2020 г.
  2. ^ аб Балас, Валентина Э.; Кумар, Рагвендра; Шривастава, Раджшри (19 ноября 2019 г.). Последние тенденции и достижения в области искусственного интеллекта и Интернета вещей. Спрингер Природа. ISBN 978-3-030-32644-9. Архивировано из оригинала 16 октября 2023 г. Проверено 13 декабря 2020 г.
  3. ^ Чжан, Инцзе; Скоро, Хон Геок; Йе, Донсен; Фу, Джерри Ин Си; Чжу, Куньпэн (сентябрь 2020 г.). «Мониторинг процесса плавления в порошковом слое с помощью машинного зрения с помощью гибридных сверточных нейронных сетей». Транзакции IEEE по промышленной информатике . 16 (9): 5769–5779. дои : 10.1109/TII.2019.2956078. ISSN  1941-0050. S2CID  213010088. Архивировано из оригинала 31 июля 2023 г. Проверено 12 августа 2023 г.
  4. ^ Червяков, Н.И.; Ляхов, П.А.; Дерябин, М.А.; Нагорнов Н.Н.; Валуева, М.В.; Валуев, Г.В. (сентябрь 2020 г.). «Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети». Нейрокомпьютинг . 407 : 439–453. doi : 10.1016/j.neucom.2020.04.018. S2CID  219470398. Архивировано из оригинала 29 июня 2023 г. Проверено 12 августа 2023 г. Сверточные нейронные сети представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, обнаружение вредоносных программ, анализ временных рядов в финансах и многие другие.
  5. ^ Аб Хабиби, Агдам, Хамед (30 мая 2017 г.). Руководство по сверточным нейронным сетям: практическое применение для обнаружения и классификации дорожных знаков . Херави, Эльназ Джахани. Чам, Швейцария. ISBN 9783319575490. ОКЛК  987790957.{{cite book}}: CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link)
  6. ^ Атлас, Хомма и Маркс. «Искусственная нейронная сеть для пространственно-временных биполярных паттернов: применение к классификации фонем» (PDF) . Нейронные системы обработки информации (NIPS, 1987) . 1 . Архивировано (PDF) из оригинала 14 апреля 2021 г.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  7. ^ Валуева, М.В.; Нагорнов Н.Н.; Ляхов, П.А.; Валуев Г.В.; Червяков Н.И. (2020). «Применение системы остаточных чисел для снижения затрат на оборудование при реализации сверточной нейронной сети». Математика и компьютеры в моделировании . Эльзевир Б.В. 177 : 232–243. doi : 10.1016/j.matcom.2020.04.031. ISSN  0378-4754. S2CID  218955622. Сверточные нейронные сети — перспективный инструмент для решения задачи распознавания образов.
  8. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Шраувен, Бенджамин (1 января 2013 г.). Берджес, CJC; Ботту, Л.; Веллинг, М.; Гахрамани, З.; Вайнбергер, KQ (ред.). Глубокие рекомендации по музыке на основе контента (PDF) . Curran Associates, Inc., стр. 2643–2651. Архивировано (PDF) из оригинала 07 марта 2022 г. Проверено 31 марта 2022 г.
  9. ^ Коллобер, Ронан; Уэстон, Джейсон (1 января 2008 г.). «Единая архитектура обработки естественного языка». Материалы 25-й международной конференции по машинному обучению ICML '08 . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 160–167. дои : 10.1145/1390156.1390177. ISBN 978-1-60558-205-4. S2CID  2617020.
  10. ^ Авилов, Алексей; Римбер, Себастьян; Попов, Антон; Буген, Лоран (июль 2020 г.). «Методы глубокого обучения для улучшения интраоперационного обнаружения осведомленности по электроэнцефалографическим сигналам». 42-я ежегодная международная конференция Общества инженерии в медицине и биологии IEEE (EMBC), 2020 г. (PDF) . Том. 2020. Монреаль, Квебек, Канада: IEEE. стр. 142–145. дои : 10.1109/EMBC44109.2020.9176228. ISBN 978-1-7281-1990-8. PMID  33017950. S2CID  221386616. Архивировано (PDF) из оригинала 19 мая 2022 г. Проверено 21 июля 2023 г.
  11. ^ аб Цантекидис, Авраам; Пассалис, Николаос; Тефас, Анастасиос; Канниайнен, Юхо; Габбуж, Монсеф; Иосифидис, Александрос (июль 2017 г.). «Прогнозирование цен на акции из книги лимитных ордеров с использованием сверточных нейронных сетей». 19-я конференция IEEE по бизнес-информатике (CBI) , 2017 г. Салоники, Греция: IEEE. стр. 7–12. дои : 10.1109/CBI.2017.23. ISBN 978-1-5386-3035-8. S2CID  4950757.
  12. ^ abc Чжан, Вэй (1988). «Нейронная сеть распознавания образов, инвариантная к сдвигу, и ее оптическая архитектура». Материалы ежегодной конференции Японского общества прикладной физики . Архивировано из оригинала 23 июня 2020 г. Проверено 22 июня 2020 г.
  13. ^ abc Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура». Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z. дои : 10.1364/AO.29.004790. PMID  20577468. Архивировано из оригинала 06 февраля 2017 г. Проверено 22 сентября 2016 г.
  14. ^ abcdef Мутон, Коэнраад; Майбург, Йоханнес К.; Давел, Марели Х. (2020). «Шаг и инвариантность трансляции в CNNS». В Гербере, Аурона (ред.). Исследования искусственного интеллекта . Коммуникации в компьютерной и информатике. Том. 1342. Чам: Международное издательство Springer. стр. 267–281. arXiv : 2103.10097 . дои : 10.1007/978-3-030-66151-9_17. ISBN 978-3-030-66151-9. S2CID  232269854. Архивировано из оригинала 27 июня 2021 г. Проверено 26 марта 2021 г.
  15. Курцман, Томас (20 августа 2019 г.). «Скрытая предвзятость в наборе данных DUD-E приводит к вводящей в заблуждение эффективности глубокого обучения при виртуальном скрининге на основе структур». ПЛОС ОДИН . 14 (8): e0220113. Бибкод : 2019PLoSO..1420113C. дои : 10.1371/journal.pone.0220113 . ПМК 6701836 . ПМИД  31430292. 
  16. ^ abc Фукусима, К. (2007). «Неокогнитрон». Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .
  17. ^ аб Хьюбель, Д.Х.; Визель, Теннесси (1 марта 1968 г.). «Рецептивные поля и функциональная архитектура полосатой коры обезьян». Журнал физиологии . 195 (1): 215–243. doi : 10.1113/jphysicalol.1968.sp008455. ISSN  0022-3751. ПМЦ 1557912 . ПМИД  4966457. 
  18. ^ аб Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251. PMID  7370364. S2CID  206775608. Архивировано (PDF) из оригинала 3 июня 2014 года . Проверено 16 ноября 2013 г.
  19. ^ аб Матусугу, Масакадзу; Кацухико Мори; Юсуке Митари; Юджи Канеда (2003). «Субъектное независимое распознавание выражения лица с надежным обнаружением лиц с использованием сверточной нейронной сети» (PDF) . Нейронные сети . 16 (5): 555–559. дои : 10.1016/S0893-6080(03)00115-1. PMID  12850007. Архивировано (PDF) из оригинала 13 декабря 2013 года . Проверено 17 ноября 2013 г.
  20. ^ Демистификация сверточных нейронных сетей: учебное пособие, основанное на перспективе согласованной фильтрации https://arxiv.org/abs/2108.11663v3
  21. ^ «Сверточные нейронные сети (LeNet) - документация DeepLearning 0.1» . Глубокое обучение 0.1 . ЛИЗА Лаборатория. Архивировано из оригинала 28 декабря 2017 года . Проверено 31 августа 2013 г.
  22. ^ Шолле, Франсуа (4 апреля 2017 г.). «Xception: глубокое обучение с глубоко разделяемыми извилинами». arXiv : 1610.02357 [cs.CV].
  23. ^ abc Чиресан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242. Архивировано (PDF) из оригинала 5 апреля 2022 года . Проверено 17 ноября 2013 г.
  24. ^ Крижевский , Алекс. «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Архивировано (PDF) из оригинала 25 апреля 2021 года . Проверено 17 ноября 2013 г.
  25. ^ аб Ямагути, Коичи; Сакамото, Кендзи; Акабане, Тосио; Фудзимото, Ёсидзи (ноябрь 1990 г.). Нейронная сеть для независимого от говорящего распознавания изолированных слов. Первая международная конференция по обработке разговорной речи (ICSLP 90). Кобе, Япония. Архивировано из оригинала 07 марта 2021 г. Проверено 4 сентября 2019 г.
  26. ^ abcd Чиресан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110. ISBN  978-1-4673-1226-4. OCLC  812295155. S2CID  2161592.
  27. ^ Ю, Фишер; Колтун, Владлен (30 апреля 2016 г.). «Многомасштабная агрегация контекста с помощью расширенных сверток». arXiv : 1511.07122 [cs.CV].
  28. ^ Чен, Лян-Че; Папандреу, Джордж; Шрофф, Флориан; Адам, Хартвиг ​​(05 декабря 2017 г.). «Переосмысление агрессивной свертки для семантической сегментации изображений». arXiv : 1706.05587 [cs.CV].
  29. ^ Дута, Ионут Космин; Георгеску, Мариана Юлиана; Ионеску, Раду Тудор (16 августа 2021 г.). «Контекстные сверточные нейронные сети». arXiv : 2108.07387 [cs.CV].
  30. ^ ЛеКун, Янн. «LeNet-5, сверточные нейронные сети». Архивировано из оригинала 24 февраля 2021 года . Проверено 16 ноября 2013 г.
  31. ↑ abc Махапаттанакул, Путтатида (11 ноября 2019 г.). «От человеческого зрения к компьютерному зрению — сверточная нейронная сеть (часть 3/4)». Середина . Архивировано из оригинала 25 мая 2021 года . Проверено 25 мая 2021 г.
  32. ^ Ван Дейк, Леонард Элиа; Квитт, Роланд; Денцлер, Себастьян Йохен; Грубер, Вальтер Роланд (2021). «Сравнение распознавания объектов у людей и глубоких сверточных нейронных сетей — исследование слежения за взглядом». Границы в неврологии . 15 : 750639. дои : 10.3389/fnins.2021.750639 . ISSN  1662-453X. ПМЦ 8526843 . ПМИД  34690686. 
  33. ^ аб Хьюбель, Д.Х.; Визель, Теннесси (октябрь 1959 г.). «Рецептивные поля отдельных нейронов полосатой коры головного мозга кошки». Дж. Физиол . 148 (3): 574–91. doi : 10.1113/jphysical.1959.sp006308. ПМЦ 1363130 . ПМИД  14403679. 
  34. ^ Дэвид Х. Хьюбель и Торстен Н. Визель (2005). Мозг и зрительное восприятие: история 25-летнего сотрудничества. Издательство Оксфордского университета, США. п. 106. ИСБН 978-0-19-517618-6. Архивировано из оригинала 16 октября 2023 г. Проверено 18 января 2019 г.
  35. ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение». Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L. дои : 10.1038/nature14539. PMID  26017442. S2CID  3074096.
  36. ^ аб Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225.
  37. ^ аб Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
  38. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
  39. ^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». 1993 (4-я) Международная конференция по компьютерному зрению . IEEE. стр. 121–128. дои : 10.1109/ICCV.1993.378228. ISBN 0-8186-3870-2.
  40. ^ abc Шмидхубер, Юрген (2015). «Глубокое обучение». Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527. PMID  16764513. S2CID  2309950. Архивировано из оригинала 19 апреля 2016 г. Проверено 20 января 2019 г. 
  41. ^ Хомма, Тоситеру; Лес Атлас; Роберт Маркс II (1988). «Искусственная нейронная сеть для пространственно-временных биполярных паттернов: применение к классификации фонем» (PDF) . Достижения в области нейронных систем обработки информации . 1 : 31–40. Архивировано (PDF) из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  42. ^ Аб Вайбель, Алекс (декабрь 1987 г.). Распознавание фонем с использованием нейронных сетей с задержкой . Заседание Института инженеров по электротехнике, информатике и связи (IEICE). Токио, Япония.
  43. ^ ab Александр Вайбель и др., Распознавание фонем с использованием нейронных сетей с временной задержкой. Архивировано 25 февраля 2021 г. в Wayback Machine. Транзакции IEEE по акустике, речи и обработке сигналов, том 37, № 3, стр. 328. - 339 Март 1989 года.
  44. ^ ЛеКун, Янн; Бенджио, Йошуа (1995). «Сверточные сети для изображений, речи и временных рядов». В Арбибе, Майкл А. (ред.). Справочник по теории мозга и нейронным сетям (второе изд.). Пресса МТИ. стр. 276–278. Архивировано из оригинала 28 июля 2020 г. Проверено 3 декабря 2019 г.
  45. ^ Джон Б. Хэмпшир и Александр Вайбель, Коннекционистские архитектуры для распознавания фонем нескольких говорящих. Архивировано 31 марта 2022 г. в Wayback Machine , Достижения в области нейронных систем обработки информации, 1990, Морган Кауфманн.
  46. ^ аб Ле Калле, Патрик; Кристиан Виар-Годин; Доминик Барба (2006). «Подход сверточных нейронных сетей для объективной оценки качества видео» (PDF) . Транзакции IEEE в нейронных сетях . 17 (5): 1316–1327. дои : 10.1109/TNN.2006.879766. PMID  17001990. S2CID  221185563. Архивировано (PDF) из оригинала 24 февраля 2021 года . Проверено 17 ноября 2013 г.
  47. ^ Ко, Том; Педдинти, Виджаядитья; Пови, Дэниел; Зельцер, Майкл Л.; Худанпур, Санджив (март 2018 г.). Исследование увеличения данных реверберирующей речи для надежного распознавания речи (PDF) . 42-я Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP 2017). Новый Орлеан, Луизиана, США. Архивировано (PDF) из оригинала 8 июля 2018 г. Проверено 4 сентября 2019 г.
  48. ^ Денкер, Дж.С., Гарднер, В.Р., Граф, Х.П., Хендерсон, Д., Ховард, Р.Э., Хаббард, В., Джекел, Л.Д., Бэйрд, Х.С. и Гайон (1989). Распознаватель нейронной сети для рукописных цифр почтового индекса. Архивировано 4 августа 2018 г. в Wayback Machine , AT&T Bell Laboratories.
  49. ^ ab Ю. Лекун, Б. Бозер, Дж. С. Денкер, Д. Хендерсон, Р. Э. Ховард, В. Хаббард, Л. Д. Джекел, Обратное распространение ошибки, применяемое к распознаванию рукописного почтового индекса. Архивировано 10 января 2020 г. в Wayback Machine ; AT&T Bell Laboratories
  50. ^ Аб Чжан, Вэй (1991). «Обработка изображений эндотелия роговицы человека на основе обучающей сети». Прикладная оптика . 30 (29): 4211–7. Бибкод : 1991ApOpt..30.4211Z. дои : 10.1364/AO.30.004211. PMID  20706526. Архивировано из оригинала 06 февраля 2017 г. Проверено 22 сентября 2016 г.
  51. ^ Аб Чжан, Вэй (1994). «Компьютерное обнаружение кластерных микрокальцинатов на цифровых маммограммах с использованием инвариантной к сдвигу искусственной нейронной сети». Медицинская физика . 21 (4): 517–24. Бибкод : 1994MedPh..21..517Z. дои : 10.1118/1.597177. PMID  8058017. Архивировано из оригинала 06 февраля 2017 г. Проверено 22 сентября 2016 г.
  52. ^ аб Лекун, Ю.; Джекель, LD; Ботту, Л.; Кортес, К.; Денкер, Дж. С.; Друкер, Х.; Гийон, И.; Мюллер, Украина; Сакингер, Э.; Симард, П.; Вапник, В. (август 1995 г.). Алгоритмы обучения классификации: сравнение распознавания рукописных цифр (PDF) . Всемирная научная. стр. 261–276. дои : 10.1142/2808. ISBN 978-981-02-2324-3. Архивировано (PDF) из оригинала 2 мая 2023 года.
  53. ^ Чжан, Вэй (1991). «Обратное распространение ошибок с весами минимальной энтропии: метод лучшего обобщения двумерных нейронных сетей, инвариантных к сдвигу». Материалы Международной совместной конференции по нейронным сетям . Архивировано из оригинала 6 февраля 2017 г. Проверено 22 сентября 2016 г.
  54. ^ Дэниел Граупе, Руи Вэнь Лю, Джордж С. Мошиц. «Применение нейронных сетей для обработки медицинских сигналов. Архивировано 28 июля 2020 г. в Wayback Machine ». В Proc. 27-я конференция IEEE по принятию решений и управлению, стр. 343–347, 1988 г.
  55. ^ Дэниел Граупе, Борис Верн, Г. Грюнер, Аарон Филд и Цю Хуан. «Разложение поверхностных сигналов ЭМГ на потенциалы действия отдельных волокон с помощью нейронной сети. Архивировано 4 сентября 2019 г. в Wayback Machine ». Учеб. Международный симпозиум IEEE. по схемам и системам, стр. 1008–1011, 1989.
  56. ^ Цю Хуан, Дэниел Граупе, И Фан Хуан, Руи Вэнь Лю. «Идентификация паттернов возбуждения нейрональных сигналов [ мертвая ссылка ] ». В Proc. 28-я конференция IEEE по принятию решений и управлению, стр. 266–271, 1989. https://ieeexplore.ieee.org/document/70115. Архивировано 31 марта 2022 г. в Wayback Machine.
  57. ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений (PDF) . Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963. ISBN 978-3-540-40722-5. S2CID  1304548. Архивировано (PDF) из оригинала 10 августа 2017 г. Проверено 28 декабря 2016 г.
  58. ^ О, КС; Юнг, К. (2004). «ГПУ-реализация нейронных сетей». Распознавание образов . 37 (6): 1311–1314. Бибкод : 2004PatRe..37.1311O. дои : 10.1016/j.patcog.2004.01.013.
  59. ^ Дэйв Стейнкраус; Патрис Симар; Ян Бак (2005). «Использование графических процессоров для алгоритмов машинного обучения». 12-я Международная конференция по анализу и распознаванию документов (ICDAR 2005) . стр. 1115–1119. дои : 10.1109/ICDAR.2005.251. Архивировано из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  60. ^ Кумар Челлапилла; Сид Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста ». Сувисофт. Архивировано из оригинала 18 мая 2020 г. Проверено 14 марта 2016 г.
  61. ^ Хинтон, GE; Осиндеро, С; Тех, YW (июль 2006 г.). «Алгоритм быстрого обучения для глубоких сетей доверия». Нейронные вычисления . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527. PMID  16764513. S2CID  2309950. 
  62. ^ Бенджио, Йошуа; Ламблин, Паскаль; Поповичи, Дэн; Ларошель, Хьюго (2007). «Жадное послойное обучение глубоких сетей» (PDF) . Достижения в области нейронных систем обработки информации : 153–160. Архивировано (PDF) из оригинала 02 июня 2022 г. Проверено 31 марта 2022 г.
  63. ^ Ранзато, МаркАурелио; Поултни, Кристофер; Чопра, Сумит; ЛеКун, Янн (2007). «Эффективное изучение разреженных представлений с помощью энергетической модели» (PDF) . Достижения в области нейронных систем обработки информации . Архивировано (PDF) из оригинала 22 марта 2016 г. Проверено 26 июня 2014 г.
  64. ^ Райна, Р; Мадхаван, А; Нг, Эндрю (14 июня 2009 г.). «Крупномасштабное глубокое обучение без учителя с использованием графических процессоров» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению. стр. 873–880. дои : 10.1145/1553374.1553486. ISBN 9781605585161. Архивировано (PDF) из оригинала 8 декабря 2020 г. Проверено 22 декабря 2023 г.
  65. ^ Чиресан, Дэн; Мейер, Ули; Гамбарделла, Лука; Шмидхубер, Юрген (2010). «Глубокие большие простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . дои : 10.1162/NECO_a_00052. PMID  20858131. S2CID  1918673.
  66. ^ "Таблица результатов конкурса IJCNN 2011" . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010. Архивировано из оригинала 17 января 2021 г. Проверено 14 января 2019 г.
  67. Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU». Архивировано из оригинала 19 декабря 2018 года . Проверено 14 января 2019 г.
  68. ^ аб Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386. ISSN  0001-0782. S2CID  195908774. Архивировано (PDF) из оригинала 16 мая 2017 г. Проверено 4 декабря 2018 г.
  69. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF) . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID  206594692. Архивировано (PDF) из оригинала 5 апреля 2022 г. Проверено 31 марта 2022 г.
  70. ^ Вибке, Андре; Планана, Сабри (2015). «Потенциал Intel (R) Xeon Phi для контролируемого глубокого обучения». 17-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям (2015 г.), 7-й Международный симпозиум IEEE по безопасности и защите киберпространства (2015 г.) и 12-я Международная конференция IEEE по встраиваемому программному обеспечению и системам (2015 г.) . IEEE Эксплор . IEEE 2015. стр. 758–765. doi :10.1109/HPCC-CSS-ICES.2015.45. ISBN 978-1-4799-8937-9. S2CID  15411954. Архивировано из оригинала 06 марта 2023 г. Проверено 31 марта 2022 г.
  71. ^ Вибке, Андре; Мемети, Суэйб; Планана, Сабри; Авраам, Аджит (2019). «ХАОС: схема распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi». Журнал суперкомпьютеров . 75 (1): 197–227. arXiv : 1702.07908 . doi : 10.1007/s11227-017-1994-x. S2CID  14135321.
  72. ^ Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». NIPS'12: Материалы 25-й Международной конференции по нейронным системам обработки информации — Том 1 . 1 : 1097–1105. Архивировано из оригинала 20 декабря 2019 г. Проверено 26 марта 2021 г. - через ACM.
  73. ^ abcde Азулай, Аарон; Вайс, Яир (2019). «Почему глубокие сверточные сети так плохо обобщают небольшие преобразования изображений?». Журнал исследований машинного обучения . 20 (184): 1–25. ISSN  1533-7928. Архивировано из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  74. ^ аб Жерон, Орельен (2019). Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow . Севастополь, Калифорния: O'Reilly Media. ISBN 978-1-492-03264-9., стр. 448
  75. ^ Рашка, Себастьян. «Впереди ИИ №5: Возрождение идей». журнал.sebastianraschka.com . Архивировано из оригинала 07 февраля 2023 г. Проверено 7 февраля 2023 г.
  76. ^ «Сверточные нейронные сети CS231n для визуального распознавания» . cs231n.github.io . Архивировано из оригинала 23 октября 2019 г. Проверено 25 апреля 2017 г.
  77. ^ Аб Шерер, Доминик; Мюллер, Андреас К.; Бенке, Свен (2010). «Оценка операций объединения в сверточных архитектурах для распознавания объектов» (PDF) . Искусственные нейронные сети (ICANN), 20-я Международная конференция по . Салоники, Греция: Springer. стр. 92–101. Архивировано (PDF) из оригинала 3 апреля 2018 г. Проверено 28 декабря 2016 г.
  78. ^ Грэм, Бенджамин (18 декабря 2014 г.). «Дробный максимальный пул». arXiv : 1412.6071 [cs.CV].
  79. ^ Спрингенберг, Йост Тобиас; Досовицкий, Алексей; Брокс, Томас; Ридмиллер, Мартин (21 декабря 2014 г.). «Стремление к простоте: вся сверточная сеть». arXiv : 1412.6806 [cs.LG].
  80. ^ Грел, Томаш (28 февраля 2017 г.). «Объяснение объединения регионов интересов» . deepsense.io . Архивировано из оригинала 2 июня 2017 г. Проверено 5 апреля 2017 г.
  81. ^ Гиршик, Росс (27 сентября 2015 г.). «Быстрый R-CNN». arXiv : 1504.08083 [cs.CV].
  82. ^ Ма, Жаньюй; Чанг, Дунлян; Се, Цзиянь; Дин, Ифэн; Вэнь, Шаого; Ли, Сяосюй; Си, Чжунвэй; Го, Цзюнь (2019). «Детальная классификация транспортных средств с модифицированными CNN с максимальным объединением каналов». Транзакции IEEE по автомобильным технологиям . Институт инженеров по электротехнике и электронике (IEEE). 68 (4): 3224–3233. дои : 10.1109/tvt.2019.2899972. ISSN  0018-9545. S2CID  86674074.
  83. ^ Романуке, Вадим (2017). «Подходящее количество и размещение ReLU в сверточных нейронных сетях». Научно-исследовательский вестник НТУУ «Киевский политехнический институт» . 1 (1): 69–78. дои : 10.20535/1810-0546.2017.1.88156 .
  84. ^ Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Архивировано из оригинала (PDF) 13 декабря 2016 г. Проверено 10 апреля 2023 г. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
  85. ^ Крижевский, А.; Суцкевер И.; Хинтон, GE (2012). «Классификация Imagenet с глубокими сверточными нейронными сетями» (PDF) . Достижения в области нейронных систем обработки информации . 1 : 1097–1105. Архивировано (PDF) из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  86. ^ «6.3. Padding and Stride — погружение в документацию Deep Learning 0.17.0» . d2l.ai . Архивировано из оригинала 12 августа 2021 г. Проверено 12 августа 2021 г.
  87. ^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)». adeshpande3.github.io . Архивировано из оригинала 21 ноября 2018 г. Проверено 4 декабря 2018 г.
  88. ^ Прёве, Поль-Луи (7 февраля 2018 г.). «Введение в различные типы сверток в глубоком обучении». Середина . Архивировано из оригинала 27 июля 2022 г. Проверено 27 июля 2022 г.
  89. ^ Со, Джэ Дук (12 марта 2018 г.). «Понимание 2D-операции расширенной свертки на примерах в Numpy и Tensorflow с...» Medium . Архивировано из оригинала 06.11.2021 . Проверено 12 августа 2021 г.
  90. ^ Рибейро, Антонио Х.; Шен, Томас Б. (2021). «Как сверточные нейронные сети справляются с псевдонимами». ICASSP 2021–2021 Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) . стр. 2755–2759. arXiv : 2102.07757 . doi : 10.1109/ICASSP39728.2021.9414627. ISBN 978-1-7281-7605-5. S2CID  231925012.
  91. ^ Майбург, Йоханнес К.; Мутон, Коэнраад; Давел, Марели Х. (2020). «Отслеживание инвариантности трансляции в CNNS». В Гербере, Аурона (ред.). Исследования искусственного интеллекта . Коммуникации в компьютерной и информатике. Том. 1342. Чам: Международное издательство Springer. стр. 282–295. arXiv : 2104.05997 . дои : 10.1007/978-3-030-66151-9_18. ISBN 978-3-030-66151-9. S2CID  233219976. Архивировано из оригинала 22 января 2022 г. Проверено 26 марта 2021 г.
  92. ^ Ричард, Чжан (25 апреля 2019 г.). Снова делаем сверточные сети инвариантными к сдвигу. ОСЛК  1106340711.
  93. ^ Ядеберг, Симонян, Зиссерман, Кавукчуоглу, Макс, Карен, Эндрю, Корай (2015). «Пространственные трансформаторные сети» (PDF) . Достижения в области нейронных систем обработки информации . 28 . Архивировано (PDF) из оригинала 25 июля 2021 г. Проверено 26 марта 2021 г. - через NIPS.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  94. ^ Э, Сабур, Сара Фрост, Николас Хинтон, Джеффри (26 октября 2017 г.). Динамическая маршрутизация между капсулами. ОСЛК  1106278545.{{cite book}}: CS1 maint: multiple names: authors list (link)
  95. ^ Матиз, Серджио; Барнер, Кеннет Э. (01 июня 2019 г.). «Индуктивный конформный предиктор для сверточных нейронных сетей: приложения к активному обучению классификации изображений». Распознавание образов . 90 : 172–182. Бибкод : 2019PatRe..90..172M. doi :10.1016/j.patcog.2019.01.035. ISSN  0031-3203. S2CID  127253432. Архивировано из оригинала 29 сентября 2021 г. Проверено 29 сентября 2021 г.
  96. ^ Вислендер, Хокан; Харрисон, Филип Дж.; Скогберг, Габриэль; Джексон, Соня; Фриден, Маркус; Карлссон, Йохан; Спьют, Ола; Уолби, Каролина (февраль 2021 г.). «Глубокое обучение с конформным прогнозированием для иерархического анализа крупномасштабных изображений тканей на цельном стекле». Журнал IEEE по биомедицинской и медицинской информатике . 25 (2): 371–380. дои : 10.1109/JBHI.2020.2996300 . ISSN  2168-2208. PMID  32750907. S2CID  219885788.
  97. ^ Шривастава, Нитиш; К. Джеффри Хинтон; Алексей Крижевский; Илья Суцкевер; Руслан Салахутдинов (2014). «Отсев: простой способ предотвратить переобучение нейронных сетей» (PDF) . Журнал исследований машинного обучения . 15 (1): 1929–1958. Архивировано (PDF) из оригинала 19 января 2016 г. Проверено 03 января 2015 г.
  98. ^ Карлос Э. Перес. «Язык шаблонов для глубокого обучения». Архивировано из оригинала 3 июня 2017 г. Проверено 15 июня 2016 г.
  99. ^ «Регуляризация нейронных сетей с использованием DropConnect | ICML 2013 | JMLR W&CP» . jmlr.org : 1058–1066. 13 февраля 2013 г. Архивировано из оригинала 12 августа 2017 г. Проверено 17 декабря 2015 г.
  100. ^ Зейлер, Мэтью Д.; Фергус, Роб (15 января 2013 г.). «Стохастическое объединение для регуляризации глубоких сверточных нейронных сетей». arXiv : 1301.3557 [cs.LG].
  101. ^ Аб Платт, Джон; Стейнкраус, Дэйв; Симард, Патрис Ю. (август 2003 г.). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов – исследования Microsoft». Исследования Майкрософт . Архивировано из оригинала 07.11.2017 . Проверено 17 декабря 2015 г.
  102. ^ Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [cs.NE].
  103. ^ «Отсев: простой способ предотвратить переобучение нейронных сетей» . jmlr.org . Архивировано из оригинала 05 марта 2016 г. Проверено 17 декабря 2015 г.
  104. ^ Хинтон, Джеффри (1979). «Некоторые демонстрации эффектов структурных описаний в мысленных образах». Когнитивная наука . 3 (3): 231–250. дои : 10.1016/s0364-0213(79)80008-7.
  105. ^ Рок, Ирвин. «Система отсчета». Наследие Соломона Аша: Очерки познания и социальной психологии (1990): 243–268.
  106. ^ Дж. Хинтон, Лекции Coursera по нейронным сетям, 2012 г., URL: https://www.coursera.org/learn/neural-networks. Архивировано 31 декабря 2016 г. в Wayback Machine.
  107. Дэйв Гершгорн (18 июня 2018 г.). «Внутренняя история того, как искусственный интеллект стал достаточно хорош, чтобы доминировать в Кремниевой долине». Кварц . Архивировано из оригинала 12 декабря 2019 года . Проверено 5 октября 2018 г.
  108. ^ Лоуренс, Стив; К. Ли Джайлз; А Чунг Цой; Эндрю Д. Бэк (1997). «Распознавание лиц: подход сверточной нейронной сети». Транзакции IEEE в нейронных сетях . 8 (1): 98–113. CiteSeerX 10.1.1.92.5813 . дои : 10.1109/72.554195. PMID  18255614. S2CID  2883848. 
  109. ^ «Крупномасштабный конкурс визуального распознавания ImageNet 2014 (ILSVRC2014)» . Архивировано из оригинала 5 февраля 2016 года . Проверено 30 января 2016 г.
  110. ^ Сегеди, Кристиан; Лю, Вэй; Цзя, Янцин; Сермане, Пьер; Рид, Скотт Э.; Ангелов, Драгомир; Эрхан, Дмитрий; Ванхук, Винсент; Рабинович, Андрей (2015). «Углубляемся с извилинами». Конференция IEEE по компьютерному зрению и распознаванию образов, CVPR 2015, Бостон, Массачусетс, США, 7–12 июня 2015 г. Компьютерное общество IEEE. стр. 1–9. arXiv : 1409.4842 . дои : 10.1109/CVPR.2015.7298594.
  111. ^ Русаковский, Ольга ; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпаты, Андрей ; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К.; Фей-Фей, Ли (2014). « Крупномасштабная задача визуального распознавания Image Net ». arXiv : 1409.0575 [cs.CV].
  112. ^ «Алгоритм распознавания лиц призван совершить революцию в поиске изображений» . Обзор технологий . 16 февраля 2015 г. Архивировано из оригинала 20 сентября 2020 г. Проверено 27 октября 2017 г.
  113. ^ Баккуш, Моэз; Мамалет, Франк; Вольф, Кристиан; Гарсия, Кристоф; Баскурт, Атилла (16 ноября 2011 г.). «Последовательное глубокое обучение для распознавания действий человека». В Салахе Альберт Али; Лепри, Бруно (ред.). Понимание человеческого поведения . Конспекты лекций по информатике. Том. 7065. Шпрингер Берлин Гейдельберг. стр. 29–39. CiteSeerX 10.1.1.385.4740 . дои : 10.1007/978-3-642-25446-8_4. ISBN  978-3-642-25445-1.
  114. ^ Цзи, Шуйван; Сюй, Вэй; Ян, Мин; Ю, Кай (01 января 2013 г.). «3D-сверточные нейронные сети для распознавания действий человека». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (1): 221–231. CiteSeerX 10.1.1.169.4046 . дои : 10.1109/TPAMI.2012.59. ISSN  0162-8828. PMID  22392705. S2CID  1923924. 
  115. ^ Хуан, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (2018). «Распознавание языка жестов на основе видео без временной сегментации». arXiv : 1801.10111 [cs.CV].
  116. ^ Карпати, Андрей и др. «Крупномасштабная классификация видео с помощью сверточных нейронных сетей. Архивировано 6 августа 2019 г. в Wayback Machine ». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). 2014.
  117. ^ Симоньян, Карен; Зиссерман, Эндрю (2014). «Двухпотоковые сверточные сети для распознавания действий в видео». arXiv : 1406.2199 [cs.CV].(2014).
  118. ^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W. дои : 10.3390/s18051657 . ISSN  1424-8220. ПМЦ 5982167 . PMID  29789447. Архивировано (PDF) из оригинала 1 марта 2021 г. Проверено 14 сентября 2018 г. 
  119. ^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). «Совместная локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. дои : 10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
  120. ^ Тейлор, Грэм В.; Фергюс, Роб; ЛеКун, Янн; Бреглер, Кристоф (1 января 2010 г.). Сверточное обучение пространственно-временных особенностей. Материалы 11-й Европейской конференции по компьютерному зрению: Часть VI. ECCV'10. Берлин, Гейдельберг: Springer-Verlag. стр. 140–153. ISBN 978-3-642-15566-6. Архивировано из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  121. ^ Ле, QV; Цзоу, Вайоминг; Юнг, С.Ю.; Нг, АЮ (01 января 2011 г.). «Изучение иерархических инвариантных пространственно-временных особенностей для распознавания действий с независимым анализом подпространства». ЦВПР 2011 . ЦВПР '11. Вашингтон, округ Колумбия, США: Компьютерное общество IEEE. стр. 3361–3368. CiteSeerX 10.1.1.294.5948 . дои : 10.1109/CVPR.2011.5995496. ISBN  978-1-4577-0394-2. S2CID  6006618.
  122. ^ «Ведущий India.ai» (PDF) . Архивировано (PDF) из оригинала 14 октября 2022 г. Проверено 13 октября 2022 г.
  123. ^ Грефенштетт, Эдвард; Блансом, Фил; де Фрейтас, Нандо; Германн, Карл Мориц (29 апреля 2014 г.). «Глубокая архитектура для семантического анализа». arXiv : 1404.7296 [cs.CL].
  124. ^ Мениль, Грегуар; Дэн, Ли; Гао, Цзяньфэн; Он, Сяодун; Шен, Йелун (апрель 2014 г.). «Изучение семантических представлений с использованием сверточных нейронных сетей для веб-поиска - исследования Microsoft». Исследования Майкрософт . Архивировано из оригинала 15 сентября 2017 г. Проверено 17 декабря 2015 г.
  125. ^ Кальхбреннер, Нал; Грефенштетт, Эдвард; Блансом, Фил (08 апреля 2014 г.). «Сверточная нейронная сеть для моделирования предложений». arXiv : 1404.2188 [cs.CL].
  126. ^ Ким, Юн (25 августа 2014 г.). «Сверточные нейронные сети для классификации предложений». arXiv : 1408.5882 [cs.CL].
  127. ^ Коллоберт, Ронан и Джейсон Уэстон. «Единая архитектура для обработки естественного языка: глубокие нейронные сети с многозадачным обучением. Архивировано 4 сентября 2019 г. в Wayback Machine ». Материалы 25-й международной конференции по машинному обучению. АКМ, 2008.
  128. ^ Коллобер, Ронан; Уэстон, Джейсон; Ботту, Леон; Карлен, Майкл; Кавукчуоглу, Корай; Кукса, Павел (2 марта 2011 г.). «Обработка естественного языка (почти) с нуля». arXiv : 1103.0398 [cs.LG].
  129. ^ Инь, Вт; Канн, К; Ю, М; Шютце, Х (2 марта 2017 г.). «Сравнительное исследование CNN и RNN для обработки естественного языка». arXiv : 1702.01923 [cs.LG].
  130. ^ Бай, С.; Колтер, Дж.С.; Колтун, В. (2018). «Эмпирическая оценка общих сверточных и рекуррентных сетей для моделирования последовательностей». arXiv : 1803.01271 [cs.LG].
  131. ^ Грубер, Н. (2021). «Обнаружение динамики действия в тексте с помощью рекуррентной нейронной сети». Нейронные вычисления и их приложения . 33 (12): 15709–15718. дои : 10.1007/S00521-021-06190-5. S2CID  236307579.
  132. ^ Хаотянь, Дж.; Чжун, Ли; Цяньсяо, Ли (2021). «Теория аппроксимации сверточных архитектур для моделирования временных рядов». Международная конференция по машинному обучению . arXiv : 2107.09355 .
  133. ^ Рен, Ханьшэн; Сюй, Бисюн; Ван, Юйцзин; Йи, Чао; Хуан, Конгруй; Коу, Сяоюй; Син, Тони; Ян, Мао; Тонг, Цзе; Чжан, Ци (2019). Служба обнаружения аномалий временных рядов в Microsoft | Материалы 25-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . arXiv : 1906.03821 . дои : 10.1145/3292500.3330680. S2CID  182952311.
  134. ^ Валлах, Ижар; Дзамба, Майкл; Хейфец, Авраам (9 октября 2015 г.). «AtomNet: глубокая сверточная нейронная сеть для прогнозирования биологической активности при открытии лекарств на основе структуры». arXiv : 1510.02855 [cs.LG].
  135. ^ Йосински, Джейсон; Клюн, Джефф; Нгуен, Ань; Фукс, Томас; Липсон, Ход (22 июня 2015 г.). «Понимание нейронных сетей посредством глубокой визуализации». arXiv : 1506.06579 [cs.CV].
  136. ^ «У стартапа в Торонто есть более быстрый способ найти эффективные лекарства» . Глобус и почта . Архивировано из оригинала 20 октября 2015 г. Проверено 9 ноября 2015 г.
  137. ^ «Стартап использует суперкомпьютеры для поиска лекарств» . KQED Ваше будущее . 27 мая 2015 г. Архивировано из оригинала 6 декабря 2018 г. Проверено 9 ноября 2015 г.
  138. ^ Челлапилла, К; Фогель, Д.Б. (1999). «Развитие нейронных сетей для игры в шашки, не полагаясь на экспертные знания». IEEE Транснейронная сеть . 10 (6): 1382–91. дои : 10.1109/72.809083. ПМИД  18252639.
  139. ^ Челлапилла, К.; Фогель, Д.Б. (2001). «Развитие экспертной программы игры в шашки без использования человеческого опыта». Транзакции IEEE в эволюционных вычислениях . 5 (4): 422–428. дои : 10.1109/4235.942536.
  140. ^ Фогель, Дэвид (2001). Blondie24: Игра на грани искусственного интеллекта . Сан-Франциско, Калифорния: Морган Кауфманн. ISBN 978-1558607835.
  141. ^ Кларк, Кристофер; Сторки, Амос (2014). «Обучение глубоких сверточных нейронных сетей игре в го». arXiv : 1412.3409 [cs.AI].
  142. ^ Мэддисон, Крис Дж.; Хуанг, Аджа; Суцкевер, Илья; Сильвер, Дэвид (2014). «Перемещение оценки в Go с использованием глубоких сверточных нейронных сетей». arXiv : 1412.6564 [cs.LG].
  143. ^ "AlphaGo - Google DeepMind" . Архивировано из оригинала 30 января 2016 года . Проверено 30 января 2016 г.
  144. ^ Бай, Шаоцзе; Колтер, Дж. Зико; Колтун, Владлен (19 апреля 2018 г.). «Эмпирическая оценка общих сверточных и рекуррентных сетей для моделирования последовательностей». arXiv : 1803.01271 [cs.LG].
  145. ^ Ю, Фишер; Колтун, Владлен (30 апреля 2016 г.). «Многомасштабная агрегация контекста с помощью расширенных сверток». arXiv : 1511.07122 [cs.CV].
  146. ^ Боровых, Анастасия; Бохте, Сандер; Остерли, Корнелис В. (17 сентября 2018 г.). «Условное прогнозирование временных рядов с помощью сверточных нейронных сетей». arXiv : 1703.04691 [stat.ML].
  147. ^ Миттельман, Рони (3 августа 2015 г.). «Моделирование временных рядов с использованием непрореженных полностью сверточных нейронных сетей». arXiv : 1508.00317 [stat.ML].
  148. ^ Чен, Итянь; Канг, Янфэй; Чен, Исюн; Ван, Цзычжоу (11 июня 2019 г.). «Вероятностное прогнозирование с помощью временной сверточной нейронной сети». arXiv : 1906.04397 [stat.ML].
  149. ^ Чжао, Бендонг; Лу, Хуаньчжан; Чен, Шанфэн; Лю, Цзюньлян; У, Донгья (01 февраля 2017 г.). «Сверточные нейронные сети для классов временных рядов». Журнал системной инженерии и электроники . 28 (1): 162–169. дои : 10.21629/JSEE.2017.01.18.
  150. ^ Петнехази, Габор (21 августа 2019 г.). «QCNN: Квантильная сверточная нейронная сеть». arXiv : 1908.07978 [cs.LG].
  151. ^ Хуберт Мара (07.06.2019), HeiCuBeDa Hilprecht - Набор эталонных данных Heidelberg Cuneiform для коллекции Hilprecht (на немецком языке), heiDATA - институциональный репозиторий исследовательских данных Гейдельбергского университета, doi : 10.11588/data/IE8CCN
  152. ^ Хуберт Мара и Бартош Богач (2019), «Взлом кода сломанных планшетов: задача обучения аннотированному клинописью в нормализованных наборах 2D и 3D данных», Материалы 15-й Международной конференции по анализу и распознаванию документов (ICDAR) (на немецком языке ) ), Сидней, Австралия, стр. 148–153, номер документа : 10.1109/ICDAR.2019.00032, ISBN. 978-1-7281-3014-9, S2CID  211026941
  153. ^ Богач, Бартош; Мара, Хуберт (2020), «Периодическая классификация трехмерных клинописных табличек с геометрическими нейронными сетями», Материалы 17-й Международной конференции по границам распознавания рукописного текста (ICFHR) , Дортмунд, Германия
  154. ^ Презентация документа ICFHR о периодической классификации трехмерных клинописных табличек с геометрическими нейронными сетями на YouTube
  155. ^ Дурджой Сен Майтра; Уджвал Бхаттачарья; С.К. Паруи, «Общий подход к распознаванию рукописных символов в нескольких сценариях на основе CNN». Архивировано 16 октября 2023 г. в Wayback Machine , в «Анализ и распознавание документов» (ICDAR), 13-я Международная конференция 2015 г., том, №, стр. 1021–1025, 23–26 августа 2015 г.
  156. ^ "НИПС 2017". Симпозиум по интерпретируемому машинному обучению . 20 октября 2017 г. Архивировано из оригинала 07 сентября 2019 г. Проверено 12 сентября 2018 г.
  157. ^ Занг, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, Банда; Чжэн, Наньнин (2018). «Временно-взвешенная сверточная нейронная сеть, основанная на внимании, для распознавания действий». Приложения и инновации искусственного интеллекта . ИФИП: Достижения в области информационных и коммуникационных технологий. Том. 519. Чам: Springer International Publishing. стр. 97–108. arXiv : 1803.07179 . дои : 10.1007/978-3-319-92007-8_9. ISBN 978-3-319-92006-1. ISSN  1868-4238. S2CID  4058889.
  158. ^ Ван, Ле; Цзан, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (21 июня 2018 г.). «Распознавание действий с помощью временной взвешенной сверточной нейронной сети, учитывающей внимание» (PDF) . Датчики . 18 (7): 1979. Бибкод : 2018Senso..18.1979W. дои : 10.3390/s18071979 . ISSN  1424-8220. ПМК 6069475 . PMID  29933555. Архивировано (PDF) из оригинала 13 сентября 2018 г. Проверено 14 сентября 2018 г. 
  159. ^ Онг, Хао И; Чавес, Кевин; Хонг, Август (18 августа 2015 г.). «Распределенное глубокое Q-обучение». arXiv : 1508.04186v2 [cs.LG].
  160. ^ Мних, Владимир; и другие. (2015). «Контроль на человеческом уровне посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Бибкод : 2015Natur.518..529M. дои : 10.1038/nature14236. PMID  25719670. S2CID  205242740.
  161. ^ Сан, Р.; Сешнс, К. (июнь 2000 г.). «Самосегментация последовательностей: автоматическое формирование иерархий последовательного поведения». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 30 (3): 403–418. CiteSeerX 10.1.1.11.226 . дои : 10.1109/3477.846230. ISSN  1083-4419. ПМИД  18252373. 
  162. ^ «Сверточные сети глубоких убеждений на CIFAR-10» (PDF) . Архивировано (PDF) из оригинала 30 августа 2017 г. Проверено 18 августа 2017 г.
  163. ^ Ли, Хонглак; Гросс, Роджер; Ранганатх, Раджеш; Нг, Эндрю Ю. (1 января 2009 г.). «Сверточные сети глубокого убеждения для масштабируемого неконтролируемого обучения иерархических представлений». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 609–616. CiteSeerX 10.1.1.149.6800 . дои : 10.1145/1553374.1553453. ISBN  9781605585161. S2CID  12008458.
  164. Кейд Мец (18 мая 2016 г.). «Google создала собственные чипы для работы своих ботов с искусственным интеллектом». Проводной . Архивировано из оригинала 13 января 2018 года . Проверено 6 марта 2017 г.

Внешние ссылки