Сверточная нейронная сеть

Сверточная нейронная сеть ( CNN ) — это регуляризованный тип нейронной сети прямого распространения , которая сама изучает признаки с помощью оптимизации фильтра (или ядра). Этот тип сети глубокого обучения применялся для обработки и прогнозирования множества различных типов данных, включая текст, изображения и аудио. ^[1] Сети на основе свертки являются фактическим стандартом в подходах к глубокому обучению , основанных на компьютерном зрении и обработке изображений, и только недавно были заменены — в некоторых случаях — более новыми архитектурами глубокого обучения, такими как transformer . Исчезающие градиенты и взрывные градиенты, наблюдаемые во время обратного распространения в более ранних нейронных сетях, предотвращаются за счет использования регуляризованных весов для меньшего количества соединений. ^[2]^[3] Например, для каждого нейрона в полностью связанном слое для обработки изображения размером 100 × 100 пикселей потребовалось бы 10 000 весов. Однако, применяя каскадные ядра свертки (или кросс-корреляции), ^[4]^[5] для обработки плиток размером 5x5 требуется всего 25 нейронов. ^[6]^[7] Признаки более высокого уровня извлекаются из более широких контекстных окон по сравнению с признаками более низкого уровня.

Некоторые области применения CNN включают в себя:

распознавание изображений и видео , ^[8]
рекомендательные системы , ^[9]
классификация изображений ,
сегментация изображения ,
анализ медицинских изображений ,
Обработка естественного языка , ^[10]
интерфейсы мозг-компьютер , ^[11] и
финансовые временные ряды . ^[12]

CNN также известны как инвариантные к сдвигу или инвариантные к пространству искусственные нейронные сети , основанные на архитектуре с общим весом ядер свертки или фильтров, которые скользят по входным признакам и обеспечивают трансляционно- эквивариантные ответы, известные как карты признаков. ^[13]^[14] Вопреки интуиции, большинство сверточных нейронных сетей не инвариантны к трансляции из-за операции понижения дискретизации, которую они применяют к входным признакам. ^[15]

Нейронные сети прямого распространения обычно являются полностью связанными сетями, то есть каждый нейрон в одном слое связан со всеми нейронами в следующем слое . «Полная связанность» этих сетей делает их склонными к переобучению данных. Типичные способы регуляризации или предотвращения переобучения включают: штрафование параметров во время обучения (например, снижение веса) или обрезку связности (пропущенные соединения, выпадение и т. д.) Надежные наборы данных также увеличивают вероятность того, что CNN изучат обобщенные принципы, которые характеризуют данный набор данных, а не смещения плохо заполненного набора. ^[16]

Сверточные сети были вдохновлены биологическими процессами ^[17]^[18]^[19]^[20] в том смысле , что схема связей между нейронами напоминает организацию зрительной коры животных . Отдельные корковые нейроны реагируют на стимулы только в ограниченной области зрительного поля, известной как рецептивное поле . Рецептивные поля различных нейронов частично перекрываются, так что они покрывают все зрительное поле.

CNN используют относительно небольшую предварительную обработку по сравнению с другими алгоритмами классификации изображений . Это означает, что сеть учится оптимизировать фильтры (или ядра) посредством автоматического обучения, тогда как в традиционных алгоритмах эти фильтры создаются вручную . Эта независимость от предшествующих знаний и вмешательства человека в извлечение признаков является основным преимуществом. ^{[ для кого? ]}

Архитектура

Сверточная нейронная сеть состоит из входного слоя, скрытых слоев и выходного слоя. В сверточной нейронной сети скрытые слои включают один или несколько слоев, которые выполняют свертки. Обычно это слой, который выполняет скалярное произведение ядра свертки с входной матрицей слоя. Этот продукт обычно является внутренним произведением Фробениуса , а его функция активации обычно является ReLU . Поскольку ядро свертки скользит вдоль входной матрицы для слоя, операция свертки генерирует карту признаков, которая, в свою очередь, вносит вклад во вход следующего слоя. За этим следуют другие слои, такие как слои пула , полностью связанные слои и слои нормализации. Здесь следует отметить, насколько близка сверточная нейронная сеть к согласованному фильтру . ^[21]

Сверточные слои

В CNN входными данными является тензор с формой:

(количество входов) × (высота входа) × (ширина входа) × (входные каналы )

После прохождения через сверточный слой изображение преобразуется в карту признаков, также называемую картой активации, имеющую форму:

(количество входов) × (высота карты признаков) × (ширина карты признаков) × ( каналы карты признаков ).

Сверточные слои сворачивают входные данные и передают их результат следующему слою. Это похоже на реакцию нейрона в зрительной коре на определенный стимул. ^[22] Каждый сверточный нейрон обрабатывает данные только для своего рецептивного поля .

Хотя полностью связанные нейронные сети прямого распространения могут использоваться для изучения признаков и классификации данных, эта архитектура, как правило, непрактична для больших входных данных (например, изображений с высоким разрешением), которые требуют огромного количества нейронов, поскольку каждый пиксель является соответствующим входным признаком. Полностью связанный слой для изображения размером 100 × 100 имеет 10 000 весов для каждого нейрона во втором слое. Свертка уменьшает количество свободных параметров, позволяя сети быть глубже. ^[6] Например, использование области мозаичного размещения 5 × 5, каждая с одинаковыми общими весами, требует всего 25 нейронов. Использование регуляризованных весов для меньшего количества параметров позволяет избежать проблем исчезающих градиентов и взрывных градиентов, наблюдавшихся во время обратного распространения в более ранних нейронных сетях. ^[2]^[3]

Для ускорения обработки стандартные сверточные слои можно заменить глубинно-разделяемыми сверточными слоями, ^[23] , которые основаны на глубинной свертке, за которой следует точечная свертка. Глубинная свертка — это пространственная свертка, применяемая независимо к каждому каналу входного тензора, в то время как точечная свертка — это стандартная свертка, ограниченная использованием ядер. $1\times 1$

Объединение слоев

Сверточные сети могут включать локальные и/или глобальные слои пула наряду с традиционными сверточными слоями. Слои пула уменьшают размерность данных, объединяя выходы нейронных кластеров на одном слое в один нейрон на следующем слое. Локальное пуление объединяет небольшие кластеры, обычно используются размеры плитки, такие как 2 × 2. Глобальное пуление действует на все нейроны карты признаков. ^[24]^[25] Существует два распространенных типа пула в популярном использовании: максимальный и средний. Максимальный пул использует максимальное значение каждого локального кластера нейронов на карте признаков, ^[26]^[27] в то время как средний пул берет среднее значение.

Полностью связанные слои

Полностью связанные слои соединяют каждый нейрон в одном слое с каждым нейроном в другом слое. Это то же самое, что и традиционная многослойная персептронная нейронная сеть (MLP). Сглаженная матрица проходит через полностью связанный слой для классификации изображений.

Рецептивное поле

В нейронных сетях каждый нейрон получает входные данные из некоторого количества мест в предыдущем слое. В сверточном слое каждый нейрон получает входные данные только из ограниченной области предыдущего слоя, называемой рецептивным полем нейрона . Обычно эта область представляет собой квадрат (например, 5 на 5 нейронов). Тогда как в полностью связанном слое рецептивное поле представляет собой весь предыдущий слой . Таким образом, в каждом сверточном слое каждый нейрон получает входные данные из большей области на входе, чем предыдущие слои. Это происходит из-за многократного применения свертки, которая учитывает значение пикселя, а также его окружающие пиксели. При использовании расширенных слоев количество пикселей в рецептивном поле остается постоянным, но поле становится более разреженным по мере увеличения его размеров при объединении эффекта нескольких слоев.

Чтобы манипулировать размером рецептивного поля по желанию, существуют некоторые альтернативы стандартному сверточному слою. Например, атрофированная или расширенная свертка ^[28]^[29] расширяет размер рецептивного поля без увеличения числа параметров путем чередования видимых и слепых областей. Более того, один расширенный сверточный слой может включать фильтры с несколькими коэффициентами расширения, ^[30] таким образом имея переменный размер рецептивного поля.

Веса

Каждый нейрон в нейронной сети вычисляет выходное значение, применяя определенную функцию к входным значениям, полученным от рецептивного поля в предыдущем слое. Функция, применяемая к входным значениям, определяется вектором весов и смещением (обычно действительными числами). Обучение заключается в итеративной корректировке этих смещений и весов.

Векторы весов и смещений называются фильтрами и представляют собой определенные особенности входных данных (например, определенную форму). Отличительной чертой CNN является то, что многие нейроны могут совместно использовать один и тот же фильтр. Это уменьшает объем памяти , поскольку единое смещение и единый вектор весов используются во всех рецептивных полях, которые совместно используют этот фильтр, в отличие от каждого рецептивного поля, имеющего собственное смещение и векторное взвешивание. ^[31]

Деконволюционный

Деконволюционная нейронная сеть по сути является противоположностью CNN. Она состоит из деконволюционных слоев и слоев депулинга. ^[32]

Слой деконволюции — это транспонирование слоя свертки. В частности, слой свертки можно записать как умножение с матрицей, а слой деконволюции — это умножение с транспонированием этой матрицы. ^[33]

Слой unpooling расширяет слой. Слой max-unpooling является самым простым, так как он просто копирует каждую запись несколько раз. Например, слой max-unpooling размером 2 на 2 — это . $[x]\mapsto {\begin{bmatrix}x&x\\x&x\end{bmatrix}}$

История

CNN часто сравнивают с тем, как мозг обрабатывает зрительную информацию в живых организмах . ^[34]

Рецептивные поля в зрительной коре

Работа Хьюбела и Визеля в 1950-х и 1960-х годах показала, что зрительная кора кошек содержит нейроны, которые индивидуально реагируют на небольшие области поля зрения . При условии, что глаза не двигаются, область зрительного пространства, в которой зрительные стимулы влияют на активацию одного нейрона, известна как его рецептивное поле . ^[35] Соседние клетки имеют схожие и перекрывающиеся рецептивные поля. Размер и расположение рецептивного поля систематически варьируются по всей коре, образуя полную карту зрительного пространства. ^{[ требуется цитата ]} Кора в каждом полушарии представляет собой контралатеральное поле зрения . ^{[ требуется цитата ]}

В своей статье 1968 года они определили два основных типа зрительных клеток в мозге: ^[18]

простые клетки , выход которых максимизируется прямыми краями, имеющими определенную ориентацию в их рецептивном поле
сложные клетки , имеющие более крупные рецептивные поля , выходной сигнал которых нечувствителен к точному положению краев в поле.

Хьюбел и Визель также предложили каскадную модель этих двух типов клеток для использования в задачах распознавания образов. ^[36]^[35]

Неокогнитрон, источник архитектуры CNN

« Неокогнитрон » ^[17] был представлен Кунихико Фукусимой в 1980 году. ^[19]^[27]^[37] Он был вдохновлен вышеупомянутой работой Хьюбела и Визеля. Неокогнитрон представил два основных типа слоев:

"S-слой": слой рецептивного поля с общими весами, позже известный как сверточный слой, который содержит блоки, рецептивные поля которых покрывают участок предыдущего слоя. Группа рецептивного поля с общими весами ("плоскость" в терминологии неокогнитрона) часто называется фильтром, и слой обычно имеет несколько таких фильтров.
"C-слой": слой понижения частоты дискретизации, содержащий блоки, рецептивные поля которых покрывают участки предыдущих сверточных слоев. Такой блок обычно вычисляет средневзвешенное значение активаций блоков в своем участке и применяет подавление (разделительную нормализацию), объединенное из несколько большего участка и по разным фильтрам в слое, и применяет насыщающую функцию активации. Веса участков неотрицательны и не обучаются в исходном неокогнитроне. Понижение частоты дискретизации и конкурентное подавление помогают классифицировать признаки и объекты в визуальных сценах, даже когда объекты смещены.

В 1969 году Фукусима ввел функцию активации ReLU (выпрямленная линейная единица) . ^[38]^[39] Она не использовалась в его неокогнитроне, поскольку все веса были неотрицательными; вместо этого использовалось латеральное торможение. Выпрямитель стал самой популярной функцией активации для CNN и глубоких нейронных сетей в целом. ^[40]

В варианте неокогнитрона, называемом крецептроном, вместо использования пространственного усреднения Фукусимы с торможением и насыщением, Дж. Вэн и др. в 1993 году представили метод, называемый максимальным пулом, где блок понижающей дискретизации вычисляет максимум активаций блоков в своем участке. ^[41] Максимальное пуло часто используется в современных сверточных нейронных сетях. ^[42]

За прошедшие десятилетия было предложено несколько алгоритмов контролируемого и неконтролируемого обучения для тренировки весов неокогнитрона. ^[17] Однако сегодня архитектура CNN обычно обучается с помощью обратного распространения .

Неокогнитрон — это первая искусственная нейронная сеть, которая требует, чтобы блоки, расположенные в разных позициях сети, имели общие веса, что является отличительной чертой сверточных нейронных сетей .

Свертка во времени

Термин «свертка» впервые появляется в нейронных сетях в статье Тошитеру Хоммы, Леса Атласа и Роберта Маркса II на первой конференции по нейронным системам обработки информации в 1987 году. В их статье умножение было заменено сверткой во времени, что по сути обеспечивает инвариантность сдвига, мотивированную и более непосредственно связанную с концепцией обработки сигналов фильтра , и продемонстрировано на задаче распознавания речи. ^[7] Они также указали, что как обучаемая данными система свертка по сути эквивалентна корреляции, поскольку изменение весов не влияет на конечную обученную функцию («Для удобства мы обозначаем * как корреляцию вместо свертки. Обратите внимание, что свертка a(t) с b(t) эквивалентна корреляции a(-t) с b(t)»). ^[7] Современные реализации CNN обычно выполняют корреляцию и называют ее сверткой для удобства, как они сделали здесь.

Нейронные сети с задержкой по времени

Нейронная сеть с задержкой по времени (TDNN) была введена в 1987 году Алексом Вайбелем и др. для распознавания фонем и была одной из первых сверточных сетей, поскольку достигла инвариантности сдвига. ^[43] TDNN — это одномерная сверточная нейронная сеть, в которой свертка выполняется вдоль временной оси данных. Это первая CNN, использующая распределение веса в сочетании с обучением методом градиентного спуска с использованием обратного распространения . ^[44] Таким образом, при использовании пирамидальной структуры, как в неокогнитроне, она выполнила глобальную оптимизацию весов вместо локальной. ^[43]

TDNN — это сверточные сети, которые разделяют веса по временному измерению. ^[45] Они позволяют обрабатывать речевые сигналы инвариантно во времени. В 1990 году Хэмпшир и Вайбель представили вариант, который выполняет двумерную свертку. ^[46] Поскольку эти TDNN работали со спектрограммами, результирующая система распознавания фонем была инвариантна как к временным, так и к частотным сдвигам, как и в случае с изображениями, обработанными неокогнитроном.

TDNN улучшили производительность распознавания речи на большом расстоянии. ^[47]

Распознавание изображений с помощью сверточных нейронных сетей, обученных методом градиентного спуска

Денкер и др. (1989) разработали двумерную систему сверточных нейронных сетей для распознавания рукописных номеров почтовых индексов . ^[48] Однако отсутствие эффективного метода обучения для определения коэффициентов ядра задействованных сверток означало, что все коэффициенты приходилось кропотливо проектировать вручную. ^[49]

После достижений в обучении одномерных сверточных нейронных сетей (1-D CNN) Вайбеля и др. (1987), Ян Лекун и др. (1989) ^[49] использовали обратное распространение для обучения коэффициентов ядра свертки непосредственно из изображений рукописных цифр. Таким образом, обучение было полностью автоматическим, выполнялось лучше, чем ручное проектирование коэффициентов, и подходило для более широкого спектра задач распознавания изображений и типов изображений. Вэй Чжан и др. (1988) ^[13]^[14] использовали обратное распространение для обучения ядер свертки CNN для распознавания алфавитов. Модель называлась нейронной сетью распознавания образов с инвариантным сдвигом до того, как название CNN было придумано позже в начале 1990-х годов. Вэй Чжан и др. также применили ту же CNN без последнего полностью связанного слоя для сегментации объектов медицинских изображений (1991) ^[50] и обнаружения рака груди в маммограммах (1994). ^[51]

Этот подход стал основой современного компьютерного зрения .

Максимальное объединение

В 1990 году Ямагучи и др. представили концепцию максимального пула, фиксированной операции фильтрации, которая вычисляет и распространяет максимальное значение заданной области. Они сделали это, объединив TDNN с максимальным пулом, чтобы реализовать независимую от говорящего изолированную систему распознавания слов. ^[26] В своей системе они использовали несколько TDNN на слово, по одному на каждый слог . Результаты каждой TDNN по входному сигналу были объединены с использованием максимального пула, а затем выходные данные слоев пула были переданы сетям, выполняющим фактическую классификацию слов.

LeNet-5

LeNet-5, пионерская 7-уровневая сверточная сеть, созданная LeCun et al. в 1995 году, ^[52] классифицирует рукописные цифры на чеках ( британский английский : cheques ), оцифрованные в изображения размером 32x32 пикселя. Возможность обработки изображений с более высоким разрешением требует большего количества слоев сверточных нейронных сетей, поэтому эта техника ограничена доступностью вычислительных ресурсов.

Она превосходила другие коммерческие системы считывания суммы любезности (по состоянию на 1995 год). Система была интегрирована в системы считывания чеков NCR и введена в эксплуатацию в нескольких американских банках с июня 1996 года, считывая миллионы чеков в день. ^[53]

Нейронная сеть, инвариантная к сдвигу

Нейронная сеть, инвариантная к сдвигу, была предложена Вэй Чжаном и др. для распознавания символов на изображениях в 1988 году. ^[13]^[14] Это модифицированный Неокогнитрон, сохраняющий только сверточные взаимосвязи между слоями признаков изображения и последним полностью связанным слоем. Модель была обучена с обратным распространением. Алгоритм обучения был дополнительно улучшен в 1991 году ^[54] для улучшения его способности к обобщению. Архитектура модели была изменена путем удаления последнего полностью связанного слоя и применена для сегментации медицинских изображений (1991) ^[50] и автоматического обнаружения рака молочной железы на маммограммах (1994) . ^[51]

Другой дизайн на основе свертки был предложен в 1988 году ^[55] для применения к разложению одномерных электромиографических свернутых сигналов посредством деконволюции. Этот дизайн был модифицирован в 1989 году для других дизайнов на основе деконволюции. ^[56]^[57]

Пирамида нейронной абстракции

Архитектура прямой связи сверточных нейронных сетей была расширена в нейронной пирамиде абстракции ^[58] боковыми и обратными связями. Полученная рекуррентная сверточная сеть допускает гибкое включение контекстной информации для итеративного разрешения локальных неоднозначностей. В отличие от предыдущих моделей, были получены выходные данные, похожие на изображения, с наивысшим разрешением, например, для задач семантической сегментации, реконструкции изображений и локализации объектов.

Реализации графического процессора

Хотя сверточные нейронные сети были изобретены в 1980-х годах, их прорыв в 2000-х годах потребовал быстрой реализации на графических процессорах (GPU).

В 2004 году KS Oh и K. Jung показали, что стандартные нейронные сети могут быть значительно ускорены на GPU. Их реализация была в 20 раз быстрее, чем эквивалентная реализация на CPU . ^[59] В 2005 году в другой статье также подчеркивалась ценность GPGPU для машинного обучения . ^[60]

Первая реализация CNN на GPU была описана в 2006 году К. Челлапиллой и др. Их реализация была в 4 раза быстрее, чем эквивалентная реализация на CPU. ^[61] В тот же период GPU также использовались для неконтролируемого обучения сетей глубоких убеждений . ^[62]^[63]^[64]^[65]

В 2010 году Дэн Сиресан и др. из IDSIA обучили глубокие сети прямого распространения на графических процессорах. ^[66] В 2011 году они распространили это на CNN, ускорившись на 60 по сравнению с обучением на центральном процессоре. ^[24] В 2011 году сеть выиграла конкурс по распознаванию изображений, где впервые достигла сверхчеловеческой производительности. ^[67] Затем они выиграли еще несколько конкурсов и достигли современного уровня в нескольких тестах. ^[68]^[42]^[27]

Впоследствии AlexNet , аналогичная CNN на базе графического процессора, разработанная Алексом Крижевским и др., победила в конкурсе ImageNet Large Scale Visual Recognition Challenge 2012. ^[69] Это было раннее событие, способствовавшее буму ИИ .

Очень глубокая CNN с более чем 100 слоями от Microsoft победила в конкурсе ImageNet 2015. ^[70]

Реализации Intel Xeon Phi

По сравнению с обучением сверточных нейронных сетей с использованием графических процессоров , сопроцессору Intel Xeon Phi уделялось не так много внимания . ^[71] Заметной разработкой является метод распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi, названный Controlled Hogwild с произвольным порядком синхронизации (CHAOS). ^[72] CHAOS использует как параллелизм на уровне потоков, так и на уровне SIMD , доступный на Intel Xeon Phi.

Отличительные черты

В прошлом для распознавания изображений использовались традиционные модели многослойного персептрона (MLP). ^{[ нужен пример ]} Однако полная связность между узлами вызывала проклятие размерности и была вычислительно неразрешимой для изображений с более высоким разрешением. Изображение размером 1000×1000 пикселей с цветовыми каналами RGB имеет 3 миллиона весов на полностью связанный нейрон, что слишком много для эффективной обработки в масштабе.

Например, в CIFAR-10 изображения имеют размер только 32×32×3 (32 в ширину, 32 в высоту, 3 цветовых канала), поэтому один полностью связанный нейрон в первом скрытом слое обычной нейронной сети будет иметь 32*32*3 = 3072 веса. Однако изображение 200×200 приведет к нейронам, которые будут иметь 200*200*3 = 120 000 весов.

Кроме того, такая сетевая архитектура не учитывает пространственную структуру данных, обрабатывая входные пиксели, которые находятся далеко друг от друга, так же, как и пиксели, которые находятся близко друг к другу. Это игнорирует локальность ссылок в данных с топологией сетки (например, изображения) как вычислительно, так и семантически. Таким образом, полная связность нейронов является расточительной для таких целей, как распознавание изображений, в которых доминируют пространственно локальные входные шаблоны.

Сверточные нейронные сети — это разновидности многослойных персептронов, разработанные для имитации поведения зрительной коры . Эти модели смягчают проблемы, связанные с архитектурой MLP, используя сильную пространственно-локальную корреляцию, присутствующую в естественных изображениях. В отличие от MLP, CNN имеют следующие отличительные особенности:

3D-объемы нейронов. Слои CNN имеют нейроны, расположенные в 3 измерениях : ширина, высота и глубина. ^[73] Где каждый нейрон внутри сверточного слоя связан только с небольшой областью слоя перед ним, называемой рецептивным полем. Различные типы слоев, как локально, так и полностью связанные, укладываются друг на друга, образуя архитектуру CNN.
Локальная связность: следуя концепции рецептивных полей, CNN используют пространственную локальность, навязывая локальную схему связности между нейронами соседних слоев. Таким образом, архитектура гарантирует, что изученные « фильтры » выдают наиболее сильный ответ на пространственно локальную схему ввода. Наложение множества таких слоев приводит к нелинейным фильтрам , которые становятся все более глобальными (т. е. реагирующими на большую область пиксельного пространства), так что сеть сначала создает представления небольших частей ввода, а затем из них собирает представления более крупных областей.
Общие веса: в CNN каждый фильтр реплицируется по всему полю зрения. Эти реплицированные единицы имеют одну и ту же параметризацию (весовой вектор и смещение) и формируют карту признаков. Это означает, что все нейроны в данном сверточном слое реагируют на один и тот же признак в пределах их конкретного поля ответа. Репликация единиц таким образом позволяет результирующей карте активации быть эквивариантной при сдвигах местоположений входных признаков в поле зрения, т. е. они обеспечивают трансляционную эквивариантность — при условии, что слой имеет шаг один. ^[74]
Объединение: В слоях объединения CNN карты признаков делятся на прямоугольные подобласти, и признаки в каждом прямоугольнике независимо уменьшаются до одного значения, обычно путем взятия их среднего или максимального значения. Помимо уменьшения размеров карт признаков, операция объединения предоставляет степень локальной трансляционной инвариантности содержащимся в них признакам, что позволяет CNN быть более устойчивой к изменениям в их позициях. ^[15]

Вместе эти свойства позволяют CNN достигать лучшего обобщения при проблемах со зрением . Распределение веса значительно сокращает количество свободных обучаемых параметров, тем самым снижая требования к памяти для работы сети и позволяя обучать более крупные и мощные сети.

Строительные блоки

Архитектура CNN формируется стеком отдельных слоев, которые преобразуют входной объем в выходной объем (например, содержащий оценки классов) посредством дифференцируемой функции. Обычно используются несколько отдельных типов слоев. Они более подробно обсуждаются ниже.

Сверточный слой

Сверточный слой является основным строительным блоком CNN. Параметры слоя состоят из набора обучаемых фильтров (или ядер ), которые имеют небольшое рецептивное поле, но простираются на всю глубину входного объема. Во время прямого прохода каждый фильтр сворачивается по ширине и высоте входного объема, вычисляя скалярное произведение между записями фильтра и входом, создавая двумерную карту активации этого фильтра. В результате сеть обучается фильтрам, которые активируются, когда она обнаруживает некоторый определенный тип признака в некоторой пространственной позиции на входе. ^[75]^{[nb 1]}

Складывание карт активации для всех фильтров по глубинному измерению формирует полный выходной объем сверточного слоя. Таким образом, каждая запись в выходном объеме может также интерпретироваться как выход нейрона, который смотрит на небольшую область на входе. Каждая запись в карте активации использует тот же набор параметров, который определяет фильтр.

Самоконтролируемое обучение было адаптировано для использования в сверточных слоях с использованием разреженных участков с высоким коэффициентом маски и глобального слоя нормализации отклика. ^{[ необходима ссылка ]}

Локальная связь

При работе с высокоразмерными входными данными, такими как изображения, нецелесообразно подключать нейроны ко всем нейронам в предыдущем объеме, поскольку такая сетевая архитектура не учитывает пространственную структуру данных. Сверточные сети используют пространственно локальную корреляцию, обеспечивая разреженную локальную схему связей между нейронами соседних слоев: каждый нейрон подключен только к небольшой области входного объема.

Степень этой связности — гиперпараметр, называемый рецептивным полем нейрона. Связи локальны в пространстве (по ширине и высоте), но всегда простираются по всей глубине входного объема. Такая архитектура гарантирует, что обученные ( британский английский : learned ) фильтры выдают наиболее сильный ответ на пространственно локальный входной шаблон.

Пространственное расположение

Размер выходного объема сверточного слоя контролируется тремя гиперпараметрами : глубиной, шагом и размером заполнения:

Глубина выходного объема контролирует количество нейронов в слое, которые подключаются к одной и той же области входного объема. Эти нейроны учатся активироваться для различных признаков на входе. Например, если первый сверточный слой принимает необработанное изображение в качестве входных данных, то различные нейроны вдоль измерения глубины могут активироваться при наличии различных ориентированных краев или пятен цвета.
Шаг управляет тем, как распределяются столбцы глубины вокруг ширины и высоты. Если шаг равен 1, то мы перемещаем фильтры по одному пикселю за раз. Это приводит к сильному перекрытию рецептивных полей между столбцами и большим выходным объемам. Для любого целого числашаг S означает, что фильтр переводится на S единиц за раз на выход. На практикеэто встречается редко. Больший шаг означает меньшее перекрытие рецептивных полей и меньшие пространственные размеры выходного объема.^[76] ${\textstyle S>0,}$ ${\textstyle S\geq 3}$
Иногда удобно дополнять вход нулями (или другими значениями, такими как среднее значение региона) на границе входного объема. Размер этого дополнения является третьим гиперпараметром. Дополнение обеспечивает контроль пространственного размера выходного объема. В частности, иногда желательно точно сохранить пространственный размер входного объема, это обычно называют «одинаковым» дополнением.

Пространственный размер выходного объема является функцией размера входного объема , размера поля ядра нейронов сверточного слоя, шага и величины нулевого заполнения на границе. Количество нейронов, которые «вписываются» в заданный объем, тогда равно: $W$ $K$ $S$ $P$

{\frac {W-K+2P}{S}}+1.

Если это число не является целым числом , то шаги неверны и нейроны не могут быть размещены так, чтобы соответствовать входному объему симметричным образом . В общем случае, установка нулевого отступа при шаге гарантирует, что входной объем и выходной объем будут иметь одинаковый размер в пространстве. Однако не всегда абсолютно необходимо использовать все нейроны предыдущего слоя. Например, проектировщик нейронной сети может решить использовать только часть отступа. ${\textstyle P=(K-1)/2}$ $S=1$

Совместное использование параметров

Схема совместного использования параметров используется в сверточных слоях для управления числом свободных параметров. Она основана на предположении, что если патч-функция полезна для вычисления в некоторой пространственной позиции, то она также должна быть полезна для вычисления в других позициях. Обозначая один 2-мерный срез глубины как срез глубины , нейроны в каждом срезе глубины ограничены использованием тех же весов и смещений.

Поскольку все нейроны в одном глубинном срезе имеют одни и те же параметры, прямой проход в каждом глубинном срезе сверточного слоя может быть вычислен как свертка весов нейрона с входным объемом. ^{[nb 2]} Поэтому обычно называют наборы весов фильтром (или ядром ), который свертывается с входными данными. Результатом этой свертки является карта активации , а набор карт активации для каждого отдельного фильтра складывается вместе вдоль измерения глубины для получения выходного объема. Совместное использование параметров способствует инвариантности трансляции архитектуры CNN. ^[15]

Иногда предположение о совместном использовании параметров может не иметь смысла. Это особенно актуально, когда входные изображения для CNN имеют определенную центрированную структуру; для которой мы ожидаем, что совершенно разные признаки будут изучены в разных пространственных положениях. Одним из практических примеров является случай, когда входные данные представляют собой лица, которые были центрированы на изображении: мы можем ожидать, что разные признаки, характерные для глаз или волос, будут изучены в разных частях изображения. В этом случае обычно ослабляют схему совместного использования параметров и вместо этого просто называют слой «локально связанным слоем».

Слой объединения

Еще одной важной концепцией CNN является пул, который является формой нелинейной понижающей выборки . Существует несколько нелинейных функций для реализации пулинга, где пулинг по максимуму является наиболее распространенным. Он разбивает входное изображение на набор прямоугольников и для каждой такой подобласти выводит максимум.

Интуитивно, точное местоположение признака менее важно, чем его приблизительное местоположение относительно других признаков. Это идея, лежащая в основе использования пула в сверточных нейронных сетях. Слой пула служит для постепенного уменьшения пространственного размера представления, для уменьшения количества параметров, объема памяти и объема вычислений в сети, а следовательно, и для контроля переобучения . Это известно как понижение частоты дискретизации. Обычно слой пула периодически вставляют между последовательными сверточными слоями (за каждым из которых обычно следует функция активации, такая как слой ReLU) в архитектуре CNN. ^[75]^{: 460–461} Хотя слои пула способствуют локальной инвариантности трансляции, они не обеспечивают глобальной инвариантности трансляции в CNN, если только не используется форма глобального пула. ^[15]^[74] Слой пула обычно работает независимо на каждой глубине или срезе входных данных и изменяет их размер пространственно. Очень распространенная форма максимального пулинга — это слой с фильтрами размером 2×2, применяемый с шагом 2, который подвыбирает каждый срез глубины на входе на 2 по ширине и высоте, отбрасывая 75% активаций: В этом случае каждая операция max превышает 4 числа. Измерение глубины остается неизменным (это справедливо и для других форм пулинга). $f_{X,Y}(S)=\max _{a,b=0}^{1}S_{2X+a,2Y+b}.$

В дополнение к максимальному пулингу, пулинговые единицы могут использовать другие функции, такие как усредненный пул или пул ℓ ₂ -нормы . Усредненный пул часто использовался исторически, но недавно вышел из моды по сравнению с максимальным пулингом, который обычно работает лучше на практике. ^[77]

Из-за эффектов быстрого пространственного уменьшения размера представления, ^{[ какой? ]} в последнее время наблюдается тенденция к использованию меньших фильтров ^[78] или полному отказу от слоев объединения. ^[79]

Максимальное объединение каналов

Слой операции максимального пула каналов (CMP) проводит операцию MP вдоль стороны канала среди соответствующих позиций последовательных карт признаков с целью устранения избыточной информации. CMP заставляет значимые признаки собираться вместе в меньшем количестве каналов, что важно для мелкозернистой классификации изображений, которая требует больше различающих признаков. Между тем, еще одним преимуществом операции CMP является уменьшение количества каналов карт признаков до того, как он подключится к первому полностью связанному слою (FC). Подобно операции MP, мы обозначаем входные карты признаков и выходные карты признаков слоя CMP как F ∈ R(C×M×N) и C ∈ R(c×M×N) соответственно, где C и c — номера каналов входных и выходных карт признаков, M и N — ширина и высота карт признаков соответственно. Обратите внимание, что операция CMP изменяет только количество каналов карт признаков. Ширина и высота карт признаков не изменяются, что отличается от операции MP. ^[80]

Другие объединения

Смешанное объединение представляет собой линейную сумму максимального объединения и среднего объединения. ^[81]

Lp Pooling похож на усреднение pooling, но использует Lp norm average вместо average, где . Если все активации неотрицательны, то усреднение pooling имеет место для , а maxpooling имеет место для . Квадратно-корневое pooling имеет место для . ^[82] $\left({\frac {1}{N}}\sum _{i}|a_{i}|^{p}\right)^{1/p}$ $p\geq 1$ $p=1$ $p\to \infty$ $p=2$

Стохастическое объединение выбирает случайную активацию с вероятностью . Это то же самое, что и среднее объединение в ожидании . ^[83] $a_{i}$ ${\frac {a_{i}}{\sum _{j}a_{j}}}$

Softmax pooling похож на maxpooling, но использует softmax , т.е. где . Средний pooling — случай , а maxpooling — случай ^[82] ${\frac {\sum _{i}e^{\beta a_{i}}a_{i}}{\sum _{i}e^{\beta a_{i}}}}$ $\beta >0$ $\beta \downarrow 0$ $\beta \uparrow \infty$

Region of Interest Pooling (также известный как RoI pooling) — это вариант максимального пула, в котором выходной размер фиксирован, а входной прямоугольник — параметр. Они используются в R-CNN для обнаружения объектов .^[84]

Глобальное среднее объединение (GAP) — это особая форма среднего объединения, где усредняется весь канал. То есть, он сопоставляется с , беря среднее по высоте и ширине. Впервые он был предложен в Network-in-Network. ^[85] Аналогично для глобального максимального объединения или других форм объединений. Он часто используется непосредственно перед окончательными полностью связанными слоями в заголовке классификации CNN. $\mathbb {R} ^{H\times W\times C}$ $\mathbb {R} ^{C}$

Пространственное пирамидальное объединение применяет максимальное объединение (или любую другую форму объединения) в структуре пирамиды . То есть, оно применяет глобальное максимальное объединение, затем применяет максимальное объединение к изображению, разделенному на 4 равные части, затем 16 и т. д. Затем результаты объединяются. Это иерархическая форма глобального объединения, и подобно глобальному объединению, оно часто используется непосредственно перед заголовком классификации. ^[86]

Многоголовое объединение внимания применяет многоголовый блок внимания к объединению. В частности, он принимает в качестве входных данных список векторов , применяет слой прямой связи к каждому вектору, что приводит к матрице , затем отправляет полученную матрицу в , где — матрица обучаемых параметров. Он используется в преобразователях зрения . ^[87] $v_{1},v_{2},\dots ,v_{n}$ $\mathrm {FFN}$ $V=[\mathrm {FFN} (v_{1}),\dots ,\mathrm {FFN} (v_{n})]$ $\mathrm {MultiheadedAttention} (Q,V,V)$ $Q$

Обзоры методов объединения см. в ^[88]^{[89] .}

ReLU-слой

ReLU — это аббревиатура от rectified linear unit , введенная Кунихико Фукусимой в 1969 году. ^[38]^[39] ReLU применяет ненасыщающую функцию активации . ^[69] Она эффективно удаляет отрицательные значения из карты активации, устанавливая их в ноль. ^[90] Она вносит нелинейность в функцию принятия решения и в общую сеть, не влияя на рецептивные поля слоев свертки. В 2011 году Ксавье Глорот, Антуан Бордес и Йошуа Бенжио обнаружили, что ReLU обеспечивает лучшее обучение более глубоких сетей, ^[91] по сравнению с широко используемыми функциями активации до 2011 года. ${\textstyle f(x)=\max(0,x)}$

Другие функции также могут быть использованы для увеличения нелинейности, например, насыщающий гиперболический тангенс , и сигмоидальная функция . ReLU часто предпочитают другим функциям, поскольку она обучает нейронную сеть в несколько раз быстрее без существенного ухудшения точности обобщения . ^[92] $f(x)=\tanh(x)$ $f(x)=|\tanh(x)|$ ${\textstyle \sigma (x)=(1+e^{-x})^{-1}}$

Полностью связанный слой

После нескольких сверточных и максимальных слоев пула окончательная классификация выполняется через полностью связанные слои. Нейроны в полностью связанном слое имеют связи со всеми активациями в предыдущем слое, как это видно в обычных (несверточных) искусственных нейронных сетях . Таким образом, их активации могут быть вычислены как аффинное преобразование с матричным умножением , за которым следует смещение смещения ( векторное сложение изученного или фиксированного члена смещения).

Слой потерь

«Слой потерь» или « функция потерь » определяет, как обучение штрафует отклонение между прогнозируемым выходом сети и истинными метками данных (во время контролируемого обучения). Могут использоваться различные функции потерь в зависимости от конкретной задачи.

Функция потерь Softmax используется для прогнозирования одного класса из K взаимоисключающих классов. ^{[nb 3]} Сигмоидальная кросс-энтропийная потеря используется для прогнозирования K независимых значений вероятности в . Евклидова потеря используется для регрессии к действительным меткам . $[0,1]$ $(-\infty ,\infty )$

Гиперпараметры

Гиперпараметры — это различные настройки, которые используются для управления процессом обучения. CNN используют больше гиперпараметров , чем стандартный многослойный персептрон (MLP).

Размер ядра

Ядро — это количество пикселей, обработанных вместе. Обычно оно выражается размерами ядра, например, 2x2 или 3x3.

Прокладка

Padding — это добавление (обычно) пикселей со значением 0 на границах изображения. Это делается для того, чтобы граничные пиксели не были недооценены (потеряны) из выходных данных, поскольку они обычно участвуют только в одном экземпляре рецептивного поля. Применяемое padding обычно на единицу меньше соответствующего измерения ядра. Например, сверточный слой, использующий ядра 3x3, получит pad размером 2 пикселя, то есть по 1 пикселю с каждой стороны изображения. ^{[ необходима цитата ]}

Шаг

Шаг — это количество пикселей, на которое перемещается окно анализа на каждой итерации. Шаг 2 означает, что каждое ядро смещено на 2 пикселя относительно своего предшественника.

Количество фильтров

Поскольку размер карты признаков уменьшается с глубиной, слои около входного слоя, как правило, имеют меньше фильтров, тогда как более высокие слои могут иметь больше. Чтобы уравнять вычисления на каждом слое, произведение значений признаков v _a на позицию пикселя сохраняется примерно постоянным по всем слоям. Сохранение большего количества информации о входе потребует поддержания общего числа активаций (число карт признаков, умноженное на число позиций пикселей) не уменьшающимся от одного слоя к другому.

Количество карт признаков напрямую влияет на производительность и зависит от количества доступных примеров и сложности задачи.

Размер фильтра

Обычные размеры фильтров, встречающиеся в литературе, сильно различаются и обычно выбираются на основе набора данных. Типичные размеры фильтров варьируются от 1x1 до 7x7. В качестве двух известных примеров можно привести AlexNet , использовавший 3x3, 5x5 и 11x11. Inceptionv3 использовал 1x1, 3x3 и 5x5.

Задача состоит в том, чтобы найти правильный уровень детализации, чтобы создавать абстракции в нужном масштабе, учитывая конкретный набор данных и не допуская переобучения .

Тип и размер пула

Обычно используется пул Max pooling , часто с размером 2x2. Это означает, что входные данные резко уменьшаются , что снижает стоимость обработки.

Большее объединение уменьшает размер сигнала и может привести к неприемлемой потере информации . Часто неперекрывающиеся окна объединения работают лучше всего. ^[77]

Дилатация

Расширение подразумевает игнорирование пикселей внутри ядра. Это снижает обработку/память потенциально без значительной потери сигнала. Расширение 2 на ядре 3x3 расширяет ядро до 5x5, при этом по-прежнему обрабатывая 9 (равномерно расположенных) пикселей. Соответственно, расширение 4 расширяет ядро до 7x7. ^{[ необходима цитата ]}

Эквивариантность перевода и псевдонимы

Обычно предполагается, что CNN инвариантны к сдвигам входных данных. Слои свертки или объединения в CNN, которые не имеют шага больше единицы, действительно эквивариантны к переводам входных данных. ^[74] Однако слои с шагом больше единицы игнорируют теорему выборки Найквиста-Шеннона и могут привести к наложению спектров входного сигнала ^[74] Хотя в принципе CNN способны реализовывать фильтры сглаживания, было замечено, что на практике этого не происходит ^[93] и выдают модели, которые неэквивариантны к переводам. Кроме того, если CNN использует полностью связанные слои, эквивариантность перевода не подразумевает инвариантности перевода, поскольку полностью связанные слои не инвариантны к сдвигам входных данных. ^[94]^[15] Одним из решений для полной инвариантности перевода является избежание любой понижающей дискретизации по всей сети и применение глобального среднего объединения на последнем слое. ^[74] Кроме того, было предложено несколько других частичных решений, таких как сглаживание перед операциями по понижению частоты дискретизации, ^[95] пространственные сети преобразователей, ^[96] увеличение данных , субдискретизация в сочетании с объединением, ^[15] и капсульные нейронные сети . ^[97]

Оценка

Точность окончательной модели основана на подчасти набора данных, выделенного в начале, часто называемого тестовым набором. В других случаях применяются такие методы, как k -кратная перекрестная проверка . Другие стратегии включают использование конформного предсказания . ^[98]^[99]

Методы регуляризации

Регуляризация — это процесс введения дополнительной информации для решения некорректно поставленной проблемы или предотвращения переобучения . CNN используют различные типы регуляризации.

Эмпирический

Выбывать

Поскольку полностью связанный слой занимает большую часть параметров, он склонен к переобучению. Одним из методов снижения переобучения является dropout , представленный в 2014 году. ^[100] На каждом этапе обучения отдельные узлы либо «выпадают» из сети (игнорируются) с вероятностью , либо сохраняются с вероятностью , так что остается сокращенная сеть; входящие и исходящие ребра к выпавшему узлу также удаляются. Только сокращенная сеть обучается на данных на этом этапе. Затем удаленные узлы повторно вставляются в сеть с их исходными весами. $1-p$ $p$

На этапах обучения он обычно составляет 0,5; для входных узлов он обычно намного выше, поскольку при игнорировании входных узлов информация напрямую теряется. $p$

Во время тестирования после завершения обучения мы в идеале хотели бы найти выборочное среднее значение всех возможных выпавших сетей; к сожалению, это невозможно для больших значений . Однако мы можем найти приближение, используя полную сеть с выходом каждого узла, взвешенным на коэффициент , поэтому ожидаемое значение выхода любого узла будет таким же, как на этапах обучения. Это самый большой вклад метода выпадения: хотя он эффективно генерирует нейронные сети и, как таковой, допускает комбинирование моделей, во время тестирования нужно тестировать только одну сеть. $2^{n}$ $n$ $p$ $2^{n}$

Избегая обучения всех узлов на всех обучающих данных, выпадение уменьшает переобучение. Метод также значительно повышает скорость обучения. Это делает комбинацию моделей практичной даже для глубоких нейронных сетей . Похоже, что этот метод уменьшает взаимодействие узлов, что позволяет им изучать более надежные признаки ^{[ необходимо разъяснение ]} , которые лучше обобщаются на новые данные.

DropConnect

DropConnect — это обобщение dropout, в котором каждое соединение, а не каждый выходной блок, может быть сброшено с вероятностью . Таким образом, каждый блок получает входные данные от случайного подмножества блоков в предыдущем слое. ^[101] $1-p$

DropConnect похож на dropout, поскольку он вводит динамическую разреженность в модель, но отличается тем, что разреженность находится на весах, а не на выходных векторах слоя. Другими словами, полностью связанный слой с DropConnect становится разреженно связанным слоем, в котором соединения выбираются случайным образом на этапе обучения.

Стохастическое объединение

Основным недостатком Dropout является то, что он не дает тех же преимуществ для сверточных слоев, где нейроны не полностью связаны.

Еще до Dropout, в 2013 году, техника, называемая стохастическим пулингом, ^[102] обычные детерминированные операции пулинга были заменены стохастической процедурой, где активация в каждой области пулинга выбирается случайным образом в соответствии с мультиномиальным распределением , заданным активностью в области пулинга. Этот подход свободен от гиперпараметров и может быть объединен с другими подходами регуляризации, такими как dropout и data augmentation .

Альтернативный взгляд на стохастическое объединение заключается в том, что оно эквивалентно стандартному максимальному объединению, но со многими копиями входного изображения, каждая из которых имеет небольшие локальные деформации . Это похоже на явные упругие деформации входных изображений, ^[103] что обеспечивает превосходную производительность на наборе данных MNIST . ^[103] Использование стохастического объединения в многослойной модели дает экспоненциальное число деформаций, поскольку выборки в более высоких слоях независимы от выборок ниже.

Искусственные данные

Поскольку степень переобучения модели определяется как ее мощностью, так и объемом обучения, которое она получает, предоставление сверточной сети большего количества обучающих примеров может уменьшить переобучение. Поскольку часто не хватает доступных данных для обучения, особенно учитывая, что некоторую часть следует сохранить для последующего тестирования, два подхода заключаются в том, чтобы либо генерировать новые данные с нуля (если это возможно), либо вносить изменения в существующие данные для создания новых. Последний используется с середины 1990-х годов. ^[52] Например, входные изображения можно обрезать, вращать или масштабировать для создания новых примеров с теми же метками, что и исходный обучающий набор. ^[104]

Явный

Ранняя остановка

Один из самых простых методов предотвращения переобучения сети — просто остановить обучение до того, как переобучение успело произойти. Недостатком этого метода является то, что процесс обучения останавливается.

Количество параметров

Другой простой способ предотвратить переобучение — ограничить количество параметров, обычно ограничивая количество скрытых единиц в каждом слое или ограничивая глубину сети. Для сверточных сетей размер фильтра также влияет на количество параметров. Ограничение количества параметров напрямую ограничивает предсказательную силу сети, уменьшая сложность функции, которую она может выполнять над данными, и, таким образом, ограничивает количество переобучения. Это эквивалентно « нулевой норме ».

Снижение веса

Простая форма добавленного регуляризатора — это распад веса, который просто добавляет дополнительную ошибку, пропорциональную сумме весов ( норма L1 ) или квадрату величины ( норма L2 ) вектора веса, к ошибке в каждом узле. Уровень приемлемой сложности модели можно снизить, увеличив константу пропорциональности (гиперпараметр 'альфа'), тем самым увеличив штраф для больших векторов веса.

Регуляризация L2 является наиболее распространенной формой регуляризации. Она может быть реализована путем штрафования квадрата величины всех параметров непосредственно в цели. Регуляризация L2 имеет интуитивную интерпретацию сильного штрафа пиковых весовых векторов и предпочтения диффузных весовых векторов. Из-за мультипликативных взаимодействий между весами и входами это имеет полезное свойство, побуждая сеть использовать все свои входы понемногу, а не некоторые из своих входов много.

Регуляризация L1 также распространена. Она делает весовые векторы разреженными во время оптимизации. Другими словами, нейроны с регуляризацией L1 в конечном итоге используют только разреженное подмножество своих наиболее важных входов и становятся почти инвариантными к шумным входам. Регуляризацию L1 с L2 можно комбинировать; это называется эластичной сетевой регуляризацией .

Ограничения максимальной нормы

Другая форма регуляризации заключается в принудительном применении абсолютной верхней границы величины вектора веса для каждого нейрона и использовании спроецированного градиентного спуска для принудительного применения ограничения. На практике это соответствует выполнению обновления параметров как обычно, а затем принудительному применению ограничения путем фиксации вектора веса каждого нейрона для удовлетворения . Типичные значения имеют порядок 3–4. В некоторых работах сообщается об улучшениях ^[105] при использовании этой формы регуляризации. ${\vec {w}}$ $\|{\vec {w}}\|_{2}<c$ $c$

Иерархические системы координат

Объединение теряет точные пространственные отношения между высокоуровневыми частями (например, носом и ртом на изображении лица). Эти отношения необходимы для распознавания личности. Наложение пулов таким образом, чтобы каждая особенность встречалась в нескольких пулах, помогает сохранить информацию. Перевод сам по себе не может экстраполировать понимание геометрических отношений на радикально новую точку зрения, например, на другую ориентацию или масштаб. С другой стороны, люди очень хорошо умеют экстраполировать; увидев новую форму, они могут распознать ее с другой точки зрения. ^[106]

Более ранний распространенный способ решения этой проблемы — обучение сети на преобразованных данных в разных ориентациях, масштабах, освещении и т. д., чтобы сеть могла справляться с этими изменениями. Это требует больших вычислительных затрат для больших наборов данных. Альтернативой является использование иерархии координатных фреймов и использование группы нейронов для представления сочетания формы признака и его позы относительно сетчатки . Поза относительно сетчатки — это отношение между координатной фреймом сетчатки и координатной фреймом внутренних признаков. ^[107]

Таким образом, один из способов представления чего-либо — это встроить в него систему координат. Это позволяет распознавать крупные черты, используя согласованность поз их частей (например, позы носа и рта делают согласованный прогноз позы всего лица). Такой подход гарантирует, что сущность более высокого уровня (например, лицо) присутствует, когда сущность более низкого уровня (например, нос и рот) согласуется со своим прогнозом позы. Векторы нейронной активности, которые представляют позу («векторы позы»), допускают пространственные преобразования, смоделированные как линейные операции, которые облегчают сети изучение иерархии визуальных сущностей и обобщение по точкам обзора. Это похоже на то, как человеческая зрительная система накладывает системы координат для представления форм. ^[108]

Приложения

Распознавание изображений

CNN часто используются в системах распознавания изображений . В 2012 году сообщалось о частоте ошибок 0,23% в базе данных MNIST . ^[27] В другой статье об использовании CNN для классификации изображений сообщалось, что процесс обучения был «удивительно быстрым»; в той же статье наилучшие опубликованные результаты по состоянию на 2011 год были достигнуты в базе данных MNIST и базе данных NORB. ^[24] Впоследствии похожая CNN под названием AlexNet ^[109] выиграла конкурс ImageNet Large Scale Visual Recognition Challenge 2012.

При применении к распознаванию лиц CNN достигли значительного снижения частоты ошибок. ^[110] В другой статье сообщалось о 97,6%-ной частоте распознавания на «5600 неподвижных изображениях более 10 субъектов». ^[20] CNN использовались для объективной оценки качества видео после ручного обучения; полученная система имела очень низкую среднеквадратичную ошибку . ^[111]

ImageNet Large Scale Visual Recognition Challenge является эталоном в классификации и обнаружении объектов с миллионами изображений и сотнями классов объектов. В ILSVRC 2014 ^[112] крупномасштабной задаче визуального распознавания почти каждая высоко оцененная команда использовала CNN в качестве своей базовой структуры. Победитель GoogLeNet ^[113] (основа DeepDream ) увеличил среднюю точность обнаружения объектов до 0,439329 и снизил ошибку классификации до 0,06656, лучшего результата на сегодняшний день. Его сеть применяла более 30 слоев. Эта производительность сверточных нейронных сетей в тестах ImageNet была близка к производительности людей. ^[114] Лучшие алгоритмы все еще испытывают трудности с объектами, которые являются маленькими или тонкими, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также возникают проблемы с изображениями, которые были искажены фильтрами, что все чаще встречается в современных цифровых камерах. Напротив, такие виды изображений редко беспокоят людей. Однако люди, как правило, испытывают трудности с другими вопросами. Например, они не очень хороши в классификации объектов по мелким категориям, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим. ^{[ необходима цитата ]}

В 2015 году многослойная CNN продемонстрировала способность определять лица с самых разных углов, в том числе перевернутые, даже частично закрытые, с конкурентоспособной производительностью. Сеть обучалась на базе данных из 200 000 изображений, включавших лица под разными углами и в разных ориентациях, а также еще 20 миллионов изображений без лиц. Они использовали партии из 128 изображений в течение 50 000 итераций. ^[115]

Видеоанализ

По сравнению с областями данных изображений, существует относительно мало работ по применению CNN для классификации видео. Видео сложнее изображений, поскольку оно имеет другое (временное) измерение. Тем не менее, были исследованы некоторые расширения CNN в область видео. Один подход заключается в том, чтобы рассматривать пространство и время как эквивалентные измерения входных данных и выполнять свертки как во времени, так и в пространстве. [ ^116]^[117] Другой способ заключается в слиянии признаков двух сверточных нейронных сетей, одной для пространственного, а другой для временного потока. ^[118]^[119]^[120] Рекуррентные блоки долговременной краткосрочной памяти (LSTM) обычно включаются после CNN для учета межкадровых или межклиповых зависимостей. ^[121]^{[122] Были введены схемы}неконтролируемого обучения для обучения пространственно-временных признаков, основанные на сверточных стробированных ограниченных машинах Больцмана ^[123] и независимом анализе подпространств. ^[124] Его применение можно увидеть в модели преобразования текста в видео . ^[^{необходима ссылка}^]

Обработка естественного языка

CNN также были исследованы для обработки естественного языка . Модели CNN эффективны для различных задач NLP и достигли превосходных результатов в семантическом разборе , ^[125] поиске поисковых запросов, ^[126] моделировании предложений, ^[127] классификации, ^[128] прогнозировании ^[129] и других традиционных задачах NLP. ^[130] По сравнению с традиционными методами обработки языка, такими как рекуррентные нейронные сети , CNN могут представлять различные контекстные реалии языка, которые не полагаются на предположение о последовательности серий, в то время как RNN лучше подходят, когда требуется классическое моделирование временных рядов. ^[131]^[132]^[133]^[134]

Обнаружение аномалий

CNN с одномерными свертками использовалась для временных рядов в частотной области (спектральный остаток) с помощью неконтролируемой модели для обнаружения аномалий во временной области. ^[135]

Открытие лекарств

CNN использовались в разработке лекарств . Прогнозирование взаимодействия между молекулами и биологическими белками может определять потенциальные методы лечения. В 2015 году Atomwise представила AtomNet, первую нейронную сеть глубокого обучения для разработки лекарств на основе структуры . ^[136] Система обучается непосредственно на трехмерных представлениях химических взаимодействий. Подобно тому, как сети распознавания изображений учатся составлять более мелкие, пространственно близкие элементы в более крупные, сложные структуры, ^[137] AtomNet обнаруживает химические элементы, такие как ароматичность , sp ³ углерод и водородные связи . Впоследствии AtomNet использовался для прогнозирования новых кандидатов на биомолекулы для множества целей заболеваний, в частности, для лечения вируса Эбола ^[138] и рассеянного склероза . ^[139]

Игра в шашки

CNN использовались в игре в шашки . С 1999 по 2001 год Фогель и Челлапилла опубликовали статьи, показывающие, как сверточная нейронная сеть может научиться играть в шашки, используя коэволюцию. Процесс обучения не использовал предыдущие профессиональные игры людей, а скорее был сосредоточен на минимальном наборе информации, содержащейся в шахматной доске: расположение и тип фигур, а также разница в количестве фигур между двумя сторонами. В конечном итоге программа ( Blondie24 ) была протестирована на 165 играх против игроков и заняла наивысшее место в 0,4%. ^[140]^[141] Она также одержала победу над программой Chinook на ее «экспертном» уровне игры. ^[142]

Идти

CNN использовались в компьютерной игре Go . В декабре 2014 года Кларк и Сторки опубликовали статью, в которой показано, что CNN, обученная контролируемым обучением на основе базы данных профессиональных игр людей, может превзойти GNU Go и выиграть несколько игр против поиска по дереву Монте-Карло Fuego 1.1 за малую часть времени, которое потребовалось Fuego для игры. ^[143] Позже было объявлено, что большая 12-слойная сверточная нейронная сеть правильно предсказала профессиональный ход в 55% позиций, что соответствует точности игрока-человека с 6-м даном . Когда обученная сверточная сеть использовалась непосредственно для игры в игры Go, без какого-либо поиска, она превзошла традиционную программу поиска GNU Go в 97% игр и сравнялась с производительностью программы поиска по дереву Монте-Карло Fuego, имитирующей десять тысяч розыгрышей (около миллиона позиций) за ход. ^[144]

Несколько сверточных нейронных сетей для выбора ходов («политическая сеть») и оценки позиций («ценностная сеть»), управляющих MCTS, использовались AlphaGo , первой, кто победил лучшего игрока-человека того времени. ^[145]

Прогнозирование временных рядов

Рекуррентные нейронные сети обычно считаются лучшими архитектурами нейронных сетей для прогнозирования временных рядов (и моделирования последовательностей в целом), но недавние исследования показывают, что сверточные сети могут работать сопоставимо или даже лучше. ^[146]^[12] Расширенные свертки ^[147] могут позволить одномерным сверточным нейронным сетям эффективно изучать зависимости временных рядов. ^[148] Свертки могут быть реализованы более эффективно, чем решения на основе RNN, и они не страдают от исчезающих (или взрывных) градиентов. ^[149] Сверточные сети могут обеспечить улучшенную производительность прогнозирования, когда есть несколько похожих временных рядов для обучения. ^[150] CNN также могут применяться для дальнейших задач в анализе временных рядов (например, классификация временных рядов ^[151] или квантильное прогнозирование ^[152] ).

Культурное наследие и 3D-данные

Поскольку археологические находки, такие как глиняные таблички с клинописью , все чаще приобретаются с помощью 3D-сканеров , становятся доступными эталонные наборы данных, включая HeiCuBeDa ^[153], предоставляющий почти 2000 нормализованных 2-D и 3-D наборов данных, подготовленных с помощью GigaMesh Software Framework . ^[154] Таким образом, основанные на кривизне меры используются в сочетании с геометрическими нейронными сетями (GNN), например, для классификации периодов этих глиняных табличек, являющихся одними из древнейших документов человеческой истории. ^[155]^[156]

Тонкая настройка

Для многих приложений данные для обучения не очень доступны. Сверточные нейронные сети обычно требуют большого количества данных для обучения, чтобы избежать переобучения . Распространенным методом является обучение сети на большем наборе данных из связанной области. После того, как параметры сети сошлись, выполняется дополнительный шаг обучения с использованием данных в области для точной настройки весов сети, это известно как трансферное обучение . Кроме того, этот метод позволяет успешно применять архитектуры сверточных сетей к задачам с небольшими наборами обучения. ^[157]

Объяснения, понятные человеку

Сквозное обучение и прогнозирование являются обычной практикой в компьютерном зрении . Однако для критических систем, таких как беспилотные автомобили , требуются интерпретируемые человеком объяснения . ^[158] Благодаря последним достижениям в области визуальной заметности , пространственного внимания и временного внимания , наиболее критические пространственные регионы/временные моменты могут быть визуализированы для обоснования прогнозов CNN. ^[159]^[160]

Связанные архитектуры

Глубокие Q-сети

Глубокая Q-сеть (DQN) — это тип модели глубокого обучения, которая объединяет глубокую нейронную сеть с Q-обучением , формой обучения с подкреплением . В отличие от более ранних агентов обучения с подкреплением, DQN, которые используют CNN, могут обучаться непосредственно из многомерных сенсорных входов посредством обучения с подкреплением. ^[161]

Предварительные результаты были представлены в 2014 году, а сопроводительная статья — в феврале 2015 года . ^[162] Исследование описывало применение к играм Atari 2600. Ему предшествовали другие модели глубокого обучения с подкреплением. ^[163]

Сети глубоких убеждений

Сверточные сети глубокого убеждения (CDBN) имеют структуру, очень похожую на сверточные нейронные сети, и обучаются аналогично сетям глубокого убеждения. Поэтому они используют двумерную структуру изображений, как это делают CNN, и используют предварительное обучение, как сети глубокого убеждения . Они предоставляют общую структуру, которая может использоваться во многих задачах обработки изображений и сигналов. Результаты бенчмаркинга на стандартных наборах данных изображений, таких как CIFAR ^[164], были получены с использованием CDBN. ^[165]

Известные библиотеки

Caffe : Библиотека для сверточных нейронных сетей. Создана Berkeley Vision and Learning Center (BVLC). Поддерживает как CPU, так и GPU. Разработана на C++ и имеет оболочки Python и MATLAB .
Deeplearning4j : Глубокое обучение на Java и Scala на многопроцессорном Spark . Универсальная библиотека глубокого обучения для производственного стека JVM, работающего на движке научных вычислений C++. Позволяет создавать пользовательские слои. Интегрируется с Hadoop и Kafka.
Dlib : набор инструментов для создания реальных приложений машинного обучения и анализа данных на C++.
Microsoft Cognitive Toolkit : набор инструментов глубокого обучения, написанный Microsoft, с несколькими уникальными функциями, повышающими масштабируемость на нескольких узлах. Он поддерживает полноценные интерфейсы для обучения на C++ и Python и с дополнительной поддержкой вывода модели на C# и Java.
TensorFlow : библиотека типа Theano с лицензией Apache 2.0 с поддержкой CPU, GPU, собственного тензорного процессора Google (TPU) ^[166] и мобильных устройств.
Theano : Справочная библиотека глубокого обучения для Python с API, в значительной степени совместимым с популярной библиотекой NumPy . Позволяет пользователю писать символические математические выражения, а затем автоматически генерирует их производные, избавляя пользователя от необходимости кодировать градиенты или обратное распространение. Эти символические выражения автоматически компилируются в код CUDA для быстрой реализации на GPU .
Torch : научная вычислительная среда с широкой поддержкой алгоритмов машинного обучения, написанная на C и Lua .

Смотрите также

Примечания

^ При применении к другим типам данных, отличным от данных изображений, например, к звуковым данным, «пространственное положение» может по-разному соответствовать различным точкам во временной области , частотной области или других математических пространствах .
^ отсюда и название «сверточный слой»
^ Так называемые категориальные данные .

Ссылки

^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (28.05.2015). «Глубокое обучение». Nature . 521 (7553): 436–444. Bibcode :2015Natur.521..436L. doi :10.1038/nature14539. ISSN 1476-4687. PMID 26017442.
^ ab Venkatesan, Ragav; Li, Baoxin (2017-10-23). Сверточные нейронные сети в визуальных вычислениях: краткое руководство. CRC Press. ISBN 978-1-351-65032-8. Архивировано из оригинала 2023-10-16 . Получено 2020-12-13 .
^ ab Balas, Valentina E.; Kumar, Raghvendra; Srivastava, Rajshree (2019-11-19). Последние тенденции и достижения в области искусственного интеллекта и Интернета вещей. Springer Nature. ISBN 978-3-030-32644-9. Архивировано из оригинала 2023-10-16 . Получено 2020-12-13 .
^ Чжан, Инцзе; Сун, Хонг Геок; Йе, Донгсен; Фу, Джерри Ин Си; Чжу, Куньпэн (сентябрь 2020 г.). «Мониторинг процесса плавления порошковой смеси с помощью машинного зрения с использованием гибридных сверточных нейронных сетей». IEEE Transactions on Industrial Informatics . 16 (9): 5769–5779. doi :10.1109/TII.2019.2956078. ISSN 1941-0050. S2CID 213010088. Архивировано из оригинала 2023-07-31 . Получено 2023-08-12 .
^ Червяков, НИ; Ляхов, ПА; Дерябин, МА; Нагорнов, НН; Валуева, МВ; Валуев, ГВ (сентябрь 2020 г.). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network" (Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети). Neurocomputing . 407 : 439–453. doi :10.1016/j.neucom.2020.04.018. S2CID 219470398. Архивировано из оригинала 29.06.2023 . Получено 12.08.2023 . Сверточные нейронные сети представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, обнаружение вредоносных программ, анализ временных рядов в финансах и многие другие.
^ ab Habibi, Aghdam, Hamed (2017-05-30). Руководство по сверточным нейронным сетям: практическое применение для обнаружения и классификации дорожных знаков . Heravi, Elnaz Jahani. Cham, Швейцария. ISBN 9783319575490. OCLC 987790957.{{cite book}}: CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link)
^ abc Homma, Toshiteru; Les Atlas; Robert Marks II (1987). "Искусственная нейронная сеть для пространственно-временных биполярных паттернов: применение к классификации фонем" (PDF) . Advances in Neural Information Processing Systems . 1 : 31–40. Архивировано (PDF) из оригинала 2022-03-31 . Получено 2022-03-31 . Понятие свертки или корреляции, используемое в представленных моделях, популярно в инженерных дисциплинах и широко применяется при проектировании фильтров, систем управления и т. д.
^ Валуева, МВ; Нагорнов, НН; Ляхов, ПА; Валуев, ГВ; Червяков, НИ (2020). «Применение системы остаточных чисел для снижения аппаратных затрат на реализацию сверточной нейронной сети». Математика и компьютеры в моделировании . 177. Elsevier BV: 232–243. doi :10.1016/j.matcom.2020.04.031. ISSN 0378-4754. S2CID 218955622. Сверточные нейронные сети являются перспективным инструментом для решения задачи распознавания образов.
^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013-01-01). Burges, CJC; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, KQ (ред.). Глубокая рекомендация по музыке на основе контента (PDF) . Curran Associates, Inc. стр. 2643–2651. Архивировано (PDF) из оригинала 2022-03-07 . Получено 2022-03-31 .
^ Коллобер, Ронан; Уэстон, Джейсон (2008-01-01). "Унифицированная архитектура для обработки естественного языка". Труды 25-й международной конференции по машинному обучению - ICML '08 . Нью-Йорк, Нью-Йорк, США: ACM. стр. 160–167. doi :10.1145/1390156.1390177. ISBN 978-1-60558-205-4. S2CID 2617020.
^ Авилов, Алексей; Римбер, Себастьен; Попов, Антон; Бугрейн, Лоран (июль 2020 г.). «Методы глубокого обучения для улучшения обнаружения интраоперационной осведомленности с помощью электроэнцефалографических сигналов». 2020 42-я ежегодная международная конференция IEEE Engineering in Medicine & Biology Society (EMBC) (PDF) . Том 2020. Монреаль, Квебек, Канада: IEEE. стр. 142–145. doi :10.1109/EMBC44109.2020.9176228. ISBN 978-1-7281-1990-8. PMID 33017950. S2CID 221386616. Архивировано (PDF) из оригинала 2022-05-19 . Получено 2023-07-21 .
^ ab Tsantekidis, Авраам; Passalis, Николаос; Tefas, Анастасиос; Kanniainen, Юхо; Gabbouj, Монсеф; Iosifidis, Александрос (июль 2017 г.). «Прогнозирование цен на акции из книги лимитных ордеров с использованием сверточных нейронных сетей». 2017 IEEE 19-я конференция по бизнес-информатике (CBI) . Салоники, Греция: IEEE. стр. 7–12. doi :10.1109/CBI.2017.23. ISBN 978-1-5386-3035-8. S2CID 4950757.
^ abc Чжан, Вэй (1988). "Нейронная сеть распознавания инвариантных к сдвигу образов и ее оптическая архитектура". Труды Ежегодной конференции Японского общества прикладной физики . Архивировано из оригинала 2020-06-23 . Получено 2020-06-22 .
^ abc Чжан, Вэй (1990). «Параллельная распределенная модель обработки с локальными пространственно-инвариантными взаимосвязями и ее оптическая архитектура». Applied Optics . 29 (32): 4790–7. Bibcode : 1990ApOpt..29.4790Z. doi : 10.1364/AO.29.004790. PMID 20577468. Архивировано из оригинала 2017-02-06 . Получено 2016-09-22 .
^ abcdef Mouton, Coenraad; Myburgh, Johannes C.; Davel, Marelie H. (2020). «Инвариантность шага и трансляции в сверточных нейронных сетях». В Gerber, Aurona (ред.). Исследования искусственного интеллекта . Коммуникации в компьютерных и информационных науках. Том 1342. Cham: Springer International Publishing. стр. 267–281. arXiv : 2103.10097 . doi :10.1007/978-3-030-66151-9_17. ISBN 978-3-030-66151-9. S2CID 232269854. Архивировано из оригинала 2021-06-27 . Получено 2021-03-26 .
^ Курцман, Томас (20 августа 2019 г.). «Скрытое смещение в наборе данных DUD-E приводит к вводящей в заблуждение производительности глубокого обучения при виртуальном скрининге на основе структур». PLOS ONE . 14 (8): e0220113. Bibcode : 2019PLoSO..1420113C. doi : 10.1371/journal.pone.0220113 . PMC 6701836. PMID 31430292 .
^ abc Фукусима, К. (2007). «Неокогнитрон». Scholarpedia . 2 (1): 1717. Bibcode : 2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .
^ ab Hubel, DH; Wiesel, TN (1968-03-01). «Рецептивные поля и функциональная архитектура полосатой коры головного мозга обезьяны». Журнал физиологии . 195 (1): 215–243. doi :10.1113/jphysiol.1968.sp008455. ISSN 0022-3751. PMC 1557912. PMID 4966457 .
^ ab Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF) . Biological Cybernetics . 36 (4): 193–202. doi :10.1007/BF00344251. PMID 7370364. S2CID 206775608. Архивировано (PDF) из оригинала 3 июня 2014 г. . Получено 16 ноября 2013 г. .
^ ab Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). «Распознавание независимого от субъекта выражения лица с надежным обнаружением лица с использованием сверточной нейронной сети» (PDF) . Neural Networks . 16 (5): 555–559. doi :10.1016/S0893-6080(03)00115-1. PMID 12850007. Архивировано (PDF) из оригинала 13 декабря 2013 г. . Получено 17 ноября 2013 г. .
^ Разоблачение сверточных нейронных сетей: учебное пособие с точки зрения согласованной фильтрации https://arxiv.org/abs/2108.11663v3
^ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1 . LISA Lab. Архивировано из оригинала 28 декабря 2017 г. Получено 31 августа 2013 г.
^ Шолле, Франсуа (2017-04-04). «Xception: Глубокое обучение с глубинно разделяемыми свертками». arXiv : 1610.02357 [cs.CV].
^ abc Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений" (PDF) . Труды Двадцать второй Международной совместной конференции по искусственному интеллекту - Том Второй . 2 : 1237–1242. Архивировано (PDF) из оригинала 5 апреля 2022 г. . Получено 17 ноября 2013 г. .
^ Крижевский , Алекс. «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Архивировано (PDF) из оригинала 25 апреля 2021 г. . Получено 17 ноября 2013 г. .
^ ab Ямагучи, Коити; Сакамото, Кэндзи; Акабане, Тосио; Фудзимото, Ёсидзи (ноябрь 1990 г.). Нейронная сеть для распознавания изолированных слов, не зависящих от говорящего. Первая международная конференция по обработке устной речи (ICSLP 90). Кобе, Япония. Архивировано из оригинала 2021-03-07 . Получено 2019-09-04 .
^ abcd Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (июнь 2012 г.). «Многоколоночные глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 г. по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi :10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. S2CID 2161592.
^ Ю, Фишер; Колтун, Владлен (2016-04-30). «Многомасштабная агрегация контекста с помощью расширенных свёрток». arXiv : 1511.07122 [cs.CV].
^ Чен, Лян-Че; Папандреу, Джордж; Шрофф, Флориан; Адам, Хартвиг (05 декабря 2017 г.). «Переосмысление агрессивной свертки для семантической сегментации изображений». arXiv : 1706.05587 [cs.CV].
^ Дута, Ионут Космин; Георгеску, Мариана Юлиана; Ионеску, Раду Тудор (16 августа 2021 г.). «Контекстные сверточные нейронные сети». arXiv : 2108.07387 [cs.CV].
^ LeCun, Yann. "LeNet-5, convolutional neural networks". Архивировано из оригинала 24 февраля 2021 г. Получено 16 ноября 2013 г.
^ Zeiler, Matthew D.; Taylor, Graham W.; Fergus, Rob (ноябрь 2011 г.). «Адаптивные деконволюционные сети для обучения признакам среднего и высокого уровня». Международная конференция по компьютерному зрению 2011 г. IEEE. стр. 2018–2025. doi :10.1109/iccv.2011.6126474. ISBN 978-1-4577-1102-2.
^ Дюмулен, Винсент; Визин, Франческо (2018-01-11), Руководство по арифметике сверток для глубокого обучения , arXiv : 1603.07285
^ Ван Дайк, Леонард Элиа; Квитт, Роланд; Денцлер, Себастьян Йохен; Грубер, Вальтер Роланд (2021). «Сравнение распознавания объектов у людей и глубоких сверточных нейронных сетей — исследование слежения за глазами». Frontiers in Neuroscience . 15 : 750639. doi : 10.3389/fnins.2021.750639 . ISSN 1662-453X. PMC 8526843. PMID 34690686 .
^ ab Hubel, DH; Wiesel, TN (октябрь 1959). «Рецептивные поля отдельных нейронов в полосатой коре головного мозга кошки». J. Physiol . 148 (3): 574–91. doi :10.1113/jphysiol.1959.sp006308. PMC 1363130. PMID 14403679 .
^ Дэвид Х. Хьюбел и Торстен Н. Визель (2005). Мозг и визуальное восприятие: история 25-летнего сотрудничества. Oxford University Press US. стр. 106. ISBN 978-0-19-517618-6. Архивировано из оригинала 2023-10-16 . Получено 2019-01-18 .
^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Nature . 521 (7553): 436–444. Bibcode : 2015Natur.521..436L. doi : 10.1038/nature14539. PMID 26017442. S2CID 3074096.
^ ab Fukushima, K. (1969). «Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов». Труды IEEE по системной науке и кибернетике . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ ab Шмидхубер, Юрген (2022). «Аннотированная история современного ИИ и глубокого обучения». arXiv : 2212.11279 [cs.NE].
^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
^ Weng, J; Ahuja, N; Huang, TS (1993). «Обучение распознаванию и сегментации трехмерных объектов по двумерным изображениям». 1993 (4-я) Международная конференция по компьютерному зрению . IEEE. стр. 121–128. doi :10.1109/ICCV.1993.378228. ISBN 0-8186-3870-2. S2CID 8619176.
^ ab Schmidhuber, Jürgen (2015). "Глубокое обучение". Scholarpedia . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Архивировано из оригинала 2016-04-19 . Получено 2019-01-20 .
^ ab Waibel, Alex (декабрь 1987 г.). Распознавание фонем с использованием нейронных сетей с задержкой по времени (PDF) . Заседание Института инженеров по электротехнике, информации и связи (IEICE). Токио, Япония.
^ Александр Вайбель и др., Распознавание фонем с использованием нейронных сетей с задержкой по времени. Архивировано 25 февраля 2021 г. в Wayback Machine. Труды IEEE по акустике, речи и обработке сигналов, том 37, № 3, стр. 328–339. Март 1989 г.
^ LeCun, Yann; Bengio, Yoshua (1995). «Сверточные сети для изображений, речи и временных рядов». В Arbib, Michael A. (ред.). Справочник по теории мозга и нейронным сетям (второе изд.). The MIT press. стр. 276–278. Архивировано из оригинала 28.07.2020 . Получено 03.12.2019 .
↑ Джон Б. Хэмпшир и Александр Вайбель, Коннекционистские архитектуры для распознавания фонем у нескольких говорящих. Архивировано 31 марта 2022 г. в Wayback Machine , Достижения в области нейронных систем обработки информации, 1990 г., Морган Кауфманн.
^ Ко, Том; Педдинти, Виджаядитья; Пови, Дэниел; Сельцер, Майкл Л.; Худанпур, Санджив (март 2018 г.). Исследование по дополнению данных реверберационной речи для надежного распознавания речи (PDF) . 42-я Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP 2017). Новый Орлеан, Луизиана, США. Архивировано (PDF) из оригинала 2018-07-08 . Получено 2019-09-04 .
^ Denker, JS, Gardner, WR, Graf, H. P, Henderson, D, Howard, RE, Hubbard, W, Jackel, LD, BaIrd, HS и Guyon (1989) Нейросетевой распознаватель рукописных цифр почтового индекса Архивировано 04.08.2018 в Wayback Machine , AT&T Bell Laboratories
^ ab Y. LeCun, B. Boser, JS Denker, D. Henderson, RE Howard, W. Hubbard, LD Jackel, Обратное распространение ошибки, применяемое для распознавания рукописных почтовых индексов. Архивировано 10 января 2020 г. в Wayback Machine ; AT&T Bell Laboratories
^ ab Zhang, Wei (1991). "Обработка изображений эндотелия роговицы человека на основе обучающей сети". Applied Optics . 30 (29): 4211–7. Bibcode :1991ApOpt..30.4211Z. doi :10.1364/AO.30.004211. PMID 20706526. Архивировано из оригинала 2017-02-06 . Получено 2016-09-22 .
^ ab Zhang, Wei (1994). «Компьютерное обнаружение кластерных микрокальцификаций на цифровых маммограммах с использованием инвариантной к сдвигу искусственной нейронной сети». Medical Physics . 21 (4): 517–24. Bibcode :1994MedPh..21..517Z. doi :10.1118/1.597177. PMID 8058017. Архивировано из оригинала 2017-02-06 . Получено 2016-09-22 .
^ ab Lecun, Y.; Jackel, LD; Bottou, L.; Cortes, C.; Denker, JS; Drucker, H.; Guyon, I.; Muller, UA; Sackinger, E.; Simard, P.; Vapnik, V. (август 1995 г.). Алгоритмы обучения для классификации: сравнение распознавания рукописных цифр (PDF) . World Scientific. стр. 261–276. doi :10.1142/2808. ISBN 978-981-02-2324-3. Архивировано (PDF) из оригинала 2 мая 2023 г.
^ Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (ноябрь 1998 г.). «Градиентное обучение, применяемое для распознавания документов». Труды IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791.
^ Чжан, Вэй (1991). «Обратное распространение ошибок с минимальными энтропийными весами: метод лучшего обобщения двумерных инвариантных к сдвигу нейронных сетей». Труды Международной объединенной конференции по нейронным сетям . Архивировано из оригинала 2017-02-06 . Получено 2016-09-22 .
^ Дэниел Грауп, Руэй Вэнь Лю, Джордж С. Мошиц. «Применение нейронных сетей в обработке медицинских сигналов». Архивировано 28 июля 2020 г. в Wayback Machine . В трудах 27-й конференции IEEE по принятию решений и управлению, стр. 343–347, 1988 г.
^ Дэниел Граупе, Борис Верн, Г. Грюнер, Аарон Филд и Цю Хуан. «Разложение сигналов поверхностной ЭМГ на потенциалы действия отдельных волокон с помощью нейронной сети. Архивировано 04.09.2019 в Wayback Machine ». Труды Международного симпозиума IEEE по схемам и системам, стр. 1008–1011, 1989.
^ Qiu Huang, Daniel Graupe, Yi Fang Huang, Ruey Wen Liu. «Идентификация паттернов срабатывания нейронных сигналов ^{[ нерабочая ссылка ]} ». В Proc. 28th IEEE Decision and Control Conf., стр. 266–271, 1989. https://ieeexplore.ieee.org/document/70115 Архивировано 31.03.2022 в Wayback Machine
^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений (PDF) . Конспект лекций по информатике. Том 2766. Springer. doi :10.1007/b11963. ISBN 978-3-540-40722-5. S2CID 1304548. Архивировано (PDF) из оригинала 2017-08-10 . Получено 2016-12-28 .
^ О, КС; Юнг, К (2004). «Реализация нейронных сетей на GPU». Распознавание образов . 37 (6): 1311–1314. Bibcode : 2004PatRe..37.1311O. doi : 10.1016/j.patcog.2004.01.013.
^ Дэйв Штайнкраус; Патрис Симард; Ян Бак (2005). «Использование графических процессоров для алгоритмов машинного обучения». 12-я Международная конференция по анализу и распознаванию документов (ICDAR 2005) . стр. 1115–1119. doi :10.1109/ICDAR.2005.251. Архивировано из оригинала 2022-03-31 . Получено 2022-03-31 .
^ Кумар Челлапилла; Сид Пури; Патрис Симард (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Lorette, Guy (ред.). Десятый международный семинар по передовым рубежам в распознавании рукописного ввода . Suvisoft. Архивировано из оригинала 2020-05-18 . Получено 2016-03-14 .
^ Хинтон, GE; Осиндеро, S; Тех, YW (июль 2006 г.). «Быстрый алгоритм обучения для сетей с глубокими убеждениями». Neural Computation . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
^ Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). «Жадное обучение глубоких сетей по слоям» (PDF) . Advances in Neural Information Processing Systems : 153–160. Архивировано (PDF) из оригинала 2022-06-02 . Получено 2022-03-31 .
^ Ранзато, Марк Аурелио; Поултни, Кристофер; Чопра, Сумит; ЛеКун, Янн (2007). "Эффективное обучение разреженных представлений с помощью модели на основе энергии" (PDF) . Достижения в области нейронных систем обработки информации . Архивировано (PDF) из оригинала 22.03.2016 . Получено 26.06.2014 .
^ Райна, Р.; Мадхаван, А.; Нг, Эндрю (14 июня 2009 г.). «Крупномасштабное глубокое неконтролируемое обучение с использованием графических процессоров» (PDF) . Труды 26-й ежегодной международной конференции по машинному обучению . ICML '09: Труды 26-й ежегодной международной конференции по машинному обучению. стр. 873–880. doi :10.1145/1553374.1553486. ISBN 9781605585161. S2CID 392458. Архивировано (PDF) из оригинала 8 декабря 2020 г. . Получено 22 декабря 2023 г. .
^ Ciresan, Dan; Meier, Ueli; Gambardella, Luca; Schmidhuber, Jürgen (2010). «Глубокие большие простые нейронные сети для распознавания рукописных цифр». Neural Computation . 22 (12): 3207–3220. arXiv : 1003.0358 . doi :10.1162/NECO_a_00052. PMID 20858131. S2CID 1918673.
^ "Таблица результатов конкурса IJCNN 2011". ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010. Архивировано из оригинала 2021-01-17 . Получено 2019-01-14 .
^ Шмидхубер, Юрген (17 марта 2017 г.). «История соревнований по компьютерному зрению, выигранных глубокими CNN на GPU». Архивировано из оригинала 19 декабря 2018 г. Получено 14 января 2019 г.
^ ab Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (2017-05-24). "Классификация ImageNet с глубокими сверточными нейронными сетями" (PDF) . Сообщения ACM . 60 (6): 84–90. doi :10.1145/3065386. ISSN 0001-0782. S2CID 195908774. Архивировано (PDF) из оригинала 2017-05-16 . Получено 2018-12-04 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF) . Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . doi : 10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692. Архивировано (PDF) из оригинала 2022-04-05 . Получено 2022-03-31 .
^ Viebke, Andre; Pllana, Sabri (2015). «Потенциал Intel (R) Xeon Phi для контролируемого глубокого обучения». 2015 IEEE 17-я Международная конференция по высокопроизводительным вычислениям и коммуникациям, 2015 IEEE 7-й Международный симпозиум по безопасности киберпространства и защите и 2015 IEEE 12-я Международная конференция по встроенному программному обеспечению и системам . IEEE Xplore . IEEE 2015. стр. 758–765. doi :10.1109/HPCC-CSS-ICESS.2015.45. ISBN 978-1-4799-8937-9. S2CID 15411954. Архивировано из оригинала 2023-03-06 . Получено 2022-03-31 .
^ Вибке, Андре; Мемети, Суэджб; Пллана, Сабри; Абрахам, Аджит (2019). «ХАОС: схема распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi». Журнал суперкомпьютеров . 75 (1): 197–227. arXiv : 1702.07908 . doi : 10.1007/s11227-017-1994-x. S2CID 14135321.
^ Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». NIPS'12: Труды 25-й Международной конференции по нейронным системам обработки информации — Том 1. 1 : 1097–1105. Архивировано из оригинала 20.12.2019 . Получено 26.03.2021 — через ACM.
^ abcde Азулай, Аарон; Вайс, Яир (2019). «Почему глубокие сверточные сети так плохо обобщают небольшие преобразования изображений?». Журнал исследований машинного обучения . 20 (184): 1–25. ISSN 1533-7928. Архивировано из оригинала 2022-03-31 . Получено 2022-03-31 .
^ ab Géron, Aurélien (2019). Практическое машинное обучение с Scikit-Learn, Keras и TensorFlow . Севастополь, Калифорния: O'Reilly Media. ISBN 978-1-492-03264-9., стр. 448
^ "CS231n Convolutional Neural Networks for Visual Recognition". cs231n.github.io . Архивировано из оригинала 2019-10-23 . Получено 2017-04-25 .
^ ab Шерер, Доминик; Мюллер, Андреас К.; Бенке, Свен (2010). «Оценка операций объединения в сверточных архитектурах для распознавания объектов» (PDF) . Искусственные нейронные сети (ICANN), 20-я международная конференция по . Салоники, Греция: Springer. стр. 92–101. Архивировано (PDF) из оригинала 2018-04-03 . Получено 2016-12-28 .
^ Грэм, Бенджамин (18 декабря 2014 г.). «Дробное макс-пулирование». arXiv : 1412.6071 [cs.CV].
^ Спрингенберг, Йост Тобиас; Досовицкий, Алексей; Брокс, Томас; Ридмиллер, Мартин (2014-12-21). «Стремление к простоте: все сверточные сети». arXiv : 1412.6806 [cs.LG].
^ Ма, Чжаньюй; Чан, Дунлян; Се, Цзиян; Дин, Ифэн; Вэнь, Шаого; Ли, Сяосюй; Си, Чжунвэй; Го, Цзюнь (2019). «Мелкозернистая классификация транспортных средств с модифицированными сверточным нейронными сетями с максимальным пулом каналов». Труды IEEE по транспортным технологиям . 68 (4). Институт инженеров по электротехнике и электронике (IEEE): 3224–3233. doi :10.1109/tvt.2019.2899972. ISSN 0018-9545. S2CID 86674074.
^ Юй, Динцзюнь; Ван, Ханьли; Чэнь, Пэйцю; Вэй, Чжихуа (2014). «Смешанное объединение для сверточных нейронных сетей». В Мяо, Дуоцянь; Педриц, Витольд; Шлцзак, Доминик; Питерс, Георг; Ху, Цинхуа; Ван, Руйчжи (ред.). Грубые множества и технология знаний . Конспект лекций по информатике. Том 8818. Чам: Springer International Publishing. стр. 364–375. doi :10.1007/978-3-319-11740-9_34. ISBN 978-3-319-11740-9.
^ ab Boureau, Y-Lan; Ponce, Jean; LeCun, Yann (2010-06-21). "Теоретический анализ объединения признаков в визуальном распознавании". Труды 27-й Международной конференции по машинному обучению . ICML'10. Мэдисон, Висконсин, США: Omnipress: 111–118. ISBN 978-1-60558-907-7.
^ Зейлер, Мэтью Д.; Фергус, Роб (2013-01-15), Стохастическое объединение для регуляризации глубоких сверточных нейронных сетей , arXiv : 1301.3557
^ Чжан, Астон; Липтон, Закари; Ли, Му; Смола, Александр Дж. (2024). "14.8. Региональные CNN (R-CNN)". Погружение в глубокое обучение . Кембридж, Нью-Йорк, Порт Мельбурн, Нью-Дели, Сингапур: Cambridge University Press. ISBN 978-1-009-38943-3.
^ Лин, Мин; Чен, Цян; Ян, Шуйчэн (2013). «Сеть в сети». arXiv : 1312.4400 [cs.NE].
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-09-01). «Пространственное пирамидальное объединение в глубоких сверточных сетях для визуального распознавания». Труды IEEE по анализу образов и машинному интеллекту . 37 (9): 1904–1916. arXiv : 1406.4729 . doi : 10.1109/TPAMI.2015.2389824. ISSN 0162-8828. PMID 26353135.
^ Чжай, Сяохуа; Колесников, Александр; Хоулсби, Нил; Бейер, Лукас (июнь 2022 г.). «Масштабирование трансформеров зрения». Конференция IEEE/CVF 2022 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 1204–1213. arXiv : 2106.04560 . doi : 10.1109/CVPR52688.2022.01179. ISBN 978-1-6654-6946-3.
^ Зафар, Афия; Аамир, Мухаммад; Мохд Нави, Назри; Аршад, Али; Риаз, Саман; Альрубан, Абдулрахман; Дутта, Ашит Кумар; Альмотаири, Султан (2022-08-29). "Сравнение методов объединения для сверточных нейронных сетей". Прикладные науки . 12 (17): 8643. doi : 10.3390/app12178643 . ISSN 2076-3417.
^ Gholamalinezhad, Hossein; Khosravi, Hossein (2020-09-16), Методы объединения в глубоких нейронных сетях, обзор, arXiv : 2009.07485 , получено 2024-09-09
^ Романюк, Вадим (2017). «Соответствующее количество и распределение ReLU в сверточных нейронных сетях». Научный вестник НТУУ «Киевский политехнический институт» . 1 (1): 69–78. doi : 10.20535/1810-0546.2017.1.88156 .
^ Ксавье Глорот; Антуан Бордес; Йошуа Бенжио (2011). Глубокие разреженные выпрямительные нейронные сети (PDF) . AISTATS. Архивировано из оригинала (PDF) 2016-12-13 . Получено 2023-04-10 . Функции активации выпрямителя и softplus. Вторая является плавной версией первой.
^ Крижевский, А.; Суцкевер, И.; Хинтон, GE (2012). «Классификация Imagenet с глубокими сверточными нейронными сетями» (PDF) . Достижения в области нейронных систем обработки информации . 1 : 1097–1105. Архивировано (PDF) из оригинала 2022-03-31 . Получено 2022-03-31 .
^ Рибейро, Антонио Х.; Шён, Томас Б. (2021). «Как сверточные нейронные сети справляются с наложением спектров». ICASSP 2021 - 2021 IEEE Международная конференция по акустике, речи и обработке сигналов (ICASSP) . стр. 2755–2759. arXiv : 2102.07757 . doi : 10.1109/ICASSP39728.2021.9414627. ISBN 978-1-7281-7605-5. S2CID 231925012.
^ Myburgh, Johannes C.; Mouton, Coenraad; Davel, Marelie H. (2020). «Отслеживание инвариантности трансляции в CNNS». В Gerber, Aurona (ред.). Исследования искусственного интеллекта . Коммуникации в компьютерных и информационных науках. Том 1342. Cham: Springer International Publishing. стр. 282–295. arXiv : 2104.05997 . doi :10.1007/978-3-030-66151-9_18. ISBN 978-3-030-66151-9. S2CID 233219976. Архивировано из оригинала 2022-01-22 . Получено 2021-03-26 .
^ Ричард, Чжан (2019-04-25). Снова делаем сверточные сети инвариантными к сдвигу. OCLC 1106340711.
^ Jadeberg, Simonyan, Zisserman, Kavukcuoglu, Max, Karen, Andrew, Koray (2015). "Spatial Transformer Networks" (PDF) . Advances in Neural Information Processing Systems . 28 . Архивировано (PDF) из оригинала 2021-07-25 . Получено 2021-03-26 – через NIPS.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ E, Sabour, Sara Frosst, Nicholas Hinton, Geoffrey (2017-10-26). Динамическая маршрутизация между капсулами. OCLC 1106278545.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Matiz, Sergio; Barner, Kenneth E. (2019-06-01). "Индуктивный конформный предиктор для сверточных нейронных сетей: приложения к активному обучению для классификации изображений". Pattern Recognition . 90 : 172–182. Bibcode :2019PatRe..90..172M. doi :10.1016/j.patcog.2019.01.035. ISSN 0031-3203. S2CID 127253432. Архивировано из оригинала 29.09.2021 . Получено 29.09.2021 .
^ Wieslander, Håkan; Harrison, Philip J.; Skogberg, Gabriel; Jackson, Sonya; Fridén, Markus; Karlsson, Johan; Spjuth, Ola; Wählby, Carolina (февраль 2021 г.). «Глубокое обучение с конформным прогнозированием для иерархического анализа крупномасштабных изображений тканей на всех слайдах». IEEE Journal of Biomedical and Health Informatics . 25 (2): 371–380. doi : 10.1109/JBHI.2020.2996300 . ISSN 2168-2208. PMID 32750907. S2CID 219885788.
^ Шривастава, Нитиш; К. Джеффри Хинтон; Алекс Крижевский; Илья Суцкевер; Руслан Салахутдинов (2014). «Dropout: A Simple Way to Prevent Neural Networks from overfitting» (PDF) . Журнал исследований машинного обучения . 15 (1): 1929–1958. Архивировано (PDF) из оригинала 2016-01-19 . Получено 2015-01-03 .
^ «Регуляризация нейронных сетей с использованием DropConnect | ICML 2013 | JMLR W&CP». jmlr.org : 1058–1066. 2013-02-13. Архивировано из оригинала 2017-08-12 . Получено 2015-12-17 .
^ Зейлер, Мэтью Д.; Фергус, Роб (15.01.2013). «Стохастическое объединение для регуляризации глубоких сверточных нейронных сетей». arXiv : 1301.3557 [cs.LG].
^ ab Platt, John; Steinkraus, Dave; Simard, Patrice Y. (август 2003 г.). «Лучшие практики для сверточных нейронных сетей, применяемых для визуального анализа документов – Microsoft Research». Microsoft Research . Архивировано из оригинала 2017-11-07 . Получено 2015-12-17 .
^ Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [cs.NE].
^ "Dropout: A Simple Way to Prevent Neural Networks from Overfitting". jmlr.org . Архивировано из оригинала 2016-03-05 . Получено 2015-12-17 .
^ Хинтон, Джеффри (1979). «Некоторые демонстрации эффектов структурных описаний в ментальных образах». Cognitive Science . 3 (3): 231–250. doi :10.1016/s0364-0213(79)80008-7.
^ Рок, Ирвин. «Система отсчета». Наследие Соломона Аша: Очерки познания и социальной психологии (1990): 243–268.
^ J. Hinton, Лекции Coursera по нейронным сетям, 2012, URL: https://www.coursera.org/learn/neural-networks Архивировано 31 декабря 2016 г. на Wayback Machine
^ Дэйв Гершгорн (18 июня 2018 г.). «Внутренняя история того, как ИИ стал достаточно хорош, чтобы доминировать в Кремниевой долине». Quartz . Архивировано из оригинала 12 декабря 2019 г. Получено 5 октября 2018 г.
^ Лоуренс, Стив; К. Ли Джайлс; А Чунг Цой; Эндрю Д. Бэк (1997). «Распознавание лиц: подход с использованием сверточных нейронных сетей». Труды IEEE по нейронным сетям . 8 (1): 98–113. CiteSeerX 10.1.1.92.5813 . doi :10.1109/72.554195. PMID 18255614. S2CID 2883848.
^ Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). «Подход с использованием сверточных нейронных сетей для объективной оценки качества видео» (PDF) . IEEE Transactions on Neural Networks . 17 (5): 1316–1327. doi :10.1109/TNN.2006.879766. PMID 17001990. S2CID 221185563. Архивировано (PDF) из оригинала 24 февраля 2021 г. . Получено 17 ноября 2013 г. .
^ "ImageNet Large Scale Visual Recognition Competition 2014 (ILSVRC2014)". Архивировано из оригинала 5 февраля 2016 года . Получено 30 января 2016 года .
^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Going depth with convolutions". Конференция IEEE по компьютерному зрению и распознаванию образов, CVPR 2015, Бостон, Массачусетс, США, 7–12 июня 2015 г. IEEE Computer Society. стр. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0.
^ Русаковская, Ольга ; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпати, Андрей ; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр С.; Фэй-Фэй, Ли (2014). « Проблема крупномасштабного визуального распознавания с помощью Image Net ». arXiv : 1409.0575 [cs.CV].
^ «Алгоритм распознавания лиц произведет революцию в поиске изображений». Обзор технологий . 16 февраля 2015 г. Архивировано из оригинала 20 сентября 2020 г. Получено 27 октября 2017 г.
^ Baccouche, Moez; Mamalet, Franck; Wolf, Christian; Garcia, Christophe; Baskurt, Atilla (2011-11-16). "Последовательное глубокое обучение для распознавания человеческих действий". В Salah, Albert Ali; Lepri, Bruno (ред.). Human Behavior Unterstanding . Lecture Notes in Computer Science. Vol. 7065. Springer Berlin Heidelberg. pp. 29–39. CiteSeerX 10.1.1.385.4740 . doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
^ Цзи, Шуйван; Сюй, Вэй; Ян, Мин; Ю, Кай (2013-01-01). «3D сверточные нейронные сети для распознавания человеческих действий». Труды IEEE по анализу образов и машинному интеллекту . 35 (1): 221–231. CiteSeerX 10.1.1.169.4046 . doi :10.1109/TPAMI.2012.59. ISSN 0162-8828. PMID 22392705. S2CID 1923924.
^ Хуан, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (2018). «Распознавание языка жестов на основе видео без временной сегментации». arXiv : 1801.10111 [cs.CV].
^ Карпати, Андрей и др. «Крупномасштабная классификация видео с помощью сверточных нейронных сетей. Архивировано 06.08.2019 на Wayback Machine ». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). 2014.
^ Симонян, Карен; Зиссерман, Эндрю (2014). «Двухпоточные сверточные сети для распознавания действий в видео». arXiv : 1406.2199 [cs.CV].(2014).
^ Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Segment-Tube: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447. Архивировано (PDF) из оригинала 2021-03-01 . Получено 2018-09-14 .
^ Дуань, Сюхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган (2018). «Совместная пространственно-временная локализация действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. doi :10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
^ Тейлор, Грэм В.; Фергус, Роб; ЛеКун, Янн; Бреглер, Кристоф (2010-01-01). Сверточное обучение пространственно-временным признакам. Труды 11-й Европейской конференции по компьютерному зрению: Часть VI. ECCV'10. Берлин, Гейдельберг: Springer-Verlag. С. 140–153. ISBN 978-3-642-15566-6. Архивировано из оригинала 2022-03-31 . Получено 2022-03-31 .
^ Le, QV; Zou, WY; Yeung, SY; Ng, AY (2011-01-01). «Изучение иерархических инвариантных пространственно-временных признаков для распознавания действий с независимым анализом подпространства». CVPR 2011 . CVPR '11. Вашингтон, округ Колумбия, США: IEEE Computer Society. стр. 3361–3368. CiteSeerX 10.1.1.294.5948 . doi :10.1109/CVPR.2011.5995496. ISBN 978-1-4577-0394-2. S2CID 6006618.
^ Грефенстет, Эдвард; Блансом, Фил; де Фрейтас, Нандо; Герман, Карл Мориц (2014-04-29). «Глубокая архитектура для семантического анализа». arXiv : 1404.7296 [cs.CL].
^ Меснил, Грегуар; Дэн, Ли; Гао, Цзяньфэн; Хэ, Сяодун; Шэнь, Йелон (апрель 2014 г.). «Изучение семантических представлений с использованием сверточных нейронных сетей для веб-поиска – Microsoft Research». Microsoft Research . Архивировано из оригинала 2017-09-15 . Получено 2015-12-17 .
^ Кальхбреннер, Нал; Грефенстет, Эдвард; Блансом, Фил (2014-04-08). «Сверточная нейронная сеть для моделирования предложений». arXiv : 1404.2188 [cs.CL].
^ Ким, Юн (2014-08-25). «Сверточные нейронные сети для классификации предложений». arXiv : 1408.5882 [cs.CL].
^ Коллобер, Ронан и Джейсон Уэстон. «Унифицированная архитектура для обработки естественного языка: глубокие нейронные сети с многозадачным обучением. Архивировано 04.09.2019 в Wayback Machine . Труды 25-й международной конференции по машинному обучению. ACM, 2008.
^ Коллобер, Ронан; Уэстон, Джейсон; Ботту, Леон; Карлен, Майкл; Кавукчуоглу, Корай; Кукса, Павел (2011-03-02). «Обработка естественного языка (почти) с нуля». arXiv : 1103.0398 [cs.LG].
^ Инь, В.; Канн, К.; Ю, М.; Шютце, Х. (2017-03-02). «Сравнительное исследование CNN и RNN для обработки естественного языка». arXiv : 1702.01923 [cs.LG].
^ Бай, С.; Колтер, Дж. С.; Колтун, В. (2018). «Эмпирическая оценка общих сверточных и рекуррентных сетей для моделирования последовательностей». arXiv : 1803.01271 [cs.LG].
^ Грубер, Н. (2021). «Обнаружение динамики действия в тексте с помощью рекуррентной нейронной сети». Нейронные вычисления и приложения . 33 (12): 15709–15718. doi :10.1007/S00521-021-06190-5. S2CID 236307579.
^ Хаотянь, Дж.; Чжун, Ли; Цяньсяо, Ли (2021). «Теория аппроксимации сверточных архитектур для моделирования временных рядов». Международная конференция по машинному обучению . arXiv : 2107.09355 .
^ Жэнь, Ханьшэн; Сюй, Бисюн; Ван, Юйцзин; И, Чао; Хуан, Конгруй; Коу, Сяоюй; Син, Тони; Ян, Мао; Тун, Цзе; Чжан, Ци (2019). Служба обнаружения аномалий временных рядов в Microsoft | Труды 25-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . arXiv : 1906.03821 . doi : 10.1145/3292500.3330680. S2CID 182952311.
^ Уоллах, Ижар; Дзамба, Майкл; Хейфиц, Абрахам (2015-10-09). «AtomNet: глубокая сверточная нейронная сеть для прогнозирования биоактивности при структурно-ориентированном поиске лекарств». arXiv : 1510.02855 [cs.LG].
^ Йосински, Джейсон; Клун, Джефф; Нгуен, Ань; Фукс, Томас; Липсон, Ход (2015-06-22). «Понимание нейронных сетей с помощью глубокой визуализации». arXiv : 1506.06579 [cs.CV].
^ "Стартап из Торонто имеет более быстрый способ открытия эффективных лекарств". The Globe and Mail . Архивировано из оригинала 20-10-2015 . Получено 09-11-2015 .
^ "Стартап использует суперкомпьютеры для поиска лекарств". KQED Future of You . 2015-05-27. Архивировано из оригинала 2018-12-06 . Получено 2015-11-09 .
^ Челлапилла, К; Фогель, ДБ (1999). «Развитие нейронных сетей для игры в шашки без опоры на экспертные знания». IEEE Trans Neural Netw . 10 (6): 1382–91. doi :10.1109/72.809083. PMID 18252639.
^ Челлапилла, К.; Фогель, ДБ (2001). «Развитие программы-эксперта по игре в шашки без использования человеческого опыта». Труды IEEE по эволюционным вычислениям . 5 (4): 422–428. doi :10.1109/4235.942536.
^ Фогель, Дэвид (2001). Blondie24: Игра на грани ИИ . Сан-Франциско, Калифорния: Morgan Kaufmann. ISBN 978-1558607835.
^ Кларк, Кристофер; Сторки, Амос (2014). «Обучение глубоких сверточных нейронных сетей игре в го». arXiv : 1412.3409 [cs.AI].
^ Мэддисон, Крис Дж.; Хуан, Аджа; Суцкевер, Илья; Сильвер, Дэвид (2014). «Оценка хода в го с использованием глубоких сверточных нейронных сетей». arXiv : 1412.6564 [cs.LG].
^ "AlphaGo – Google DeepMind". Архивировано из оригинала 30 января 2016 года . Получено 30 января 2016 года .
^ Бай, Шаоцзе; Колтер, Дж. Зико; Колтун, Владлен (2018-04-19). «Эмпирическая оценка универсальных сверточных и рекуррентных сетей для моделирования последовательностей». arXiv : 1803.01271 [cs.LG].
^ Ю, Фишер; Колтун, Владлен (2016-04-30). «Многомасштабная агрегация контекста с помощью расширенных свёрток». arXiv : 1511.07122 [cs.CV].
^ Боровых, Анастасия; Бохте, Сандер; Остерли, Корнелис В. (17.09.2018). «Условное прогнозирование временных рядов с помощью сверточных нейронных сетей». arXiv : 1703.04691 [stat.ML].
^ Миттельман, Рони (2015-08-03). «Моделирование временных рядов с помощью недецимированных полностью сверточных нейронных сетей». arXiv : 1508.00317 [stat.ML].
^ Чэнь, Итянь; Кан, Яньфэй; Чэнь, Ишон; Ван, Цзычжуо (2019-06-11). «Вероятностное прогнозирование с помощью временной сверточной нейронной сети». arXiv : 1906.04397 [stat.ML].
^ Чжао, Бендонг; Лу, Хуаньчжан; Чэнь, Шанфэн; Лю, Цзюньлян; У, Дунъя (2017-02-01). «Сверточные нейронные сети для классов временных рядов». Журнал системной инженерии и электроники . 28 (1): 162–169. doi :10.21629/JSEE.2017.01.18.
^ Петнехази, Габор (21 августа 2019 г.). «QCNN: Квантильная сверточная нейронная сеть». arXiv : 1908.07978 [cs.LG].
^ Хуберт Мара (2019-06-07), HeiCuBeDa Hilprecht – Гейдельбергский клинописный эталонный набор данных для коллекции Хильпрехта (на немецком языке), heiDATA – институциональный репозиторий исследовательских данных Гейдельбергского университета, doi : 10.11588/data/IE8CCN
^ Хуберт Мара и Бартош Богач (2019), «Взлом кода на сломанных табличках: задача обучения аннотированной клинописи в нормализованных 2D- и 3D-наборах данных», Труды 15-й Международной конференции по анализу и распознаванию документов (ICDAR) (на немецком языке), Сидней, Австралия, стр. 148–153, doi : 10.1109/ICDAR.2019.00032, ISBN 978-1-7281-3014-9, S2CID 211026941
^ Богач, Бартош; Мара, Хуберт (2020), «Классификация периодов трехмерных клинописных табличек с помощью геометрических нейронных сетей», Труды 17-й Международной конференции по передовым рубежам распознавания рукописного ввода (ICFHR) , Дортмунд, Германия
^ Презентация статьи ICFHR о классификации периодов трехмерных клинописных табличек с помощью геометрических нейронных сетей на YouTube
^ Дурджой Сен Майтра; Уджвал Бхаттачарья; СК Паруи, «Общий подход к распознаванию рукописных символов нескольких сценариев на основе CNN» Архивировано 16 октября 2023 г. в Wayback Machine , в Document Analysis and Recognition (ICDAR), 2015 г. 13-я Международная конференция по, т., №, стр. 1021–1025, 23–26 августа 2015 г.
^ "NIPS 2017". Симпозиум по интерпретируемому машинному обучению . 2017-10-20. Архивировано из оригинала 2019-09-07 . Получено 2018-09-12 .
^ Занг, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, Ган; Чжэн, Наньнин (2018). «Временная взвешенная сверточная нейронная сеть на основе внимания для распознавания действий». Приложения и инновации в области искусственного интеллекта . Достижения IFIP в области информационных и коммуникационных технологий. Том 519. Чам: Springer International Publishing. С. 97–108. arXiv : 1803.07179 . doi :10.1007/978-3-319-92007-8_9. ISBN 978-3-319-92006-1. ISSN 1868-4238. S2CID 4058889.
^ Ван, Ле; Зан, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-06-21). "Распознавание действий с помощью сверточной нейронной сети с временным весом, учитывающей внимание" (PDF) . Датчики . 18 (7): 1979. Bibcode :2018Senso..18.1979W. doi : 10.3390/s18071979 . ISSN 1424-8220. PMC 6069475 . PMID 29933555. Архивировано (PDF) из оригинала 2018-09-13 . Получено 2018-09-14 .
^ Онг, Хао Йи; Чавес, Кевин; Хонг, Август (2015-08-18). «Распределенное глубокое Q-обучение». arXiv : 1508.04186v2 [cs.LG].
^ Мних, Владимир и др. (2015). «Управление на уровне человека посредством глубокого обучения с подкреплением». Nature . 518 (7540): 529–533. Bibcode :2015Natur.518..529M. doi :10.1038/nature14236. PMID 25719670. S2CID 205242740.
^ Sun, R.; Sessions, C. (июнь 2000 г.). «Самосегментация последовательностей: автоматическое формирование иерархий последовательных поведений». Труды IEEE по системам, человеку и кибернетике — часть B: Кибернетика . 30 (3): 403–418. CiteSeerX 10.1.1.11.226 . doi :10.1109/3477.846230. ISSN 1083-4419. PMID 18252373.
^ "Convolutional Deep Belief Networks on CIFAR-10" (PDF) . Архивировано (PDF) из оригинала 2017-08-30 . Получено 2017-08-18 .
^ Ли, Хонглак; Гросс, Роджер; Ранганат, Раджеш; Нг, Эндрю Й. (1 января 2009 г.). «Сверточные сети глубоких убеждений для масштабируемого неконтролируемого обучения иерархических представлений». Труды 26-й ежегодной международной конференции по машинному обучению . ACM. стр. 609–616. CiteSeerX 10.1.1.149.6800 . doi :10.1145/1553374.1553453. ISBN 9781605585161. S2CID 12008458.
↑ Cade Metz (18 мая 2016 г.). «Google создала собственные чипы для питания своих ботов с искусственным интеллектом». Wired . Архивировано из оригинала 13 января 2018 г. Получено 6 марта 2017 г.

Внешние ссылки

CS231n: Сверточные нейронные сети для визуального распознавания — Стэнфордский курс по информатике Андрея Карпати о сверточных нейронных сетях в компьютерном зрении
vdumoulin/conv_arithmetic: Технический отчет по арифметике сверток в контексте глубокого обучения. Анимации сверток.