Глубокое обучение

Глубокое обучение — это подмножество методов машинного обучения , которые используют нейронные сети для обучения представлений . Область черпает вдохновение из биологической нейронауки и сосредоточена вокруг укладки искусственных нейронов в слои и «обучения» их обработке данных. Прилагательное «глубокое» относится к использованию нескольких слоев (от трех до нескольких сотен или тысяч) в сети. Используемые методы могут быть контролируемыми , полуконтролируемыми или неконтролируемыми . ^[2]

Некоторые распространенные архитектуры сетей глубокого обучения включают полностью связанные сети , сети глубокого убеждения , рекуррентные нейронные сети , сверточные нейронные сети , генеративные состязательные сети , трансформаторы и поля нейронного излучения . Эти архитектуры были применены в таких областях, как компьютерное зрение , распознавание речи , обработка естественного языка , машинный перевод , биоинформатика , разработка лекарств , анализ медицинских изображений , климатология , проверка материалов и программы настольных игр , где они дали результаты, сопоставимые с результатами человеческого эксперта, а в некоторых случаях и превосходящие их. ^[3]^[4]^[5]

Ранние формы нейронных сетей были вдохновлены обработкой информации и распределенными узлами связи в биологических системах , в частности, в человеческом мозге . Однако современные нейронные сети не предназначены для моделирования функций мозга организмов и, как правило, рассматриваются как низкокачественные модели для этой цели. ^[6]

Обзор

Большинство современных моделей глубокого обучения основаны на многослойных нейронных сетях , таких как сверточные нейронные сети и трансформаторы , хотя они также могут включать пропозициональные формулы или скрытые переменные, организованные послойно в глубоких генеративных моделях, таких как узлы в глубоких сетях убеждений и глубоких машинах Больцмана . ^[7]

По сути, глубокое обучение относится к классу алгоритмов машинного обучения , в которых иерархия слоев используется для преобразования входных данных в немного более абстрактное и составное представление. Например, в модели распознавания изображений необработанным входом может быть изображение (представленное как тензор пикселей ). Первый репрезентативный слой может попытаться идентифицировать базовые формы, такие как линии и круги, второй слой может составлять и кодировать расположения краев, третий слой может кодировать нос и глаза, а четвертый слой может распознавать, что изображение содержит лицо.

Важно отметить, что процесс глубокого обучения может самостоятельно узнать, какие признаки оптимально разместить на каком уровне . До глубокого обучения методы машинного обучения часто включали ручную разработку признаков для преобразования данных в более подходящее представление для работы алгоритма классификации. В подходе глубокого обучения признаки не создаются вручную, и модель автоматически обнаруживает полезные представления признаков из данных. Это не устраняет необходимость ручной настройки; например, различное количество слоев и размеры слоев могут обеспечивать разные степени абстракции. ^[8]^[2]

Слово «глубокий» в «глубоком обучении» относится к числу слоев, через которые преобразуются данные. Точнее, системы глубокого обучения имеют существенную глубину пути присвоения кредита (CAP). CAP — это цепочка преобразований от входа к выходу. CAP описывают потенциально причинно-следственные связи между входом и выходом. Для нейронной сети прямого распространения глубина CAP равна глубине сети и равна числу скрытых слоев плюс один (поскольку выходной слой также параметризован). Для рекуррентных нейронных сетей , в которых сигнал может распространяться через слой более одного раза, глубина CAP потенциально неограниченна. ^[9] Никакой общепринятый порог глубины не разделяет поверхностное обучение от глубокого обучения, но большинство исследователей сходятся во мнении, что глубокое обучение включает глубину CAP выше двух. Было показано, что CAP глубины два является универсальным аппроксиматором в том смысле, что он может эмулировать любую функцию. ^[10] Помимо этого, большее количество слоев не добавляет к способности сети аппроксимировать функцию. Глубокие модели (CAP > двух) способны извлекать лучшие признаки, чем поверхностные модели, и, следовательно, дополнительные слои помогают эффективно изучать признаки.

Архитектуры глубокого обучения могут быть построены с помощью жадного метода послойного анализа. ^[11] Глубокое обучение помогает распутать эти абстракции и выбрать, какие функции улучшают производительность. ^[8]

Алгоритмы глубокого обучения могут применяться к задачам обучения без учителя. Это важное преимущество, поскольку немаркированные данные более распространены, чем маркированные. Примерами глубоких структур, которые могут быть обучены без учителя, являются сети глубоких убеждений . ^[8]^[12]

Термин «глубокое обучение» был введен в сообщество машинного обучения Риной Дехтер в 1986 году ^[13] , а в искусственные нейронные сети Игорем Айзенбергом и его коллегами в 2000 году в контексте нейронов с булевым порогом. ^[14]^[15] Хотя история его появления, по-видимому, более сложная. ^[16]

Интерпретации

Глубокие нейронные сети обычно интерпретируются в терминах универсальной аппроксимационной теоремы ^[17]^[18]^[19]^[20]^[21] или вероятностного вывода . ^[22]^[23]^[8]^[9]^[24]

Классическая теорема универсальной аппроксимации касается способности нейронных сетей прямого распространения с одним скрытым слоем конечного размера аппроксимировать непрерывные функции . ^[17]^[18]^[19]^[20] В 1989 году первое доказательство было опубликовано Джорджем Цибенко для сигмоидальных функций активации ^[17] и было обобщено на многослойные архитектуры прямого распространения в 1991 году Куртом Хорником. ^[18] Недавние работы также показали, что универсальное приближение справедливо и для неограниченных функций активации, таких как выпрямленный линейный блок Кунихико Фукусимы . [ ^25]^[26]

Универсальная теорема аппроксимации для глубоких нейронных сетей касается емкости сетей с ограниченной шириной, но глубина может расти. Лу и др. ^[21] доказали, что если ширина глубокой нейронной сети с активацией ReLU строго больше входного измерения, то сеть может аппроксимировать любую интегрируемую по Лебегу функцию ; если ширина меньше или равна входному измерению, то глубокая нейронная сеть не является универсальным аппроксиматором.

Вероятностная интерпретация ^[24] происходит из области машинного обучения . Она включает вывод, ^[23]^[7]^[8]^[9]^[12]^[24], а также концепции оптимизации обучения и тестирования , связанные с подгонкой и обобщением , соответственно. Более конкретно, вероятностная интерпретация рассматривает нелинейность активации как кумулятивную функцию распределения . ^[24] Вероятностная интерпретация привела к введению исключения в качестве регуляризатора в нейронных сетях. Вероятностная интерпретация была введена исследователями, включая Хопфилда , Видроу и Нарендру , и популяризирована в таких исследованиях, как исследование Бишопа . ^[27]

История

До 1980 г.

Существует два типа искусственных нейронных сетей (ИНС): нейронные сети прямого распространения (НСП) или многослойные персептроны (МСП) и рекуррентные нейронные сети (РНС). В структуре связей РНС есть циклы, в структурах связей ФНС их нет. В 1920-х годах Вильгельм Ленц и Эрнст Изинг создали модель Изинга ^[28]^[29] , которая по сути является необучаемой архитектурой РНС, состоящей из пороговых элементов, подобных нейронам. В 1972 году Шуничи Амари сделал эту архитектуру адаптивной. ^[30]^[31] Его обучающаяся RNN была переиздана Джоном Хопфилдом в 1982 году. ^[32] Другие ранние рекуррентные нейронные сети были опубликованы Каору Накано в 1971 году. ^[33]^[34] Уже в 1948 году Алан Тьюринг выпустил работу по теме «Интеллектуальные машины», которая не была опубликована при его жизни, ^[35] содержащую «идеи, связанные с искусственной эволюцией и обучающимися RNN». ^[31]

Фрэнк Розенблатт (1958) ^[36] предложил персептрон, многослойный персептрон с 3 слоями: входной слой, скрытый слой со случайными весами, которые не обучались, и выходной слой. Позже он опубликовал книгу 1962 года, в которой также были представлены варианты и компьютерные эксперименты, включая версию с четырехслойными персептронами «с адаптивными предтерминальными сетями», где последние два слоя обучались весам (здесь он отдает должное HD Block и BW Knight). ^[37]^{: раздел 16} В книге цитируется более ранняя сеть RD Joseph (1960) ^[38], «функционально эквивалентная вариации» этой четырехслойной системы (в книге Джозеф упоминается более 30 раз). Следует ли поэтому считать Джозефа создателем правильных адаптивных многослойных персептронов с обучающимися скрытыми единицами? К сожалению, алгоритм обучения не был функциональным и был предан забвению.

Первым работающим алгоритмом глубокого обучения был метод групповой обработки данных , метод обучения произвольно глубоких нейронных сетей, опубликованный Алексеем Ивахненко и Лапой в 1965 году. Они рассматривали его как форму полиномиальной регрессии ^[39] или обобщение персептрона Розенблатта. ^[40] В статье 1971 года была описана глубокая сеть с восемью слоями, обученная этим методом ^[41] , который основан на послойном обучении посредством регрессионного анализа. Избыточные скрытые единицы отсекаются с использованием отдельного набора проверки. Поскольку функции активации узлов являются полиномами Колмогорова-Габора, они также были первыми глубокими сетями с мультипликативными единицами или «воротами». ^[31]

Первый многослойный персептрон глубокого обучения , обученный стохастическим градиентным спуском ^[42], был опубликован в 1967 году Шуничи Амари . ^[43] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойный многослойный персептрон с двумя модифицируемыми слоями обучился внутренним представлениям для классификации нелинейно разделимых классов образов. ^[31] Последующие разработки в области аппаратных средств и настройки гиперпараметров сделали сквозной стохастический градиентный спуск доминирующей в настоящее время методикой обучения.

В 1969 году Кунихико Фукусима представил функцию активации ReLU (выпрямленная линейная единица) . ^[25]^[31] Выпрямитель стал самой популярной функцией активации для глубокого обучения. ^[44]

Архитектуры глубокого обучения для сверточных нейронных сетей (CNN) со сверточными слоями и слоями понижения дискретизации начались с Неокогнитрона, представленного Кунихико Фукусимой в 1979 году, хотя и не обученного методом обратного распространения. ^[45]^[46]

Обратное распространение — это эффективное применение цепного правила, выведенного Готфридом Вильгельмом Лейбницем в 1673 году ^[47] для сетей дифференцируемых узлов. Термин «обратно распространяющиеся ошибки» был фактически введен в 1962 году Розенблаттом, ^[37] но он не знал, как это реализовать, хотя у Генри Дж. Келли был непрерывный предшественник обратного распространения в 1960 году в контексте теории управления . ^[48] Современная форма обратного распространения была впервые опубликована в магистерской диссертации Сеппо Линнайнмаа (1970). ^[49]^[50]^[31] GM Ostrovski et al. переиздал его в 1971 году. ^[51]^[52] Пол Вербос применил обратное распространение к нейронным сетям в 1982 году ^[53] (его докторская диссертация 1974 года, переизданная в книге 1994 года, ^[54] еще не описывала алгоритм ^[52] ). В 1986 году Дэвид Э. Рамельхарт и др. популяризировали обратное распространение, но не ссылались на оригинальную работу. ^[55]^[56]

1980-е-2000-е годы

Нейронная сеть с задержкой по времени (TDNN) была представлена в 1987 году Алексом Вайбелем для применения CNN к распознаванию фонем. Она использовала свертки, распределение веса и обратное распространение. ^[57]^[58] В 1988 году Вэй Чжан применил обученную методом обратного распространения CNN к распознаванию алфавита. ^[59] В 1989 году Янн Лекун и др. создали CNN под названием LeNet для распознавания рукописных почтовых индексов в почте. Обучение заняло 3 дня. ^[60] В 1990 году Вэй Чжан реализовал CNN на оптическом вычислительном оборудовании. ^[61] В 1991 году CNN была применена для сегментации объектов медицинских изображений ^[62] и обнаружения рака груди на маммограммах. ^[63] LeNet -5 (1998), 7-уровневая сверточная нейронная сеть Яна Лекуна и др., которая классифицирует цифры, применялась несколькими банками для распознавания рукописных цифр на чеках, оцифрованных в изображения размером 32x32 пикселя. ^[64]

Рекуррентные нейронные сети (RNN) ^[28]^[30] получили дальнейшее развитие в 1980-х годах. Рекуррентность используется для обработки последовательностей, и когда рекуррентная сеть развернута, она математически напоминает глубокий слой прямой связи. Следовательно, они имеют схожие свойства и проблемы, и их разработки имели взаимное влияние. В RNN двумя ранними влиятельными работами были сеть Джордана (1986) ^[65] и сеть Элмана (1990), ^[66] , которые применили RNN для изучения проблем когнитивной психологии .

В 1980-х годах обратное распространение не работало хорошо для глубокого обучения с длинными путями присвоения кредитов. Чтобы преодолеть эту проблему, в 1991 году Юрген Шмидхубер предложил иерархию RNN, предварительно обученных по одному уровню за раз с помощью самоконтролируемого обучения , где каждая RNN пытается предсказать свой собственный следующий вход, который является следующим неожиданным входом RNN ниже. ^[67]^[68] Этот «компрессор нейронной истории» использует предиктивное кодирование для изучения внутренних представлений в нескольких самоорганизующихся временных масштабах. Это может существенно облегчить нисходящее глубокое обучение. Иерархию RNN можно свернуть в одну RNN, перегнав сеть фрагментов более высокого уровня в сеть автоматизатора более низкого уровня . ^[67]^[68]^[31] В 1993 году компрессор нейронной истории решил задачу «Очень глубокого обучения», которая требовала более 1000 последовательных слоев в RNN, развернутой во времени. ^[69] Буква «P» в аббревиатуре ChatGPT относится к такой предварительной подготовке.

Дипломная работа Зеппа Хохрайтера (1991) ^[70] реализовала компрессор нейронной истории, ^[67] а также определила и проанализировала проблему исчезающего градиента . ^[70]^[71] Хохрайтер предложил рекуррентные остаточные связи для решения проблемы исчезающего градиента. Это привело к долгой краткосрочной памяти (LSTM), опубликованной в 1995 году. ^[72] LSTM может изучать задачи «очень глубокого обучения» ^[9] с длинными путями назначения кредитов, которые требуют воспоминаний о событиях, которые произошли тысячи дискретных временных шагов назад. Та LSTM еще не была современной архитектурой, для которой требовался «забывающий вентиль», введенный в 1999 году, ^[73] который стал стандартной архитектурой RNN.

В 1991 году Юрген Шмидхубер также опубликовал состязательные нейронные сети, которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети равен проигрышу другой сети. ^[74]^[75] Первая сеть представляет собой генеративную модель , которая моделирует распределение вероятностей по выходным шаблонам. Вторая сеть обучается методом градиентного спуска , чтобы предсказывать реакции окружающей среды на эти шаблоны. Это называлось «искусственным любопытством». В 2014 году этот принцип был использован в генеративных состязательных сетях (GAN). ^[76]

В 1985–1995 годах, вдохновленные статистической механикой, Терри Сейновски , Питер Даян , Джеффри Хинтон и др. разработали несколько архитектур и методов , включая машину Больцмана , ^[77] ограниченную машину Больцмана , ^[78] машину Гельмгольца , ^[79] и алгоритм бодрствования-сна . ^[80] Они были разработаны для неконтролируемого обучения глубоких генеративных моделей. Однако они были более вычислительно затратными по сравнению с обратным распространением. Алгоритм машинного обучения Больцмана, опубликованный в 1985 году, был недолго популярен, прежде чем его затмил алгоритм обратного распространения в 1986 году. (стр. 112 ^[81] ). Сеть 1988 года стала современным достижением в области предсказания структуры белка , раннего применения глубокого обучения в биоинформатике. ^[82]

Как поверхностное, так и глубокое обучение (например, рекуррентные сети) ИНС для распознавания речи изучались в течение многих лет. ^[83]^[84]^[85] Эти методы никогда не превосходили технологию неоднородной внутренней ручной модели смеси Гаусса / скрытой марковской модели (GMM-HMM), основанную на генеративных моделях речи, обученных дискриминационно. ^[86] Были проанализированы основные трудности, включая уменьшение градиента ^[70] и слабую временную корреляционную структуру в нейронных предсказательных моделях. ^[87]^[88] Дополнительными трудностями были отсутствие данных для обучения и ограниченная вычислительная мощность.

Большинство исследователей распознавания речи отошли от нейронных сетей, чтобы заняться генеративным моделированием. Исключением был SRI International в конце 1990-х годов. Финансируемый АНБ и DARPA правительства США , SRI исследовал распознавание речи и говорящего . Группа по распознаванию говорящего под руководством Ларри Хека сообщила о значительном успехе глубоких нейронных сетей в обработке речи в бенчмарке NIST Speaker Recognition 1998 года. ^[89]^[90] Он был развернут в Nuance Verifier, представляя собой первое крупное промышленное применение глубокого обучения. ^[91]

Принцип возвышения «сырых» признаков над оптимизацией, созданной вручную, был впервые успешно исследован в архитектуре глубокого автокодировщика на «сырых» спектрограммах или линейных фильтрах-банках признаков в конце 1990-х годов, ^[90] показав его превосходство над признаками Mel-Cepstral , которые содержат этапы фиксированного преобразования из спектрограмм. Сырые признаки речи, формы волн , позже дали превосходные результаты в большем масштабе. ^[92]

2000-е

Нейронные сети утратили актуальность, и в 1990-х и 2000-х годах предпочтение отдавалось более простым моделям, использующим функции, созданные вручную для решения конкретных задач, например, фильтрам Габора и машинам опорных векторов (SVM). Это объяснялось вычислительной стоимостью искусственных нейронных сетей и отсутствием понимания того, как мозг организует свои биологические сети. ^{[ необходима ссылка ]}

В 2003 году LSTM стала конкурировать с традиционными распознавателями речи в некоторых задачах. ^[93] В 2006 году Алекс Грейвс , Сантьяго Фернандес, Фаустино Гомес и Шмидхубер объединили ее с коннекционистской временной классификацией (CTC) ^[94] в стеках LSTM. ^[95] В 2009 году она стала первой RNN, выигравшей конкурс по распознаванию образов в распознавании связанного рукописного текста . ^[96]^[9]

В 2006 году публикации Джеффа Хинтона , Руслана Салахутдинова , Осиндеро и Тех ^[97]^{[98] были разработаны} сети глубоких убеждений для генеративного моделирования. Они обучаются путем обучения одной ограниченной машины Больцмана, затем замораживания ее и обучения другой поверх первой, и так далее, затем опционально тонкой настройки с использованием контролируемого обратного распространения. ^[99] Они могли моделировать высокоразмерные распределения вероятностей, такие как распределение изображений MNIST , но сходимость была медленной. ^[100]^[101]^[102]

Влияние глубокого обучения на промышленность началось в начале 2000-х годов, когда CNN уже обрабатывали приблизительно от 10% до 20% всех чеков, выписанных в США, по словам Яна Лекуна. ^[103] Промышленное применение глубокого обучения для крупномасштабного распознавания речи началось около 2010 года.

Семинар NIPS 2009 года по глубокому обучению для распознавания речи был мотивирован ограничениями глубоких генеративных моделей речи и возможностью того, что при наличии более мощного оборудования и крупномасштабных наборов данных глубокие нейронные сети могут стать практичными. Считалось, что предварительное обучение DNN с использованием генеративных моделей глубоких сетей убеждений (DBN) позволит преодолеть основные трудности нейронных сетей. Однако было обнаружено, что замена предварительного обучения большими объемами обучающих данных для простого обратного распространения при использовании DNN с большими, зависящими от контекста выходными слоями давала значительно более низкие показатели ошибок, чем в тогдашней передовой модели гауссовской смеси (GMM)/скрытой марковской модели (HMM), а также чем в более продвинутых системах на основе генеративных моделей. ^[104] Природа ошибок распознавания, производимых двумя типами систем, была характерно разной, ^[105] предлагая технические идеи о том, как интегрировать глубокое обучение в существующую высокоэффективную систему декодирования речи во время выполнения, развернутую всеми основными системами распознавания речи. ^[23]^[106]^[107] Анализ, проведенный в 2009–2010 годах, сравнивающий GMM (и другие генеративные модели речи) с моделями DNN, стимулировал ранние промышленные инвестиции в глубокое обучение для распознавания речи. ^[105] Этот анализ был выполнен с сопоставимой производительностью (менее 1,5% по частоте ошибок) между дискриминативными DNN и генеративными моделями. ^[104]^[105]^[108] В 2010 году исследователи расширили глубокое обучение с TIMIT на распознавание речи с большим словарем, приняв большие выходные слои DNN на основе зависимых от контекста состояний HMM, построенных с помощью деревьев решений . ^[109]^[110]^[111]^[106]

Революция глубокого обучения

Почему глубокое обучение является подмножеством машинного обучения, а машинное обучение — подмножеством искусственного интеллекта (ИИ)

Революция глубокого обучения началась с компьютерного зрения на базе CNN и GPU.

Хотя CNN, обученные методом обратного распространения, существовали десятилетиями, а реализации NN на GPU — годами, ^[112] включая CNN, ^[113] для прогресса в области компьютерного зрения требовались более быстрые реализации CNN на GPU. Позже, по мере того как глубокое обучение становилось все более распространенным, были разработаны специализированные аппаратные средства и оптимизации алгоритмов специально для глубокого обучения. ^[114]

Ключевым достижением революции глубокого обучения стали аппаратные достижения, особенно GPU. Некоторые ранние работы датируются 2004 годом. ^[112]^[113] В 2009 году Райна, Мадхаван и Эндрю Нг сообщили о 100-миллионной глубокой сети убеждений, обученной на 30 графических процессорах Nvidia GeForce GTX 280 , ранней демонстрации глубокого обучения на основе GPU. Они сообщили о до 70-кратном ускорении обучения. ^[115]

В 2011 году CNN под названием DanNet ^[116]^[117] Дэна Чиресана, Ули Мейера, Джонатана Маски, Луки Марии Гамбарделлы и Юргена Шмидхубера впервые достигла сверхчеловеческих результатов в конкурсе визуального распознавания образов, превзойдя традиционные методы в 3 раза. ^[9] Затем она выиграла еще несколько конкурсов. ^[118]^[119] Они также показали, как CNN с максимальным пулом на GPU значительно улучшили производительность. ^[3]

В 2012 году Эндрю Нг и Джефф Дин создали FNN, которая научилась распознавать концепции более высокого уровня, такие как кошки, только просматривая немаркированные изображения, взятые из видеороликов YouTube . ^[120]

В октябре 2012 года AlexNet Алекса Крижевского , Ильи Суцкевера и Джеффри Хинтона ^[4] выиграл крупномасштабный конкурс ImageNet со значительным отрывом от методов поверхностного машинного обучения. Дальнейшие постепенные улучшения включали сеть VGG-16 Карена Симоняна и Эндрю Зиссермана ^{[121] и}Inceptionv3 от Google ^[122 ]

Успех в классификации изображений затем распространился на более сложную задачу создания описаний (подписей) для изображений, часто в виде комбинации CNN и LSTM. ^[123]^[124]^[125]

В 2014 году последним словом техники было обучение «очень глубокой нейронной сети» с 20–30 слоями. ^[126] Наложение слишком большого количества слоев приводило к резкому снижению точности обучения , ^[127] известному как проблема «деградации». ^[128] В 2015 году были разработаны две методики обучения очень глубоких сетей: Highway Network была опубликована в мае 2015 года, а остаточная нейронная сеть (ResNet) ^[129] — в декабре 2015 года. ResNet ведет себя как Highway Net с открытыми воротами.

Примерно в то же время глубокое обучение начало оказывать влияние на сферу искусства. Ранние примеры включают Google DeepDream (2015) и передачу стиля нейронов (2015), ^[130] оба из которых были основаны на предварительно обученных нейронных сетях классификации изображений, таких как VGG-19 .

Генеративная состязательная сеть (GAN) ( Ян Гудфеллоу и др., 2014) ^[131] (основанная на принципе искусственного любопытства Юргена Шмидхубера ^[74]^[76] ) стала передовым достижением в генеративном моделировании в период 2014-2018 гг. Превосходное качество изображения достигается с помощью StyleGAN от Nvidia (2018) ^[132] на основе Progressive GAN Теро Карраса и др. ^[133] Здесь генератор GAN растет от малого до большого масштаба пирамидальным образом. Генерация изображений с помощью GAN достигла всеобщего успеха и спровоцировала дискуссии относительно deepfakes . ^{[134] С тех пор}модели диффузии (2015) ^[135] затмили GAN в генеративном моделировании, выпустив такие системы, как DALL·E 2 (2022) и Stable Diffusion (2022).

В 2015 году распознавание речи Google улучшилось на 49% благодаря модели на основе LSTM, которую они сделали доступной через голосовой поиск Google на смартфоне . ^[136]^[137]

Глубокое обучение является частью современных систем в различных дисциплинах, в частности, в области компьютерного зрения и автоматического распознавания речи (ASR). Результаты на широко используемых наборах оценки, таких как TIMIT (ASR) и MNIST ( классификация изображений ), а также ряд задач распознавания речи с большим словарным запасом постоянно улучшаются. ^[104]^[138] Сверточные нейронные сети были заменены для ASR на LSTM . ^[137]^[139]^[140]^[141] но они более успешны в компьютерном зрении.

Йошуа Бенджио , Джеффри Хинтон и Янн Лекун были награждены премией Тьюринга 2018 года за «концептуальные и инженерные прорывы, которые сделали глубокие нейронные сети важнейшим компонентом вычислений». ^[142]

Нейронные сети

Искусственные нейронные сети ( ИНС ) или коннекционистские системы — это вычислительные системы, вдохновленные биологическими нейронными сетями , которые составляют мозг животных. Такие системы обучаются (постепенно улучшают свои способности) выполнять задачи, рассматривая примеры, как правило, без программирования, специфичного для конкретной задачи. Например, при распознавании изображений они могут научиться идентифицировать изображения, содержащие кошек, анализируя примеры изображений, которые были вручную помечены как «кошка» или «без кошки», и используя аналитические результаты для идентификации кошек на других изображениях. Они нашли наибольшее применение в приложениях, которые трудно выразить с помощью традиционного компьютерного алгоритма, использующего программирование на основе правил .

ANN основана на наборе связанных единиц, называемых искусственными нейронами (аналогично биологическим нейронам в биологическом мозге ). Каждое соединение ( синапс ) между нейронами может передавать сигнал другому нейрону. Принимающий (постсинаптический) нейрон может обрабатывать сигнал(ы), а затем передавать сигнал нижестоящим нейронам, подключенным к нему. Нейроны могут иметь состояние, обычно представленное действительными числами , как правило, от 0 до 1. Нейроны и синапсы также могут иметь вес, который изменяется по мере обучения, что может увеличивать или уменьшать силу сигнала, который он посылает нижестоящим нейронам.

Обычно нейроны организованы в слои. Различные слои могут выполнять различные виды преобразований на своих входах. Сигналы перемещаются от первого (входного) к последнему (выходному) слою, возможно, после многократного прохождения слоев.

Первоначальная цель подхода нейронной сети заключалась в решении проблем таким же образом, как это делает человеческий мозг. Со временем внимание сосредоточилось на сопоставлении определенных умственных способностей, что привело к отклонениям от биологии, таким как обратное распространение или передача информации в обратном направлении и настройка сети для отражения этой информации.

Нейронные сети используются для решения различных задач, включая компьютерное зрение, распознавание речи , машинный перевод , фильтрацию социальных сетей , настольные и видеоигры , а также медицинскую диагностику.

По состоянию на 2017 год нейронные сети обычно имеют от нескольких тысяч до нескольких миллионов единиц и миллионы соединений. Несмотря на то, что это число на несколько порядков меньше числа нейронов в человеческом мозге, эти сети могут выполнять множество задач на уровне, превосходящем человеческий (например, распознавание лиц или игра в «Го» ^[144] ).

Глубокие нейронные сети

Глубокая нейронная сеть (DNN) — это искусственная нейронная сеть с несколькими слоями между входными и выходными слоями. ^[7]^[9] Существуют различные типы нейронных сетей, но они всегда состоят из одних и тех же компонентов: нейронов, синапсов, весов, смещений и функций. ^[145] Эти компоненты в целом функционируют таким образом, что имитируют функции человеческого мозга, и могут обучаться, как любой другой алгоритм машинного обучения. ^{[ необходима ссылка ]}

Например, DNN, обученная распознавать породы собак, пройдет по данному изображению и вычислит вероятность того, что собака на изображении принадлежит к определенной породе. Пользователь может просмотреть результаты и выбрать, какие вероятности сеть должна отображать (выше определенного порога и т. д.) и вернуть предложенную метку. Каждая математическая манипуляция как таковая считается слоем, ^{[ требуется цитата ]} и сложные DNN имеют много слоев, отсюда и название «глубокие» сети.

DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, в которых объект выражается как многослойная композиция примитивов . [ ^146] Дополнительные слои позволяют компоновать признаки из нижних слоев, потенциально моделируя сложные данные с меньшим количеством единиц, чем аналогично работающая неглубокая сеть. ^[7] Например, было доказано, что разреженные многомерные полиномы экспоненциально легче аппроксимировать с помощью DNN, чем с помощью неглубоких сетей. ^[147]

Глубокие архитектуры включают множество вариантов нескольких базовых подходов. Каждая архитектура добилась успеха в определенных областях. Не всегда возможно сравнить производительность нескольких архитектур, если только они не были оценены на одних и тех же наборах данных.

DNN обычно являются сетями прямого распространения, в которых данные передаются из входного слоя в выходной слой без возврата назад. Сначала DNN создает карту виртуальных нейронов и назначает случайные числовые значения или «веса» связям между ними. Веса и входы умножаются и возвращают выход от 0 до 1. Если сеть неточно распознала определенный шаблон, алгоритм скорректирует веса. ^[148] Таким образом, алгоритм может сделать определенные параметры более влиятельными, пока не определит правильную математическую манипуляцию для полной обработки данных.

Рекуррентные нейронные сети , в которых данные могут передаваться в любом направлении, используются для таких приложений, как моделирование языка . ^[149]^[150]^[151]^[152]^[153] Долговременная кратковременная память особенно эффективна для этого использования. ^[154]^[155]

Сверточные нейронные сети (CNN) используются в компьютерном зрении. ^[156] CNN также применяются в акустическом моделировании для автоматического распознавания речи (ASR). ^[157]

Вызовы

Как и в случае с ANN, многие проблемы могут возникнуть с наивно обученными DNN. Две распространенные проблемы — это переобучение и время вычислений.

DNN склонны к переобучению из-за дополнительных слоев абстракции, которые позволяют им моделировать редкие зависимости в обучающих данных. Методы регуляризации, такие как обрезка единиц Ивахненко ^[41] или уменьшение веса ( -регуляризация) или разреженность ( -регуляризация), могут применяться во время обучения для борьбы с переобучением. ^[158] В качестве альтернативы регуляризация выпадения случайным образом исключает единицы из скрытых слоев во время обучения. Это помогает исключить редкие зависимости. ^[159] Наконец, данные могут быть дополнены с помощью таких методов, как обрезка и вращение, так что меньшие обучающие наборы могут быть увеличены в размере, чтобы уменьшить вероятность переобучения. ^[160] $\ell _{2}$ $\ell _{1}$

DNN должны учитывать множество параметров обучения, таких как размер (количество слоев и количество единиц на слой), скорость обучения и начальные веса. Прогон по пространству параметров для оптимальных параметров может быть невозможен из-за затрат времени и вычислительных ресурсов. Различные трюки, такие как пакетирование (вычисление градиента на нескольких обучающих примерах одновременно, а не на отдельных примерах) ^[161], ускоряют вычисления. Большие вычислительные возможности многоядерных архитектур (таких как графические процессоры или Intel Xeon Phi) привели к значительному ускорению обучения из-за пригодности таких архитектур обработки для матричных и векторных вычислений. ^[162]^[163]

В качестве альтернативы инженеры могут искать другие типы нейронных сетей с более простыми и сходящимися алгоритмами обучения. CMAC ( cerebellar model articulation controller ) — один из таких типов нейронных сетей. Он не требует скоростей обучения или рандомизированных начальных весов. Процесс обучения может гарантированно сходиться за один шаг с новой порцией данных, а вычислительная сложность алгоритма обучения линейна по отношению к количеству задействованных нейронов. ^[164]^[165]

Аппаратное обеспечение

Начиная с 2010-х годов, достижения как в алгоритмах машинного обучения, так и в компьютерном оборудовании привели к более эффективным методам обучения глубоких нейронных сетей, которые содержат много слоев нелинейных скрытых единиц и очень большой выходной слой. ^[166] К 2019 году графические процессоры (GPU), часто со специфическими для ИИ усовершенствованиями, вытеснили CPU в качестве доминирующего метода обучения крупномасштабного коммерческого облачного ИИ. ^[167] OpenAI оценила аппаратные вычисления, используемые в крупнейших проектах глубокого обучения от AlexNet (2012) до AlphaZero (2017), и обнаружила 300 000-кратное увеличение объема требуемых вычислений с трендом времени удвоения в 3,4 месяца. ^[168]^[169]

Специальные электронные схемы, называемые процессорами глубокого обучения , были разработаны для ускорения алгоритмов глубокого обучения. Процессоры глубокого обучения включают нейронные процессоры (NPU) в сотовых телефонах Huawei ^[170] и серверы облачных вычислений, такие как тензорные процессоры (TPU) в Google Cloud Platform . ^[171] Cerebras Systems также построила специальную систему для обработки больших моделей глубокого обучения, CS-2, на основе самого большого процессора в отрасли, второго поколения Wafer Scale Engine (WSE-2). ^[172]^[173]

Атомно-тонкие полупроводники считаются перспективными для энергоэффективного оборудования глубокого обучения, где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки логических устройств в памяти и схем на основе полевых транзисторов с плавающим затвором (FGFET). ^[174]

В 2021 году Дж. Фельдман и др. предложили интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. ^[175] Авторы выделяют два ключевых преимущества интегрированной фотоники по сравнению с ее электронными аналогами: (1) массовая параллельная передача данных посредством мультиплексирования с разделением по длине волны в сочетании с частотными гребнями и (2) чрезвычайно высокие скорости модуляции данных. ^[175] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях ИИ с большим объемом данных. ^[175]

Приложения

Автоматическое распознавание речи

Крупномасштабное автоматическое распознавание речи является первым и наиболее убедительным успешным случаем глубокого обучения. LSTM RNN могут изучать задачи «Очень глубокого обучения» ^[9] , которые включают многосекундные интервалы, содержащие речевые события, разделенные тысячами дискретных временных шагов, где один временной шаг соответствует примерно 10 мс. LSTM с шлюзами забывания ^[155] конкурентоспособны с традиционными распознавателями речи в определенных задачах. ^[93]

Первоначальный успех в распознавании речи был основан на мелкомасштабных задачах распознавания на основе TIMIT. Набор данных содержит 630 носителей восьми основных диалектов американского английского языка , где каждый говорящий читает 10 предложений. ^[176] Его небольшой размер позволяет опробовать множество конфигураций. Что еще более важно, задача TIMIT касается распознавания последовательности телефонов , которая, в отличие от распознавания последовательности слов, допускает слабые модели языка фоновых биграмм . Это позволяет легче анализировать силу аспектов акустического моделирования распознавания речи. Приведенные ниже показатели ошибок, включая эти ранние результаты и измеренные как процентные показатели ошибок телефонов (PER), суммируются с 1991 года.

Дебют DNN для распознавания говорящего в конце 1990-х годов и распознавания речи около 2009-2011 годов, а также LSTM около 2003-2007 годов ускорил прогресс в восьми основных областях: ^[23]^[108]^[106]

Масштабирование и ускорение обучения и декодирования DNN
Последовательное дискриминационное обучение
Обработка признаков с помощью глубоких моделей с глубоким пониманием базовых механизмов
Адаптация DNN и связанных с ними глубоких моделей
Многозадачность и трансферное обучение с помощью DNN и связанных с ними глубоких моделей
CNN и как их проектировать для наилучшего использования предметной области речи
RNN и его богатые варианты LSTM
Другие типы глубоких моделей, включая тензорные модели и интегрированные глубокие генеративные/дискриминационные модели.

Все основные коммерческие системы распознавания речи (например, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , голосовой поиск Baidu и iFlyTek , а также ряд речевых продуктов Nuance и т. д.) основаны на глубоком обучении. ^[23]^[181]^[182]

Распознавание изображений

Ричард Грин объясняет, как глубокое обучение используется с помощью дистанционно управляемого транспортного средства в аквакультуре мидий

Обычным набором оценки для классификации изображений является набор данных базы данных MNIST . MNIST состоит из рукописных цифр и включает 60 000 обучающих примеров и 10 000 тестовых примеров. Как и в случае с TIMIT, его небольшой размер позволяет пользователям тестировать несколько конфигураций. Доступен полный список результатов по этому набору. ^[183]

Распознавание изображений на основе глубокого обучения стало «сверхчеловеческим», давая более точные результаты, чем участники-люди. Впервые это произошло в 2011 году при распознавании дорожных знаков, а в 2014 году — при распознавании человеческих лиц. ^[184]^[185]

Обученные на основе глубокого обучения транспортные средства теперь интерпретируют обзоры камер на 360°. ^[186] Другим примером является новый анализ дисморфологии лица (FDNA), используемый для анализа случаев пороков развития человека, связанных с большой базой данных генетических синдромов.

Обработка визуального искусства

Тесно связано с прогрессом, достигнутым в распознавании изображений, растущее применение методов глубокого обучения к различным задачам визуального искусства. DNN доказали свою способность, например,

определение периода стиля данной картины ^[187]^[188]
Нейронная передача стиля – захват стиля заданного произведения искусства и применение его в визуально приятной манере к произвольной фотографии или видео ^[187]^[188]
создание поразительных образов на основе случайных полей визуального ввода. ^[187]^[188]

Обработка естественного языка

Нейронные сети использовались для реализации языковых моделей с начала 2000-х годов. ^[149] LSTM помог улучшить машинный перевод и языковое моделирование. ^[150]^[151]^[152]

Другими ключевыми методами в этой области являются отрицательная выборка ^[189] и встраивание слов . Встраивание слов, такое как word2vec , можно рассматривать как репрезентативный слой в архитектуре глубокого обучения, который преобразует атомарное слово в позиционное представление слова относительно других слов в наборе данных; позиция представлена как точка в векторном пространстве . Использование встраивания слов в качестве входного слоя RNN позволяет сети анализировать предложения и фразы с использованием эффективной композиционной векторной грамматики. Композиционную векторную грамматику можно рассматривать как вероятностную контекстно-свободную грамматику (PCFG), реализованную RNN. ^[190] Рекурсивные автокодировщики, построенные поверх встраивания слов, могут оценивать сходство предложений и обнаруживать парафразирование. ^[190] Глубокие нейронные архитектуры обеспечивают наилучшие результаты для анализа избирательных округов, ^[191] анализа настроений , ^[192] поиска информации, ^[193]^[194] понимания устной речи, ^[195] машинного перевода, ^[150]^[196] связывания контекстных сущностей, ^[196] распознавания стиля письма, ^[197] распознавания именованных сущностей (классификация токенов), ^[198] классификации текста и других. ^[199]

Недавние разработки обобщают встраивание слов до встраивания предложений .

Google Translate (GT) использует большую сквозную сеть долговременной краткосрочной памяти (LSTM). ^[200]^{[201] [}^202]^[203] Google Neural Machine Translation (GNMT) использует метод машинного перевода на основе примеров , в котором система «учится на миллионах примеров». ^[201] Он переводит «целые предложения за раз, а не части». Google Translate поддерживает более ста языков. ^[201] Сеть кодирует «семантику предложения, а не просто запоминает переводы фразы во фразу». ^[201]^[204] GT использует английский язык в качестве промежуточного между большинством языковых пар. ^[204]

Открытие лекарств и токсикология

Большой процент потенциальных лекарств не получает одобрения регулирующих органов. Эти неудачи вызваны недостаточной эффективностью (эффектом на цели), нежелательными взаимодействиями (эффектами вне цели) или непредвиденными токсическими эффектами . ^[205]^[206] Исследования изучили использование глубокого обучения для прогнозирования биомолекулярных целей , ^[207]^[208] нецелевых и токсических эффектов химических веществ окружающей среды в питательных веществах, бытовых продуктах и лекарствах. ^[209]^[210]^[211]

AtomNet — это система глубокого обучения для структурно-ориентированного рационального проектирования лекарств . ^[212] AtomNet использовался для прогнозирования новых кандидатов на биомолекулы для таких заболеваний, как вирус Эбола ^[213] и рассеянный склероз . ^[214]^[213]

В 2017 году графовые нейронные сети впервые были использованы для прогнозирования различных свойств молекул в большом наборе токсикологических данных. ^[215] В 2019 году генеративные нейронные сети были использованы для создания молекул, которые были экспериментально проверены вплоть до мышей. ^[216]^[217]

Управление взаимоотношениями с клиентами

Глубокое обучение с подкреплением использовалось для аппроксимации стоимости возможных прямых маркетинговых действий, определенных в терминах переменных RFM . Было показано, что функция оценочной стоимости имеет естественную интерпретацию как пожизненная стоимость клиента . ^[218]

Биоинформатика

Автокодирующая ИНС использовалась в биоинформатике для прогнозирования аннотаций онтологии генов и взаимосвязей генов и функций. ^[222]

В медицинской информатике глубокое обучение использовалось для прогнозирования качества сна на основе данных с носимых устройств ^[223] и прогнозирования осложнений со здоровьем на основе данных электронных медицинских карт . ^[224]

Глубокие нейронные сети продемонстрировали непревзойденную производительность в прогнозировании структуры белка на основе последовательности аминокислот, из которых он состоит. В 2020 году AlphaFold , система на основе глубокого обучения, достигла уровня точности, значительно превышающего все предыдущие вычислительные методы. ^[225]^[226]

Оценки глубоких нейронных сетей

Глубокие нейронные сети могут использоваться для оценки энтропии стохастического процесса и называются Neural Joint Entropy Estimator (NJEE). ^[227] Такая оценка дает представление о влиянии входных случайных величин на независимую случайную величину . Практически, DNN обучается как классификатор , который сопоставляет входной вектор или матрицу X с выходным распределением вероятностей по возможным классам случайной величины Y, учитывая входные данные X. Например, в задачах классификации изображений NJEE сопоставляет вектор значений цвета пикселей с вероятностями по возможным классам изображений. На практике распределение вероятностей Y получается с помощью слоя Softmax с числом узлов, равным размеру алфавита Y. NJEE использует непрерывно дифференцируемые функции активации , так что выполняются условия для теоремы универсальной аппроксимации . Показано, что этот метод обеспечивает строго согласованную оценку и превосходит другие методы в случае больших размеров алфавита. ^[227]

Анализ медицинских изображений

Было показано, что глубокое обучение дает конкурентоспособные результаты в медицинских приложениях, таких как классификация раковых клеток, обнаружение поражений, сегментация органов и улучшение изображений. ^[228]^[229] Современные инструменты глубокого обучения демонстрируют высокую точность обнаружения различных заболеваний и полезность их использования специалистами для повышения эффективности диагностики. ^[230]^[231]

Мобильная реклама

Поиск подходящей мобильной аудитории для мобильной рекламы всегда является сложной задачей, поскольку необходимо рассмотреть и проанализировать множество точек данных, прежде чем целевой сегмент может быть создан и использован при показе рекламы любым рекламным сервером. ^[232] Глубокое обучение использовалось для интерпретации больших многомерных наборов рекламных данных. Многие точки данных собираются во время цикла интернет-рекламы запрос/обслуживание/клик. Эта информация может стать основой машинного обучения для улучшения выбора рекламы.

Восстановление изображения

Глубокое обучение успешно применялось к обратным задачам, таким как шумоподавление , сверхразрешение , инрисовка и раскрашивание пленки . ^[233] Эти приложения включают в себя такие методы обучения, как «Поля сжатия для эффективного восстановления изображений» ^[234], которые обучаются на наборе данных изображений, и Deep Image Prior , который обучается на изображении, требующем восстановления.

Выявление финансового мошенничества

Глубокое обучение успешно применяется для обнаружения финансового мошенничества , уклонения от уплаты налогов ^[235] и борьбы с отмыванием денег. ^[236]

Материаловедение

В ноябре 2023 года исследователи из Google DeepMind и Национальной лаборатории Лоуренса в Беркли объявили, что разработали систему ИИ, известную как GNoME. Эта система внесла свой вклад в материаловедение , открыв более 2 миллионов новых материалов за относительно короткий промежуток времени. GNoME использует методы глубокого обучения для эффективного исследования потенциальных структур материалов, достигая значительного увеличения идентификации стабильных неорганических кристаллических структур . Прогнозы системы были подтверждены с помощью автономных роботизированных экспериментов, продемонстрировав примечательный уровень успеха в 71%. Данные о недавно открытых материалах общедоступны через базу данных Materials Project , предлагая исследователям возможность идентифицировать материалы с желаемыми свойствами для различных приложений. Эта разработка имеет значение для будущего научных открытий и интеграции ИИ в исследования в области материаловедения, потенциально ускоряя инновации в области материалов и снижая затраты на разработку продуктов. Использование ИИ и глубокого обучения предполагает возможность минимизации или устранения ручных лабораторных экспериментов и позволяя ученым больше сосредоточиться на разработке и анализе уникальных соединений. ^[237]^[238]^[239]

Военный

Министерство обороны США применило глубокое обучение для обучения роботов новым задачам посредством наблюдения. ^[240]

Уравнения с частными производными

Нейронные сети с физической информацией использовались для решения уравнений с частными производными как в прямых, так и в обратных задачах на основе данных. ^[241] Одним из примеров является реконструкция потока жидкости, управляемого уравнениями Навье-Стокса . Использование нейронных сетей с физической информацией не требует часто дорогостоящей генерации сетки, на которой основаны традиционные методы вычислительной гидродинамики . ^[242]^[243]

Метод глубокого обратного стохастического дифференциального уравнения

Метод глубокого обратного стохастического дифференциального уравнения представляет собой численный метод, который объединяет глубокое обучение с обратным стохастическим дифференциальным уравнением (BSDE). Этот метод особенно полезен для решения многомерных задач в финансовой математике. Используя мощные возможности аппроксимации функций глубоких нейронных сетей , глубокий BSDE решает вычислительные проблемы, с которыми сталкиваются традиционные численные методы в многомерных условиях. В частности, традиционные методы, такие как методы конечных разностей или симуляции Монте-Карло, часто сталкиваются с проклятием размерности, когда вычислительные затраты экспоненциально увеличиваются с числом измерений. Однако методы глубокого BSDE используют глубокие нейронные сети для аппроксимации решений многомерных частных дифференциальных уравнений (PDE), эффективно снижая вычислительную нагрузку. ^[244]

Кроме того, интеграция нейронных сетей, основанных на физике (PINN), в глубокую структуру BSDE расширяет ее возможности за счет внедрения базовых физических законов непосредственно в архитектуру нейронной сети. Это гарантирует, что решения не только соответствуют данным, но и придерживаются управляющих стохастических дифференциальных уравнений. PINN используют мощь глубокого обучения, соблюдая ограничения, налагаемые физическими моделями, что приводит к более точным и надежным решениям для задач финансовой математики.

Реконструкция изображения

Реконструкция изображения — это реконструкция базовых изображений из измерений, связанных с изображением. Несколько работ показали лучшую и превосходную производительность методов глубокого обучения по сравнению с аналитическими методами для различных приложений, например, спектральной визуализации ^[245] и ультразвуковой визуализации. ^[246]

Прогноз погоды

Традиционные системы прогнозирования погоды решают очень сложную систему уравнений с частными производными. GraphCast — это модель на основе глубокого обучения, обученная на долгой истории данных о погоде, чтобы предсказывать, как погодные условия меняются со временем. Она способна предсказывать погодные условия на срок до 10 дней по всему миру, на очень подробном уровне и менее чем за минуту, с точностью, аналогичной самым современным системам. ^[247]^[248]

Эпигенетические часы

Эпигенетические часы — это биохимический тест , который можно использовать для измерения возраста. Галкин и др. использовали глубокие нейронные сети для обучения эпигенетических часов старения с беспрецедентной точностью, используя >6000 образцов крови. ^[249] Часы используют информацию с 1000 сайтов CpG и предсказывают людей с определенными заболеваниями старше, чем здоровые контрольные группы: ВЗК , лобно-височная деменция , рак яичников , ожирение . Часы старения планировалось выпустить для публичного использования в 2021 году компанией Deep Longevity, дочерней компанией Insilico Medicine .

Связь с когнитивными способностями и развитием мозга человека

Глубокое обучение тесно связано с классом теорий развития мозга (в частности, неокортикального развития), предложенных когнитивными нейробиологами в начале 1990-х годов. ^[250]^[251]^[252]^[253] Эти теории развития были реализованы в вычислительных моделях, что сделало их предшественниками систем глубокого обучения. Эти модели развития разделяют свойство, что различные предлагаемые динамики обучения в мозге (например, волна фактора роста нервов ) поддерживают самоорганизацию, несколько аналогичную нейронным сетям, используемым в моделях глубокого обучения. Подобно неокортексу , нейронные сети используют иерархию слоистых фильтров, в которых каждый слой рассматривает информацию из предыдущего слоя (или операционной среды), а затем передает свой вывод (и, возможно, исходный ввод) другим слоям. Этот процесс дает самоорганизующийся стек преобразователей , хорошо настроенных на свою операционную среду. В описании 1995 года говорилось: «...мозг младенца, по-видимому, организуется под влиянием волн так называемых трофических факторов... различные области мозга становятся связанными последовательно, причем один слой ткани созревает раньше другого, и так далее, пока весь мозг не станет зрелым» ^{[254] .}

Для исследования правдоподобности моделей глубокого обучения с точки зрения нейробиологии использовались различные подходы. С одной стороны, было предложено несколько вариантов алгоритма обратного распространения с целью повышения реалистичности его обработки. ^[255]^[256] Другие исследователи утверждали, что неконтролируемые формы глубокого обучения, такие как основанные на иерархических генеративных моделях и сетях глубоких убеждений , могут быть ближе к биологической реальности. ^[257]^[258] В этом отношении генеративные модели нейронных сетей были связаны с нейробиологическими доказательствами обработки на основе выборки в коре головного мозга. ^[259]

Хотя систематическое сравнение между организацией человеческого мозга и нейронным кодированием в глубоких сетях еще не установлено, было отмечено несколько аналогий. Например, вычисления, выполняемые единицами глубокого обучения, могут быть похожи на вычисления реальных нейронов ^[260] и нейронных популяций. ^[261] Аналогичным образом, представления, разработанные моделями глубокого обучения, похожи на те, которые измерены в зрительной системе приматов ^[262] как на уровне отдельных единиц ^[263] , так и на уровне популяции ^[264] .

Коммерческая деятельность

Лаборатория искусственного интеллекта Facebook выполняет такие задачи, как автоматическая маркировка загруженных фотографий именами людей, изображенных на них. ^[265]

DeepMind Technologies от Google разработала систему, способную обучаться игре в видеоигры Atari, используя только пиксели в качестве входных данных. В 2015 году они продемонстрировали свою систему AlphaGo , которая достаточно хорошо изучила игру в го , чтобы победить профессионального игрока в го. ^[266]^[267]^[268] Google Translate использует нейронную сеть для перевода между более чем 100 языками.

В 2017 году был запущен Covariant.ai, который фокусируется на интеграции глубокого обучения на фабриках. ^[269]

В 2008 году ^[270] исследователи Техасского университета в Остине (UT) разработали структуру машинного обучения под названием «Обучение агента вручную с помощью оценочного подкрепления» (Training an Agent Manually via Evaluative Reinforcement, TAMER), которая предложила новые методы для роботов или компьютерных программ, чтобы научиться выполнять задачи, взаимодействуя с инструктором-человеком. ^[240] Впервые разработанный как TAMER, новый алгоритм под названием Deep TAMER был позже представлен в 2018 году в ходе сотрудничества между Исследовательской лабораторией армии США (ARL) и исследователями UT. Deep TAMER использовал глубокое обучение, чтобы предоставить роботу возможность изучать новые задачи посредством наблюдения. ^[240] Используя Deep TAMER, робот обучался выполнению задачи с человеком-тренером, просматривая видеопотоки или наблюдая за тем, как человек выполняет задачу лично. Позже робот практиковался в выполнении задачи с помощью некоторого коучинга от тренера, который давал обратную связь, такую как «хорошая работа» и «плохая работа». ^[271]

Критика и комментарии

Глубокое обучение вызвало как критику, так и комментарии, в некоторых случаях за пределами области компьютерных наук.

Теория

Основная критика касается отсутствия теории, окружающей некоторые методы. ^[272] Обучение в наиболее распространенных глубоких архитектурах реализуется с использованием хорошо понятного градиентного спуска. Однако теория, окружающая другие алгоритмы, такие как контрастивное расхождение, менее ясна. ^{[ требуется ссылка ]} (например, Сходится ли он? Если да, то как быстро? Что он аппроксимирует?) Методы глубокого обучения часто рассматриваются как черный ящик , причем большинство подтверждений делается эмпирически, а не теоретически. ^[273]

Другие указывают, что глубокое обучение следует рассматривать как шаг к реализации сильного ИИ , а не как всеобъемлющее решение. Несмотря на мощь методов глубокого обучения, им все еще не хватает многих функций, необходимых для полной реализации этой цели. Исследовательский психолог Гэри Маркус отметил:

Реалистично, глубокое обучение является лишь частью более масштабной задачи создания интеллектуальных машин. Такие методы не имеют способов представления причинно-следственных связей (...), не имеют очевидных способов выполнения логических выводов , и они также все еще далеки от интеграции абстрактных знаний, таких как информация о том, что такое объекты, для чего они предназначены и как они обычно используются. Самые мощные системы ИИ, такие как Watson (...), используют такие методы, как глубокое обучение, как всего лишь один элемент в очень сложном ансамбле методов, начиная от статистического метода байесовского вывода и заканчивая дедуктивным рассуждением . ^[274]

В качестве дальнейшего подтверждения идеи о том, что художественная чувствительность может быть присуща относительно низким уровням когнитивной иерархии, опубликованная серия графических представлений внутренних состояний глубоких (20-30 слоев) нейронных сетей, пытающихся различить среди по сути случайных данных изображения, на которых они были обучены ^[275], демонстрирует визуальную привлекательность: оригинальное уведомление об исследовании получило более 1000 комментариев и стало темой того, что некоторое время было самой часто посещаемой статьей на веб-сайте The Guardian [ ^276] .

Ошибки

Некоторые архитектуры глубокого обучения демонстрируют проблемное поведение, ^[277] такое как уверенная классификация нераспознаваемых изображений как принадлежащих к знакомой категории обычных изображений (2014) ^[278] и неправильная классификация незначительных возмущений правильно классифицированных изображений (2013). ^[279] Герцель выдвинул гипотезу, что такое поведение обусловлено ограничениями в их внутренних представлениях и что эти ограничения будут препятствовать интеграции в гетерогенные многокомпонентные архитектуры искусственного общего интеллекта (AGI). ^[277] Эти проблемы, возможно, могут быть решены с помощью архитектур глубокого обучения, которые внутренне формируют состояния, гомологичные разложениям грамматики изображений ^[280] наблюдаемых сущностей и событий. ^[277] Изучение грамматики (визуальной или лингвистической) из обучающих данных было бы эквивалентно ограничению системы рассуждениями здравого смысла , которые работают с концепциями в терминах грамматических правил производства и являются основной целью как усвоения человеческого языка ^[281] , так и искусственного интеллекта (ИИ). ^[282]

Киберугроза

По мере того, как глубокое обучение выходит из лаборатории в мир, исследования и опыт показывают, что искусственные нейронные сети уязвимы для взломов и обмана. ^[283] Выявляя закономерности, которые эти системы используют для функционирования, злоумышленники могут изменять входные данные для ИНС таким образом, что ИНС находит совпадение, которое не распознают люди-наблюдатели. Например, злоумышленник может внести тонкие изменения в изображение таким образом, что ИНС находит совпадение, даже если для человека изображение выглядит совсем не похожим на цель поиска. Такая манипуляция называется « состязательной атакой ». ^[284]

В 2016 году исследователи использовали одну ИНС для исправления изображений методом проб и ошибок, определения фокусных точек другой и, таким образом, создания изображений, которые обманывали ее. Измененные изображения не выглядели иначе для человеческого глаза. Другая группа показала, что распечатки обработанных изображений, а затем сфотографированные, успешно обманывали систему классификации изображений. ^[285] Одной из защит является обратный поиск изображений, при котором возможное поддельное изображение отправляется на сайт, такой как TinEye , который затем может найти другие его экземпляры. Усовершенствование заключается в поиске, используя только части изображения, для определения изображений, из которых эта часть могла быть взята . ^[286]

Другая группа показала, что определенные психоделические зрелища могут обмануть систему распознавания лиц , заставив ее думать, что обычные люди — это знаменитости, что потенциально позволяет одному человеку выдавать себя за другого. В 2017 году исследователи добавили наклейки к стоп-сигналам и заставили ИНС неправильно их классифицировать. ^[285]

Однако ИНС могут быть дополнительно обучены для обнаружения попыток обмана , что потенциально может привести нападающих и защитников к гонке вооружений, похожей на ту, которая уже определяет индустрию защиты от вредоносных программ . ИНС были обучены побеждать основанное на ИНС антивирусное программное обеспечение, многократно атакуя защиту с помощью вредоносного ПО, которое постоянно изменялось генетическим алгоритмом, пока оно не обманывало антивирусное ПО, сохраняя при этом свою способность наносить вред цели. ^[285]

В 2016 году другая группа продемонстрировала, что определенные звуки могут заставить систему голосовых команд Google Now открыть определенный веб-адрес, и выдвинула гипотезу, что это может «служить трамплином для дальнейших атак (например, открытие веб-страницы, на которой размещено вредоносное ПО Drive-by)». ^[285]

При « отравлении данных » ложные данные постоянно вносятся в обучающий набор системы машинного обучения, чтобы помешать ей достичь мастерства. ^[285]

Этика сбора данных

Системы глубокого обучения, которые обучаются с использованием контролируемого обучения, часто полагаются на данные, которые создаются и/или аннотируются людьми. ^[287] Утверждалось, что для этой цели регулярно используется не только низкооплачиваемая работа с кликами (например, на Amazon Mechanical Turk ), но и неявные формы человеческой микроработы , которые часто не распознаются как таковые. ^[288] Философ Райнер Мюльхофф различает пять типов «машинного захвата» человеческой микроработы для генерации обучающих данных: (1) геймификация (внедрение аннотаций или вычислительных задач в поток игры), (2) «захват и отслеживание» (например, CAPTCHA для распознавания изображений или отслеживание кликов на страницах результатов поиска Google ), (3) эксплуатация социальных мотивов (например, отметка лиц на Facebook для получения маркированных изображений лиц), (4) добыча информации (например, путем использования устройств количественной самодиагностики , таких как трекеры активности ) и (5) работа с кликами . ^[288]

Смотрите также

Ссылки

^ Шульц, Ханнес; Бенке, Свен (1 ноября 2012 г.). «Глубокое обучение». КИ - Künstliche Intelligenz . 26 (4): 357–363. doi : 10.1007/s13218-012-0198-z. ISSN 1610-1987. S2CID 220523562.
^ ab LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Глубокое обучение" (PDF) . Nature . 521 (7553): 436–444. Bibcode : 2015Natur.521..436L. doi : 10.1038/nature14539. PMID 26017442. S2CID 3074096.
^ ab Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). «Многоколоночные глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов . стр. 3642–3649. arXiv : 1202.2745 . doi :10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
^ ab Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри (2012). "Классификация ImageNet с глубокими сверточными нейронными сетями" (PDF) . NIPS 2012: Системы обработки нейронной информации, Лейк-Тахо, Невада . Архивировано (PDF) из оригинала 10.01.2017 . Получено 24.05.2017 .
^ "AlphaGo AI от Google выигрывает серию из трех матчей против лучшего в мире игрока в го". TechCrunch . 25 мая 2017 г. Архивировано из оригинала 17 июня 2018 г. Получено 17 июня 2018 г.
^ «Исследование призывает к осторожности при сравнении нейронных сетей с мозгом». Новости MIT | Массачусетский технологический институт . 2022-11-02 . Получено 2023-12-06 .
^ abcd Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF) . Foundations and Trends in Machine Learning . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. S2CID 207178999. Архивировано из оригинала (PDF) 4 марта 2016 года . Получено 3 сентября 2015 года .
^ abcde Bengio, Y.; Courville, A.; Vincent, P. (2013). «Обучение представлениям: обзор и новые перспективы». Труды IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . doi : 10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
^ abcdefgh Шмидхубер, Дж. (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . doi : 10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Шигеки, Сугияма (12 апреля 2019 г.). Поведение человека и другой вид сознания: новые исследования и возможности: новые исследования и возможности. IGI Global. ISBN 978-1-5225-8218-2.
^ Бенджио, Йошуа; Ламблин, Паскаль; Поповичи, Дэн; Ларошель, Хьюго (2007). Жадное послойное обучение глубоких сетей (PDF) . Достижения в области нейронных систем обработки информации. стр. 153–160. Архивировано (PDF) из оригинала 20.10.2019 . Получено 06.10.2019 .
^ ab Hinton, GE (2009). "Сети глубоких убеждений". Scholarpedia . 4 (5): 5947. Bibcode :2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ Рина Дехтер (1986). Обучение во время поиска в задачах ограничения-удовлетворения. Калифорнийский университет, Кафедра компьютерных наук, Лаборатория когнитивных систем. Онлайн Архивировано 19 апреля 2016 г. на Wayback Machine
^ Айзенберг, ИН; Айзенберг, НН; Вандевалле, Дж. (2000). Многозначные и универсальные бинарные нейроны. Science & Business Media. doi :10.1007/978-1-4757-3115-6. ISBN 978-0-7923-7824-2. Получено 27 декабря 2023 г. .
^ Коэволюционирующие рекуррентные нейроны изучают POMDP глубокой памяти. Proc. GECCO, Вашингтон, округ Колумбия, стр. 1795–1802, ACM Press, Нью-Йорк, США, 2005.
^ Фрадков, Александр Л. (01.01.2020). «Ранняя история машинного обучения». IFAC-PapersOnLine . 21-й Всемирный конгресс IFAC. 53 (2): 1385–1390. doi : 10.1016/j.ifacol.2020.12.1888 . ISSN 2405-8963. S2CID 235081987.
^ abc Cybenko (1989). "Аппроксимации суперпозициями сигмоидальных функций" (PDF) . Математика управления, сигналов и систем . 2 (4): 303–314. Bibcode :1989MCSS....2..303C. doi :10.1007/bf02551274. S2CID 3958369. Архивировано из оригинала (PDF) 10 октября 2015 г.
^ abc Хорник, Курт (1991). «Возможности аппроксимации многослойных сетей прямого распространения». Нейронные сети . 4 (2): 251–257. doi :10.1016/0893-6080(91)90009-t. S2CID 7343126.
^ ab Haykin, Simon S. (1999). Нейронные сети: всеобъемлющая основа. Prentice Hall. ISBN 978-0-13-273350-2.
^ Аб Хассун, Мохамад Х. (1995). Основы искусственных нейронных сетей. МТИ Пресс. п. 48. ИСБН 978-0-262-08239-6.
^ ab Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). Выразительная сила нейронных сетей: взгляд с широты Архивировано 13.02.2019 в Wayback Machine . Системы обработки нейронной информации, 6231-6239.
^ Орхан, AE; Ма, WJ (2017). «Эффективный вероятностный вывод в общих нейронных сетях, обученных с невероятностной обратной связью». Nature Communications . 8 (1): 138. Bibcode : 2017NatCo...8..138O. doi : 10.1038 /s41467-017-00181-8 . PMC 5527101. PMID 28743932.
^ abcde Дэн, Л.; Ю, Д. (2014). "Глубокое обучение: методы и приложения" (PDF) . Основы и тенденции в обработке сигналов . 7 (3–4): 1–199. doi :10.1561/2000000039. Архивировано (PDF) из оригинала 2016-03-14 . Получено 2014-10-18 .
^ abcd Мерфи, Кевин П. (24 августа 2012 г.). Машинное обучение: вероятностная перспектива. MIT Press. ISBN 978-0-262-01802-9.
^ ab Fukushima, K. (1969). «Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов». Труды IEEE по системной науке и кибернетике . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ Сонода, Шо; Мурата, Нобору (2017). «Нейронная сеть с неограниченными функциями активации является универсальным аппроксиматором». Прикладной и вычислительный гармонический анализ . 43 (2): 233–268. arXiv : 1505.03654 . doi :10.1016/j.acha.2015.12.005. S2CID 12149203.
^ Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение (PDF) . Springer. ISBN 978-0-387-31073-2. Архивировано (PDF) из оригинала 2017-01-11 . Получено 2017-08-06 .
^ ab "bibliotheca Augustana". www.hs-augsburg.de .
^ Браш, Стивен Г. (1967). «История модели Ленца-Изинга». Reviews of Modern Physics . 39 (4): 883–893. Bibcode : 1967RvMP...39..883B. doi : 10.1103/RevModPhys.39.883.
^ ab Amari, Shun-Ichi (1972). «Изучение шаблонов и последовательностей шаблонов с помощью самоорганизующихся сетей пороговых элементов». IEEE Transactions . C (21): 1197–1206.
^ abcdefg Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
^ Хопфилд, Дж. Дж. (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук . 79 (8): 2554–2558. Bibcode : 1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238. PMID 6953413 .
^ Накано, Каору (1971). «Процесс обучения в модели ассоциативной памяти». Распознавание образов и машинное обучение . стр. 172–186. doi :10.1007/978-1-4615-7566-5_15. ISBN 978-1-4615-7568-9.
^ Накано, Каору (1972). «Ассоциатрон — модель ассоциативной памяти». Труды IEEE по системам, человеку и кибернетике . SMC-2 (3): 380–388. doi :10.1109/TSMC.1972.4309133.
^ Тьюринг, Алан (1948). «Интеллектуальные машины». Неопубликовано (позже опубликовано в Ince DC, Editor, Collected Works of AM Turing—Mechanical Intelligence, Elsevier Science Publishers, 1992) .
^ Розенблатт, Ф. (1958). «Персептрон: вероятностная модель хранения и организации информации в мозге». Psychological Review . 65 (6): 386–408. doi :10.1037/h0042519. ISSN 1939-1471. PMID 13602029.
^ ab Rosenblatt, Frank (1962). Принципы нейродинамики . Spartan, Нью-Йорк.
^ Джозеф, РД (1960). Вклад в теорию персептрона, Отчет Корнельской авиационной лаборатории № VG-11 96--G-7, Буффало .
^ Ивахненко, А. Г.; Лапа, В. Г. (1967). Кибернетика и методы прогнозирования. American Elsevier Publishing Co. ISBN 978-0-444-00020-0.
^ Ивахненко, А. Г. (март 1970). «Эвристическая самоорганизация в задачах технической кибернетики». Automatica . 6 (2): 207–219. doi :10.1016/0005-1098(70)90092-0.
^ ab Ивахненко, Алексей (1971). "Полиномиальная теория сложных систем" (PDF) . IEEE Transactions on Systems, Man, and Cybernetics . SMC-1 (4): 364–378. doi :10.1109/TSMC.1971.4308320. Архивировано (PDF) из оригинала 29-08-2017 . Получено 05-11-2019 .
^ Роббинс, Х.; Монро, С. (1951). «Метод стохастической аппроксимации». Анналы математической статистики . 22 (3): 400. doi : 10.1214/aoms/1177729586 .
^ Амари, Шуничи (1967). «Теория адаптивного классификатора шаблонов». IEEE Transactions . EC (16): 279–307.
^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
^ Фукусима, К. (1979). «Нейронная сетевая модель для механизма распознавания образов, не зависящего от смещения положения — Неокогнитрон». Trans. IECE (на японском языке) . J62-A (10): 658–665. doi :10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ Фукусима, К. (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, не зависящего от смещения положения». Biol. Cybern . 36 (4): 193–202. doi :10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ Лейбниц, Готфрид Вильгельм Фрайхерр фон (1920). Ранние математические рукописи Лейбница: Перевод с латинских текстов, опубликованных Карлом Иммануэлем Герхардтом с критическими и историческими примечаниями (Лейбниц опубликовал цепное правило в мемуарах 1676 года). Open Court Publication Company. ISBN 9780598818461.
^ Келли, Генри Дж. (1960). «Градиентная теория оптимальных траекторий полета». ARS Journal . 30 (10): 947–954. doi :10.2514/8.5282.
^ Линнайнмаа, Сеппо (1970). Представление кумулятивной ошибки округления алгоритма как разложения Тейлора локальных ошибок округления (Мастерс) (на финском языке). Университет Хельсинки. стр. 6–7.
^ Линнаинмаа, Сеппо (1976). «Разложение Тейлора накопленной ошибки округления». BIT Numerical Mathematics . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID 122357351.
^ Островский, ГМ, Волин, ЮМ и Борис, ВВ (1971). О вычислении производных. Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
^ ab Schmidhuber, Juergen (25 октября 2014 г.). «Кто изобрел обратное распространение?». IDSIA, Швейцария. Архивировано из оригинала 30 июля 2024 г. Получено 14 сентября 2024 г.
^ Werbos, Paul (1982). "Применение достижений в нелинейном анализе чувствительности" (PDF) . Моделирование и оптимизация систем . Springer. стр. 762–770. Архивировано (PDF) из оригинала 14 апреля 2016 г. . Получено 2 июля 2017 г. .
^ Вербос, Пол Дж. (1994). Корни обратного распространения: от упорядоченных производных к нейронным сетям и политическому прогнозированию . Нью-Йорк: John Wiley & Sons. ISBN 0-471-59897-6.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (октябрь 1986 г.). «Изучение представлений с помощью обратного распространения ошибок». Nature . 323 (6088): 533–536. Bibcode :1986Natur.323..533R. doi :10.1038/323533a0. ISSN 1476-4687.
^ Rumelhart, David E., Geoffrey E. Hinton и RJ Williams. «Изучение внутренних представлений с помощью распространения ошибок. Архивировано 13 октября 2022 г. в Wayback Machine ». Дэвид Э. Румельхарт, Джеймс Л. Макклелланд и исследовательская группа PDP. (редакторы), Параллельная распределенная обработка: исследования микроструктуры познания, том 1: Основы. MIT Press, 1986.
^ Вайбель, Алекс (декабрь 1987 г.). Распознавание фонем с использованием нейронных сетей с задержкой по времени (PDF) . Заседание Института инженеров по электротехнике, информации и связи (IEICE). Токио, Япония.
^ Александр Вайбель и др., Распознавание фонем с использованием нейронных сетей с задержкой по времени. Труды IEEE по акустике, речи и обработке сигналов, том 37, № 3, стр. 328–339, март 1989 г.
^ Чжан, Вэй (1988). «Нейронная сеть распознавания образов, инвариантная к сдвигу, и ее оптическая архитектура». Труды ежегодной конференции Японского общества прикладной физики .
^ ЛеКун и др. , «Применение обратного распространения к распознаванию рукописных почтовых индексов», Neural Computation , 1, стр. 541–551, 1989.
^ Чжан, Вэй (1990). «Параллельная распределенная модель обработки с локальными пространственно-инвариантными взаимосвязями и ее оптическая архитектура». Прикладная оптика . 29 (32): 4790–7. Bibcode : 1990ApOpt..29.4790Z. doi : 10.1364/AO.29.004790. PMID 20577468.
^ Чжан, Вэй (1991). «Обработка изображений эндотелия роговицы человека на основе обучающейся сети». Прикладная оптика . 30 (29): 4211–7. Bibcode : 1991ApOpt..30.4211Z. doi : 10.1364/AO.30.004211. PMID 20706526.
^ Чжан, Вэй (1994). «Компьютерное обнаружение кластерных микрокальцификаций на цифровых маммограммах с использованием инвариантной к сдвигу искусственной нейронной сети». Медицинская физика . 21 (4): 517–24. Bibcode : 1994MedPh..21..517Z. doi : 10.1118/1.597177. PMID 8058017.
^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791. S2CID 14542261 . Проверено 7 октября 2016 г.
^ Джордан, Майкл И. (1986). «Динамика аттрактора и параллелизм в коннекционистской последовательной машине». Труды ежегодного собрания Общества когнитивной науки . 8 .
^ Элман, Джеффри Л. (март 1990 г.). «Поиск структуры во времени». Когнитивная наука . 14 (2): 179–211. doi :10.1207/s15516709cog1402_1. ISSN 0364-0213.
^ abc Шмидхубер, Юрген (апрель 1991 г.). "Neural Sequence Chunkers" (PDF) . TR FKI-148, TU Munich .
^ ab Schmidhuber, Jürgen (1992). "Изучение сложных расширенных последовательностей с использованием принципа сжатия истории (на основе TR FKI-148, 1991)" (PDF) . Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID 18271205.
^ Шмидхубер, Юрген (1993). Диссертация на соискание ученой степени: Моделирование и оптимизация систем (PDF) .^{[ постоянная неработающая ссылка ]} Страница 150 и далее демонстрирует присвоение кредитов через эквивалент 1200 слоев в развернутой RNN.
^ abc С. Хохрейтер., "Untersuruchungen zu dynamischen Neuronalen Netzen". Архивировано 6 марта 2015 г. в Wayback Machine . Дипломная работа. Институт ф. Информатика, Технический университет. Мюнхен. Советник: Дж. Шмидхубер , 1991 г.
^ Хохрайтер, С.; и др. (15 января 2001 г.). "Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей". В Колен, Джон Ф.; Кремер, Стефан К. (ред.). Полевое руководство по динамическим рекуррентным сетям . John Wiley & Sons. ISBN 978-0-7803-5369-5.
^ Зепп Хохрейтер ; Юрген Шмидхубер (21 августа 1995 г.), Краткосрочная память, Викиданные Q98967430
^ Герс, Феликс; Шмидхубер, Юрген; Камминс, Фред (1999). «Учимся забывать: непрерывное прогнозирование с LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том 1999. С. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
^ ab Schmidhuber, Jürgen (1991). «Возможность реализации любопытства и скуки в нейронных контроллерах для построения моделей». Proc. SAB'1991 . MIT Press/Bradford Books. стр. 222–227.
^ Шмидхубер, Юрген (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990-2010)». Труды IEEE по автономному психическому развитию . 2 (3): 230–247. doi :10.1109/TAMD.2010.2056368. S2CID 234198.
^ ab Schmidhuber, Jürgen (2020). «Генеративно-состязательные сети являются особыми случаями искусственного любопытства (1990), а также тесно связаны с минимизацией предсказуемости (1991)». Neural Networks . 127 : 58–66. arXiv : 1906.04493 . doi :10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
^ Экли, Дэвид Х.; Хинтон, Джеффри Э.; Сейновски, Терренс Дж. (1985-01-01). «Алгоритм обучения для машин Больцмана». Cognitive Science . 9 (1): 147–169. doi :10.1016/S0364-0213(85)80012-4 (неактивен 2024-08-07). ISSN 0364-0213.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на август 2024 г. ( ссылка )
^ Смоленский, Пол (1986). "Глава 6: Обработка информации в динамических системах: основы теории гармонии" (PDF) . В Rumelhart, Дэвид Э.; МакЛелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, том 1: основы . MIT Press. стр. 194–281. ISBN 0-262-68053-X.
^ Питер, Даян ; Хинтон, Джеффри Э .; Нил, Рэдфорд М.; Земель , Ричард С. (1995). «Машина Гельмгольца». Neural Computation . 7 (5): 889–904. doi :10.1162/neco.1995.7.5.889. hdl : 21.11116/0000-0002-D6D3-E . PMID 7584891. S2CID 1890561.
^ Хинтон, Джеффри Э .; Даян, Питер ; Фрей, Брендан Дж .; Нил, Рэдфорд (1995-05-26). «Алгоритм бодрствования-сна для неконтролируемых нейронных сетей». Science . 268 (5214): 1158–1161. Bibcode : 1995Sci...268.1158H. doi : 10.1126/science.7761831. PMID 7761831. S2CID 871473.
^ Sejnowski, Terrence J. (2018). Революция глубокого обучения . Кембридж, Массачусетс: The MIT Press. ISBN 978-0-262-03803-4.
^ Qian, Ning; Sejnowski, Terrence J. (1988-08-20). «Предсказание вторичной структуры глобулярных белков с использованием моделей нейронных сетей». Журнал молекулярной биологии . 202 (4): 865–884. doi :10.1016/0022-2836(88)90564-5. ISSN 0022-2836. PMID 3172241.
^ Морган, Нельсон; Бурлар, Эрве; Реналс, Стив; Коэн, Майкл; Франко, Орасио (1 августа 1993 г.). «Гибридные нейронные сети/скрытые марковские модели для распознавания непрерывной речи». Международный журнал по распознаванию образов и искусственному интеллекту . 07 (4): 899–916. doi :10.1142/s0218001493000455. ISSN 0218-0014.
^ Робинсон, Т. (1992). «Система распознавания слов на основе сети распространения повторяющихся ошибок в реальном времени». ICASSP . Icassp'92: 617–620. ISBN 9780780305328. Архивировано из оригинала 2021-05-09 . Получено 2017-06-12 .
^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ (март 1989). «Распознавание фонем с использованием нейронных сетей с задержкой по времени» (PDF) . IEEE Transactions on Acoustics, Speech, and Signal Processing . 37 (3): 328–339. doi :10.1109/29.21701. hdl :10338.dmlcz/135496. ISSN 0096-3518. S2CID 9563026. Архивировано (PDF) из оригинала 27.04.2021 . Получено 24.09.2019 .
^ Бейкер, Дж.; Дэн, Ли; Гласс, Джим; Худанпур, С.; Ли, К.-Х.; Морган, Н.; О'Шонесси, Д. (2009). «Исследовательские разработки и направления в области распознавания и понимания речи, часть 1». Журнал обработки сигналов IEEE . 26 (3): 75–80. Bibcode : 2009ISPM...26...75B. doi : 10.1109/msp.2009.932166. hdl : 1721.1/51891. S2CID 357467.
^ Bengio, Y. (1991). «Искусственные нейронные сети и их применение для распознавания речи/последовательности». Докторская диссертация Университета Макгилла. Архивировано из оригинала 2021-05-09 . Получено 2017-06-12 .
^ Дэн, Л.; Хассанейн, К.; Элмасри, М. (1994). «Анализ структуры корреляции для нейронной предсказательной модели с приложениями к распознаванию речи». Нейронные сети . 7 (2): 331–339. doi :10.1016/0893-6080(94)90027-2.
^ Доддингтон, Г.; Пржибоцкий, М.; Мартин, А.; Рейнольдс, Д. (2000). «Оценка распознавания говорящего NIST ± Обзор, методология, системы, результаты, перспективы». Речевая коммуникация . 31 (2): 225–254. doi :10.1016/S0167-6393(99)00080-1.
^ ab Хек, Л.; Кониг, Й.; Сонмез, М.; Вайнтрауб, М. (2000). «Устойчивость к искажениям телефонной трубки при распознавании говорящего с помощью конструкции дискриминантных признаков». Речевая коммуникация . 31 (2): 181–192. doi :10.1016/s0167-6393(99)00077-1.
^ LP Heck и R. Teunen. «Безопасные и удобные транзакции с Nuance Verifier». Конференция пользователей Nuance, апрель 1998 г.
^ "Акустическое моделирование с помощью глубоких нейронных сетей с использованием необработанного временного сигнала для LVCSR (доступна загрузка PDF)". ResearchGate . Архивировано из оригинала 9 мая 2021 г. Получено 14 июня 2017 г.
^ ab Грейвс, Алекс; Эк, Дуглас; Берингер, Николь; Шмидхубер, Юрген (2003). «Биологически правдоподобное распознавание речи с помощью нейронных сетей LSTM» (PDF) . 1-й Международный семинар по биологически вдохновленным подходам к передовым информационным технологиям, Bio-ADIT 2004, Лозанна, Швейцария . стр. 175–184. Архивировано (PDF) из оригинала 2021-05-09 . Получено 2016-04-09 .
^ Грейвс, Алекс ; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательностей с помощью рекуррентных нейронных сетей». Труды Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ Сантьяго Фернандес, Алекс Грейвс и Юрген Шмидхубер (2007). Применение рекуррентных нейронных сетей для дискриминационного обнаружения ключевых слов Архивировано 18 ноября 2018 г. на Wayback Machine . Труды ICANN (2), стр. 220–229.
^ Грейвс, Алекс; и Шмидхубер, Юрген; Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей , в Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; и Culotta, Aron (ред.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Neural Information Processing Systems (NIPS) Foundation, 2009, стр. 545–552
^ Хинтон, Джеффри Э. (1 октября 2007 г.). «Изучение множественных слоев представления». Trends in Cognitive Sciences . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. ISSN 1364-6613. PMID 17921042. S2CID 15066318. Архивировано из оригинала 11 октября 2013 г. Получено 12 июня 2017 г.
^ Hinton, GE ; Osindero, S.; Teh, YW (2006). "Быстрый алгоритм обучения для глубоких сетей убеждений" (PDF) . Neural Computation . 18 (7): 1527–1554. doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Архивировано (PDF) из оригинала 2015-12-23 . Получено 2011-07-20 .
^ GE Hinton., "Изучение множественных слоев представления". Архивировано 22.05.2018 в Wayback Machine . Тенденции в когнитивных науках , 11, стр. 428–434, 2007.
^ Хинтон, Джеффри Э. (октябрь 2007 г.). «Изучение множественных слоев представления». Тенденции в когнитивных науках . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. PMID 17921042.
^ Хинтон, Джеффри Э.; Осиндеро, Саймон; Тех, Йи-Уай (июль 2006 г.). «Быстрый алгоритм обучения для сетей глубокого убеждения». Neural Computation . 18 (7): 1527–1554. doi :10.1162/neco.2006.18.7.1527. ISSN 0899-7667. PMID 16764513.
^ Хинтон, Джеффри Э. (2009-05-31). "Сети глубоких убеждений". Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 . ISSN 1941-6016.
^ Янн ЛеКун (2016). Слайды о глубоком обучении онлайн Архивировано 23 апреля 2016 г. на Wayback Machine
^ abc Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T. ; Kingsbury, B. (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп». Журнал обработки сигналов IEEE . 29 (6): 82–97. Bibcode : 2012ISPM...29...82H. doi : 10.1109/msp.2012.2205597. S2CID 206485943.
^ abc Deng, L.; Hinton, G.; Kingsbury, B. (май 2013 г.). "Новые типы глубокого обучения нейронных сетей для распознавания речи и связанных приложений: обзор (ICASSP)" (PDF) . Microsoft. Архивировано (PDF) из оригинала 2017-09-26 . Получено 27 декабря 2023 г. .
^ abc Ю, Д.; Дэн, Л. (2014). Автоматическое распознавание речи: подход глубокого обучения (Издательство: Springer). Springer. ISBN 978-1-4471-5779-3.
^ "Дэн получает престижную премию IEEE Technical Achievement Award - Microsoft Research". Microsoft Research . 3 декабря 2015 г. Архивировано из оригинала 16 марта 2018 г. Получено 16 марта 2018 г.
^ ab Li, Deng (сентябрь 2014 г.). "Основной доклад: 'Достижения и проблемы глубокого обучения - от анализа и распознавания речи до языка и мультимодальной обработки'". Interspeech . Архивировано из оригинала 2017-09-26 . Получено 2017-06-12 .
^ Ю, Д.; Дэн, Л. (2010). «Роли предварительной подготовки и тонкой настройки в контекстно-зависимых DBN-HMM для распознавания речи в реальном мире». Семинар NIPS по глубокому обучению и неконтролируемому обучению признаков . Архивировано из оригинала 2017-10-12 . Получено 2017-06-14 .
^ Seide, F.; Li, G.; Yu, D. (2011). «Транскрипция разговорной речи с использованием контекстно-зависимых глубоких нейронных сетей». Interspeech 2011. С. 437–440. doi :10.21437/Interspeech.2011-169. S2CID 398770. Архивировано из оригинала 12.10.2017 . Получено 14.06.2017 .
^ Дэн, Ли; Ли, Цзиньюй; Хуан, Цзюй-Тин; Яо, Кайшэн; Ю, Дун; Сейде, Франк; Зельцер, Майк; Цвейг, Джефф; Хэ, Сяодун (1 мая 2013 г.). "Последние достижения в области глубокого обучения для исследования речи в Microsoft". Microsoft Research . Архивировано из оригинала 12 октября 2017 г. . Получено 14 июня 2017 г.
^ ab Oh, K.-S.; Jung, K. (2004). "Реализация нейронных сетей на GPU". Pattern Recognition . 37 (6): 1311–1314. Bibcode : 2004PatRe..37.1311O. doi : 10.1016/j.patcog.2004.01.013.
^ ab Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), Высокопроизводительные сверточные нейронные сети для обработки документов, заархивировано из оригинала 2020-05-18 , извлечено 2021-02-14
^ Sze, Vivienne ; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). «Эффективная обработка глубоких нейронных сетей: учебное пособие и обзор». arXiv : 1703.09039 [cs.CV].
^ Райна, Раджат; Мадхаван, Ананд; Нг, Эндрю Й. (2009-06-14). «Крупномасштабное глубокое неконтролируемое обучение с использованием графических процессоров». Труды 26-й ежегодной международной конференции по машинному обучению . ICML '09. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 873–880. doi :10.1145/1553374.1553486. ISBN 978-1-60558-516-1.
^ Чирешан, Дэн Клаудиу; Мейер, Ули; Гамбарделла, Лука Мария; Шмидхубер, Юрген (21 сентября 2010 г.). «Глубокие, большие и простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . дои : 10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
^ Ciresan, DC; Meier, U.; Masci, J.; Gambardella, LM; Schmidhuber, J. (2011). "Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений" (PDF) . Международная объединенная конференция по искусственному интеллекту . doi :10.5591/978-1-57735-516-8/ijcai11-210. Архивировано (PDF) из оригинала 29-09-2014 . Получено 13-06-2017 .
^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, CJC; Bottou, L.; Weinberger, KQ (ред.). Advances in Neural Information Processing Systems 25 (PDF) . Curran Associates, Inc. стр. 2843–2851. Архивировано (PDF) из оригинала 2017-08-09 . Получено 2017-06-13 .
^ Ciresan, D.; Giusti, A.; Gambardella, LM; Schmidhuber, J. (2013). «Обнаружение митоза на гистологических изображениях рака молочной железы с помощью глубоких нейронных сетей». Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science. Vol. 7908. pp. 411–418. doi :10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
^ Нг, Эндрю; Дин, Джефф (2012). «Создание высокоуровневых функций с использованием крупномасштабного неконтролируемого обучения». arXiv : 1112.6209 [cs.LG].
^ Симонян, Карен; Эндрю, Зиссерман (2014). «Очень глубокие сверточные сети для распознавания изображений большого масштаба». arXiv : 1409.1556 [cs.CV].
^ Сзегеди, Кристиан (2015). «Глубже с извилинами» (PDF) . Cvpr2015 . arXiv : 1409.4842 .
^ Виньялс, Ориол; Тошев, Александр; Бенджио, Сами; Эрхан, Думитру (2014). «Покажи и расскажи: нейронный генератор подписей к изображениям». arXiv : 1411.4555 [cs.CV]..
^ Фанг, Хао; Гупта, Саурабх; Иандола, Форрест; Шривастава, Рупеш; Дэн, Ли; Доллар, Петр; Гао, Цзяньфэн; Хэ, Сяодун; Митчелл, Маргарет; Платт, Джон С.; Лоуренс Зитник, С.; Цвейг, Джеффри (2014). «От подписей к визуальным концепциям и обратно». arXiv : 1411.4952 [cs.CV]..
^ Кирос, Райан; Салахутдинов, Руслан; Земель, Ричард С. (2014). «Унификация визуально-семантических вложений с помощью многомодальных нейронных языковых моделей». arXiv : 1411.2539 [cs.LG]..
^ Симонян, Карен; Зиссерман, Эндрю (2015-04-10), Очень глубокие сверточные сети для крупномасштабного распознавания изображений , arXiv : 1409.1556
^ Хэ, Каймин; Чжан, Сянъюй; Жэнь, Шаоцин; Сан, Цзянь (2016). «Глубокое изучение выпрямителей: превосходство человеческого уровня в классификации ImageNet». arXiv : 1502.01852 [cs.CV].
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (10 декабря 2015 г.). Глубокое остаточное обучение для распознавания изображений . arXiv : 1512.03385 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Глубокое остаточное обучение для распознавания изображений. Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . doi : 10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Гатис, Леон А.; Экер, Александр С.; Бетге, Маттиас (26 августа 2015 г.). «Нейронный алгоритм художественного стиля». arXiv : 1508.06576 [cs.CV].
^ Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бинг; Уорд-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенжио, Йошуа (2014). Генеративные состязательные сети (PDF) . Труды Международной конференции по системам обработки нейронной информации (NIPS 2014). стр. 2672–2680. Архивировано (PDF) из оригинала 22 ноября 2019 г. . Получено 20 августа 2019 г. .
^ "GAN 2.0: Гиперреалистичный генератор лиц от NVIDIA". SyncedReview.com . 14 декабря 2018 г. . Получено 3 октября 2019 г. .
^ Каррас, Т.; Айла, Т.; Лайне, С.; Лехтинен, Дж. (26 февраля 2018 г.). «Прогрессивное выращивание GAN для улучшения качества, стабильности и вариативности». arXiv : 1710.10196 [cs.NE].
^ «Prepare, Don't Panic: Synthetic Media and Deepfakes». witness.org. Архивировано из оригинала 2 декабря 2020 г. Получено 25 ноября 2020 г.
^ Соль-Дикштейн, Яша; Вайс, Эрик; Махешваранатан, Ниру; Гангули, Сурья (2015-06-01). «Глубокое неконтролируемое обучение с использованием неравновесной термодинамики» (PDF) . Труды 32-й Международной конференции по машинному обучению . 37. PMLR: 2256–2265. arXiv : 1503.03585 .
^ Блог Google Research. Нейронные сети, лежащие в основе транскрипции Google Voice. 11 августа 2015 г. Франсуаза Бофе http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
^ ab Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (сентябрь 2015 г.). "Голосовой поиск Google: быстрее и точнее". Архивировано из оригинала 2016-03-09 . Получено 2016-04-09 .
^ Сингх, Премджит; Саха, Гаутам; Сахидулла, Мэриленд (2021). «Нелинейное изменение частоты с использованием преобразования с постоянным Q для распознавания речевых эмоций». Международная конференция по компьютерным коммуникациям и информатике (ICCCI) 2021 г. . стр. 1–4. arXiv : 2102.04029 . doi :10.1109/ICCCI50826.2021.9402569. ISBN 978-1-7281-5875-4. S2CID 231846518.
^ Сак, Хасим; Сениор, Эндрю; Бофе, Франсуаза (2014). «Рекуррентные архитектуры нейронных сетей с долговременной краткосрочной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинала (PDF) 24 апреля 2018 г.
^ Ли, Сянган; У, Сихун (2014). «Построение глубоких рекуррентных нейронных сетей на основе долговременной краткосрочной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [cs.CL].
^ Zen, Heiga; Sak, Hasim (2015). «Однонаправленная рекуррентная нейронная сеть с долговременной краткосрочной памятью и рекуррентным выходным слоем для синтеза речи с малой задержкой» (PDF) . Google.com . ICASSP. стр. 4470–4474. Архивировано (PDF) из оригинала 2021-05-09 . Получено 2017-06-13 .
^ "Лауреаты премии ACM AM Turing Award 2018". awards.acm.org . Получено 07.08.2024 .
^ Ферри, К. и Кайзер, С. (2019). Нейронные сети для младенцев . Справочники. ISBN 978-1492671206.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Сильвер, Дэвид; Хуанг, Аджа; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда (январь 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. дои : 10.1038/nature16961. ISSN 1476-4687. PMID 26819042. S2CID 515925.
^ Руководство по глубокому обучению и нейронным сетям, заархивировано из оригинала 2020-11-02 , извлечено 2020-11-16
^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). «Глубокие нейронные сети для обнаружения объектов». Advances in Neural Information Processing Systems : 2553–2561. Архивировано из оригинала 29-06-2017 . Получено 13-06-2017 .
^ Rolnick, David; Tegmark, Max (2018). «Сила более глубоких сетей для выражения естественных функций». Международная конференция по представлениям обучения . ICLR 2018. Архивировано из оригинала 2021-01-07 . Получено 2021-01-05 .
^ Хоф, Роберт Д. «Искусственный интеллект наконец-то вступает в свои права?». MIT Technology Review . Архивировано из оригинала 31 марта 2019 г. Получено 10 июля 2018 г.
^ ab Gers, Felix A.; Schmidhuber, Jürgen (2001). «LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages». IEEE Transactions on Neural Networks . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330. Архивировано из оригинала 26.01.2020 . Получено 25.02.2020 .
^ abc Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF) . Proc. NIPS . arXiv : 1409.3215 . Bibcode :2014arXiv1409.3215S. Архивировано (PDF) из оригинала 2021-05-09 . Получено 2017-06-13 .
^ ab Юзефович, Рафал; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; Ву, Йонгхуэй (2016). «Изучение пределов моделирования языка». arXiv : 1602.02410 [cs.CL].
^ ab Гиллик, Дэн; Бранк, Клифф; Виньялс, Ориол; Субраманья, Амарнаг (2015). «Многоязычная обработка языка из байтов». arXiv : 1512.00103 [cs.CL].
^ Миколов, Т.; и др. (2010). "Рекуррентная нейронная сеть на основе языковой модели" (PDF) . Interspeech : 1045–1048. doi :10.21437/Interspeech.2010-343. S2CID 17048224. Архивировано (PDF) из оригинала 2017-05-16 . Получено 2017-06-13 .
^ Хохрейтер, Зепп; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
^ ab "Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)". ResearchGate . Архивировано из оригинала 9 мая 2021 г. . Получено 13 июня 2017 г. .
^ LeCun, Y.; et al. (1998). «Градиентное обучение, применяемое для распознавания документов». Труды IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791. S2CID 14542261.
^ Sainath, Tara N .; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). «Глубокие сверточные нейронные сети для LVCSR». Международная конференция IEEE по акустике, речи и обработке сигналов 2013 г. стр. 8614–8618. doi :10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6. S2CID 13816461.
^ Бенджио, Йошуа; Буланже-Левандовски, Николас; Паскану, Разван (2013). «Достижения в оптимизации рекуррентных сетей». Международная конференция IEEE по акустике, речи и обработке сигналов 2013 г. С. 8624–8628. arXiv : 1212.0901 . CiteSeerX 10.1.1.752.9151 . doi :10.1109/icassp.2013.6639349. ISBN 978-1-4799-0356-6. S2CID 12485056.
^ Dahl, G.; et al. (2013). "Улучшение DNN для LVCSR с использованием выпрямленных линейных блоков и выпадения" (PDF) . ICASSP . Архивировано (PDF) из оригинала 2017-08-12 . Получено 2017-06-13 .
^ "Data Augmentation - deeplearning.ai | Coursera". Coursera . Архивировано из оригинала 1 декабря 2017 года . Получено 30 ноября 2017 года .
^ Hinton, GE (2010). "Практическое руководство по обучению ограниченных машин Больцмана". Технический отчет UTML TR 2010-003 . Архивировано из оригинала 2021-05-09 . Получено 2017-06-13 .
^ You, Yang; Buluç, Aydın; Demmel, James (ноябрь 2017 г.). «Масштабирование глубокого обучения на GPU и кластеры Knights Landing». Труды Международной конференции по высокопроизводительным вычислениям, сетевым технологиям, хранению и анализу на SC '17. SC '17, ACM. стр. 1–12. doi :10.1145/3126908.3126912. ISBN 9781450351140. S2CID 8869270. Архивировано из оригинала 29 июля 2020 г. . Получено 5 марта 2018 г. .
^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). «CHAOS: схема распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi». Журнал суперкомпьютеров . 75 : 197–227. arXiv : 1702.07908 . Bibcode : 2017arXiv170207908V. doi : 10.1007/s11227-017-1994-x. S2CID 14135321.
^ Тин Цинь и др. «Алгоритм обучения CMAC на основе RLS». Neural Processing Letters 19.1 (2004): 49-61.
^ Тин Цинь и др. «Непрерывный CMAC-QRLS и его систолический массив». Архивировано 18 ноября 2018 г. в Wayback Machine . Neural Processing Letters 22.1 (2005): 1-16.
^ Исследования, AI (23 октября 2015 г.). "Глубокие нейронные сети для акустического моделирования в распознавании речи". airesearch.com . Архивировано из оригинала 1 февраля 2016 г. Получено 23 октября 2015 г.
^ «GPUs Continue to Dominate the AI Accelerator Market for Now». InformationWeek . Декабрь 2019. Архивировано из оригинала 10 июня 2020 года . Получено 11 июня 2020 года .
^ Рэй, Тирнан (2019). «ИИ меняет всю природу вычислений». ZDNet . Архивировано из оригинала 25 мая 2020 г. Получено 11 июня 2020 г.
^ "AI and Compute". OpenAI . 16 мая 2018 г. Архивировано из оригинала 17 июня 2020 г. Получено 11 июня 2020 г.
^ «HUAWEI раскрывает будущее мобильного искусственного интеллекта на выставке IFA 2017 | Последние новости HUAWEI | HUAWEI Global». consumer.huawei.com .
^ P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (2017-06-24). "Анализ производительности тензорного процессора в центре обработки данных". ACM SIGARCH Computer Architecture News . 45 (2): 1–12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
^ Вуди, Алекс (01.11.2021). «Cerebras набирает обороты для рабочих нагрузок глубокого обучения». Datanami . Получено 03.08.2022 .
^ "Cerebras запускает новый суперкомпьютерный процессор ИИ с 2,6 триллионами транзисторов". VentureBeat . 2021-04-20 . Получено 2022-08-03 .
^ Марега, Гильерме Мильято; Чжао, Яньфэй; Авсар, Ахмет; Ван, Чжэньюй; Трипати, Мукеш; Раденович, Александра; Кис, Анрас (2020). «Логика в памяти на основе атомарно тонкого полупроводника». Природа . 587 (2): 72–77. Бибкод :2020Natur.587...72M. дои : 10.1038/s41586-020-2861-0. ПМЦ 7116757 . ПМИД 33149289.
^ abc Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). «Параллельная сверточная обработка с использованием интегрированного фотонного тензора». Nature . 589 (2): 52–58. arXiv : 2002.00281 . doi :10.1038/s41586-020-03070-1. PMID 33408373. S2CID 211010976.
^ Гарофоло, Дж. С.; Ламель, Л. Ф.; Фишер, В. М.; Фискус, Дж. Г.; Паллетт, Д. С.; Дальгрен, Н. Л.; Зю, В. (1993). Корпус акустико-фонетической непрерывной речи TIMIT. Linguistic Data Consortium. doi : 10.35111/17gk-bn40. ISBN 1-58563-019-5. Получено 27 декабря 2023 г. .
^ Робинсон, Тони (30 сентября 1991 г.). «Несколько улучшений в системе распознавания телефонов с повторяющимся распространением ошибок в сети». Технический отчет инженерного факультета Кембриджского университета . CUED/F-INFENG/TR82. doi :10.13140/RG.2.2.15418.90567.
^ Абдель-Хамид, О.; и др. (2014). «Сверточные нейронные сети для распознавания речи». Труды IEEE/ACM по обработке звука, речи и языка . 22 (10): 1533–1545. doi :10.1109/taslp.2014.2339736. S2CID 206602362. Архивировано из оригинала 22.09.2020 . Получено 20.04.2018 .
^ Дэн, Л.; Платт, Дж. (2014). «Глубокое обучение ансамбля для распознавания речи». Proc. Interspeech : 1915–1919. doi :10.21437/Interspeech.2014-433. S2CID 15641618.
^ Tóth, Laszló (2015). "Phone Recognition with Hierarchical Convolutional Deep Maxout Networks" (PDF) . EURASIP Journal on Audio, Speech, and Music Processing . 2015 . doi : 10.1186/s13636-015-0068-3 . S2CID 217950236. Архивировано (PDF) из оригинала 24.09.2020 . Получено 01.04.2019 .
^ Макмиллан, Роберт (17 декабря 2014 г.). «Как Skype использовал ИИ для создания своего потрясающего нового языкового переводчика | WIRED». Wired . Архивировано из оригинала 8 июня 2017 г. Получено 14 июня 2017 г.
^ Ханнун, Ауни; Кейс, Карл; Каспер, Джаред; Катандзаро, Брайан; Диамос, Грег; Элсен, Эрих; Пренгер, Райан; Сатиш, Санджив; Сенгупта, Шубхо; Коутс, Адам; Нг, Эндрю Ю (2014). «Глубокая речь: расширение сквозного распознавания речи». arXiv : 1412.5567 [cs.CL].
^ "База данных рукописных цифр MNIST, Ян Лекун, Коринна Кортес и Крис Берджес". yann.lecun.com . Архивировано из оригинала 2014-01-13 . Получено 2014-01-28 .
^ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (август 2012 г.). «Многоколоночная глубокая нейронная сеть для классификации дорожных знаков». Neural Networks . Selected Papers from IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . doi :10.1016/j.neunet.2012.02.023. PMID 22386783.
^ Чаочао Лу; Сяоу Тан (2014). «Превосходящее распознавание лиц на человеческом уровне». arXiv : 1404.3840 [cs.CV].
^ Nvidia демонстрирует автомобильный компьютер, обученный с помощью «глубокого обучения» (6 января 2015 г.), Дэвид Талбот, MIT Technology Review
^ abc GW Smith; Frederic Fol Leymarie (10 апреля 2017 г.). «Машина как художник: Введение». Arts . 6 (4): 5. doi : 10.3390/arts6020005 .
^ abc Blaise Agüera y Arcas (29 сентября 2017 г.). «Искусство в эпоху машинного интеллекта». Arts . 6 (4): 18. doi : 10.3390/arts6040018 .
^ Голдберг, Йоав; Леви, Омар (2014). «word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method». arXiv : 1402.3722 [cs.CL].
^ ab Socher, Richard; Manning, Christopher. "Deep Learning for NLP" (PDF) . Архивировано (PDF) из оригинала 6 июля 2014 г. . Получено 26 октября 2014 г. .
^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). "Parsing With Compositional Vector Grammars" (PDF) . Труды конференции ACL 2013 . Архивировано (PDF) из оригинала 27.11.2014 . Получено 03.09.2014 .
^ Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, CD; Ng, A.; Potts, C. (октябрь 2013 г.). "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" (PDF) . Труды конференции 2013 года по эмпирическим методам обработки естественного языка . Ассоциация компьютерной лингвистики. Архивировано (PDF) из оригинала 28 декабря 2016 г. . Получено 21 декабря 2023 г. .
^ Шэнь, Елун; Хэ, Сяодун; Гао, Цзяньфэн; Дэн, Ли; Мениль, Грегуар (1 ноября 2014 г.). «Латентная семантическая модель со сверточной структурой объединения для поиска информации». Microsoft Research . Архивировано из оригинала 27 октября 2017 г. . Получено 14 июня 2017 г.
^ Хуан, По-Сен; Хэ, Сяодун; Гао, Цзяньфэн; Дэн, Ли; Асеро, Алекс; Хек, Ларри (1 октября 2013 г.). «Изучение глубоко структурированных семантических моделей для веб-поиска с использованием данных о кликах». Microsoft Research . Архивировано из оригинала 27 октября 2017 г. . Получено 14 июня 2017 г.
^ Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D .; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). «Использование рекуррентных нейронных сетей для заполнения слотов в понимании разговорной речи». IEEE Transactions on Audio, Speech, and Language Processing . 23 (3): 530–539. doi :10.1109/taslp.2014.2383614. S2CID 1317136.
^ ab Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 июня 2014 г.). «Изучение представлений непрерывных фраз для моделирования перевода». Microsoft Research . Архивировано из оригинала 27 октября 2017 г. . Получено 14 июня 2017 г.
^ Брокардо, Марсело Луис; Траоре, Исса; Вунганг, Исаак; Обаидат, Мохаммад С. (2017). «Проверка авторства с использованием систем глубоких убеждений». Международный журнал коммуникационных систем . 30 (12): e3259. doi :10.1002/dac.3259. S2CID 40745740.
^ Кариампужа, Уильям; Алиея, Джоконда; Ку, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядав, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для эпидемиологии редких заболеваний в масштабе». Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634. PMID 36855134 .
^ "Глубокое обучение для обработки естественного языка: теория и практика (учебник CIKM2014) - Microsoft Research". Microsoft Research . Архивировано из оригинала 13 марта 2017 г. Получено 14 июня 2017 г.
^ Туровский, Барак (15 ноября 2016 г.). «Найдено в переводе: Более точные, плавные предложения в Google Translate». Ключевое слово Google Blog . Архивировано из оригинала 7 апреля 2017 г. Получено 23 марта 2017 г.
^ abcd Шустер, Майк; Джонсон, Мелвин; Торат, Нихил (22 ноября 2016 г.). «Перевод с нуля с помощью многоязыковой системы нейронного машинного перевода Google». Блог Google Research . Архивировано из оригинала 10 июля 2017 г. . Получено 23 марта 2017 г.
^ У, Йонгхуэй; Шустер, Майк; Чэнь, Жифэн; Ле, Куок V; Норузи, Мохаммад; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш; Гоувс, Стефан; Като, Ёсикиё; Кудо, Таку; Казава, Хидето; Стивенс, Кит; Куриан, Джордж; Патил, Нишант; Ван, Вэй; Янг, Клифф; Смит, Джейсон; Риза, Джейсон; Рудник, Алекс; Виньялс, Ориол; Коррадо, Грег; и др. (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [cs.CL].
^ Метц, Кейд (27 сентября 2016 г.). «Вливание ИИ делает Google Translate мощнее, чем когда-либо». Wired . Архивировано из оригинала 8 ноября 2020 г. Получено 12 октября 2017 г.
^ ab Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). "MT on and for the Web" (PDF) . Архивировано из оригинала (PDF) 29 марта 2017 г. . Получено 1 декабря 2016 г. .
^ Arrowsmith, J; Miller, P (2013). "Trial watch: Phase II and phase III attrial rate 2011-2012". Nature Reviews Drug Discovery . 12 (8): 569. doi : 10.1038/nrd4090 . PMID 23903212. S2CID 20246434.
^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, HW; Hochreiter, S (2015). «Использование транскриптомики для оптимизации лидов в проектах по разработке лекарств: уроки, извлеченные из проекта QSTAR». Drug Discovery Today . 20 (5): 505–513. doi : 10.1016/j.drudis.2014.12.014 . hdl : 1942/18723 . PMID 25582842.
^ "Merck Molecular Activity Challenge". kaggle.com . Архивировано из оригинала 2020-07-16 . Получено 2020-07-16 .
^ "Многозадачные нейронные сети для предсказаний QSAR | Ассоциация науки о данных". www.datascienceassn.org . Архивировано из оригинала 30 апреля 2017 г. . Получено 14 июня 2017 г. .
^ «Токсикология в XXI веке. Проблема данных»
^ "NCATS объявляет победителей конкурса данных Tox21". Архивировано из оригинала 2015-09-08 . Получено 2015-03-05 .
^ "NCATS объявляет победителей конкурса данных Tox21". Архивировано из оригинала 28 февраля 2015 г. Получено 5 марта 2015 г.
^ Уоллах, Ижар; Дзамба, Майкл; Хейфиц, Абрахам (9 октября 2015 г.). «AtomNet: глубокая сверточная нейронная сеть для прогнозирования биоактивности при структурно-ориентированном открытии лекарств». arXiv : 1510.02855 [cs.LG].
^ ab "Стартап из Торонто нашел более быстрый способ обнаружить эффективные лекарства". The Globe and Mail . Архивировано из оригинала 20 октября 2015 г. Получено 9 ноября 2015 г.
^ "Стартап использует суперкомпьютеры для поиска лекарств". KQED Future of You . 27 мая 2015 г. Архивировано из оригинала 24 декабря 2015 г. Получено 9 ноября 2015 г.
^ Гилмер, Джастин; Шенхольц, Сэмюэл С.; Райли, Патрик Ф.; Виньялс, Ориол; Даль, Джордж Э. (12.06.2017). «Нейронная передача сообщений для квантовой химии». arXiv : 1704.01212 [cs.LG].
^ Жаворонков, Алекс (2019). «Глубокое обучение позволяет быстро идентифицировать мощные ингибиторы киназы DDR1». Nature Biotechnology . 37 (9): 1038–1040. doi :10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
^ Грегори, Барбер. «Молекула, разработанная искусственным интеллектом, проявляет качества, похожие на лекарства». Wired . Архивировано из оригинала 30.04.2020 . Получено 05.09.2019 .
^ Ткаченко, Егор (8 апреля 2015 г.). «Автономное управление CRM с помощью аппроксимации CLV с глубоким обучением с подкреплением в пространстве дискретных и непрерывных действий». arXiv : 1504.01840 [cs.LG].
^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, CJC; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, KQ (ред.). Advances in Neural Information Processing Systems 26 (PDF) . Curran Associates, Inc. стр. 2643–2651. Архивировано (PDF) из оригинала 2017-05-16 . Получено 2017-06-14 .
^ Feng, XY; Zhang, H.; Ren, YJ; Shang, PH; Zhu, Y.; Liang, YC; Guan, RC; Xu, D. (2019). «Система рекомендаций на основе глубокого обучения «Pubmender» для выбора места проведения биомедицинской публикации: исследование разработки и проверки». Журнал медицинских интернет-исследований . 21 (5): e12957. doi : 10.2196/12957 . PMC 6555124. PMID 31127715 .
^ Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 мая 2015 г.). «Многопрофильный подход к глубокому обучению для моделирования пользователей в кросс-доменных системах рекомендаций». Microsoft Research . Архивировано из оригинала 25 января 2018 г. . Получено 14 июня 2017 г.
^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 января 2014 г.). «Глубокие автокодирующие нейронные сети для предсказаний аннотаций онтологии генов». Труды 5-й конференции ACM по биоинформатике, вычислительной биологии и информатике здравоохранения. ACM. стр. 533–540. doi :10.1145/2649387.2649442. hdl :11311/964622. ISBN 9781450328944. S2CID 207217210. Архивировано из оригинала 9 мая 2021 г. . Получено 23 ноября 2015 г. .
^ Sathyanarayana, Aarti (1 января 2016 г.). «Прогнозирование качества сна на основе данных с носимых устройств с использованием глубокого обучения». JMIR mHealth и uHealth . 4 (4): e125. doi : 10.2196/mhealth.6562 . PMC 5116102 . PMID 27815231. S2CID 3821594.
^ Чой, Эдвард; Шютц, Энди; Стюарт, Уолтер Ф.; Сан, Джименг (13 августа 2016 г.). «Использование рекуррентных моделей нейронных сетей для раннего выявления начала сердечной недостаточности». Журнал Американской ассоциации медицинской информатики . 24 (2): 361–370. doi :10.1093/jamia/ocw112. ISSN 1067-5027. PMC 5391725. PMID 27521897 .
^ «Искусственный интеллект DeepMind, сворачивающий белки, решил 50-летнюю грандиозную задачу биологии». MIT Technology Review . Получено 10.05.2024 .
^ Шеад, Сэм (2020-11-30). «DeepMind решает 50-летнюю «грандиозную задачу» с помощью ИИ по сворачиванию белков» CNBC . Получено 2024-05-10 .
^ ab Шалев, Ю.; Паинский, А.; Бен-Гал, И. (2022). «Оценка нейронной совместной энтропии» (PDF) . Труды IEEE по нейронным сетям и системам обучения . PP (4): 5488–5500. arXiv : 2012.11197 . doi :10.1109/TNNLS.2022.3204919. PMID 36155469. S2CID 229339809.
^ Литженс, Герт; Коой, Тайс; Бейнорди, Бабак Эхтешами; Сетио, Арно Ариндра Адийосо; Чомпи, Франческо; Гафурян, Мохсен; ван дер Лаак, Йерун АВМ; ван Гиннекен, Брэм; Санчес, Клара И. (декабрь 2017 г.). «Опрос по глубокому обучению в области анализа медицинских изображений». Анализ медицинских изображений . 42 : 60–88. arXiv : 1702.05747 . Бибкод : 2017arXiv170205747L. дои : 10.1016/j.media.2017.07.005. PMID 28778026. S2CID 2088679.
^ Форслид, Густав; Висландер, Хакан; Бенгтссон, Эверт; Вальби, Каролина; Хирш, Ян-Майкл; Старк, Кристина Рунов; Саданандан, Саджит Кечерил (2017). «Глубокие сверточные нейронные сети для обнаружения клеточных изменений, вызванных злокачественными новообразованиями». 2017 IEEE Международная конференция по компьютерному зрению (ICCVW) . стр. 82–89. doi :10.1109/ICCVW.2017.18. ISBN 9781538610343. S2CID 4728736. Архивировано из оригинала 2021-05-09 . Получено 2019-11-12 .
^ Дун, Синь; Чжоу, Ичжао; Ван, Ланьтянь; Пэн, Цзинфэн; Лу, Яньбо; Фань, Ицюнь (2020). «Обнаружение рака печени с использованием гибридной полностью сверточной нейронной сети на основе инфраструктуры глубокого обучения». IEEE Access . 8 : 129889–129898. Bibcode : 2020IEEEA...8l9889D. doi : 10.1109/ACCESS.2020.3006362 . ISSN 2169-3536. S2CID 220733699.
^ Ляхов, Павел Алексеевич; Ляхова, Ульяна Алексеевна; Нагорнов, Николай Николаевич (2022-04-03). "Система распознавания пигментированных новообразований кожи с объединением и анализом гетерогенных данных на основе мультимодальной нейронной сети". Cancers . 14 (7): 1819. doi : 10.3390/cancers14071819 . ISSN 2072-6694. PMC 8997449 . PMID 35406591.
^ Де, Шаунак; Майти, Абхишек; Гоэль, Вритти; Шитоле, Санджай; Бхаттачарья, Авик (2017). «Прогнозирование популярности постов в Instagram для журнала о стиле жизни с использованием глубокого обучения». 2017 2-я Международная конференция по системам связи, вычислениям и ИТ-приложениям (CSCITA) . стр. 174–177. doi :10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID 35350962.
^ "Colorizing and Restoring Old Images with Deep Learning". Блог FloydHub . 13 ноября 2018 г. Архивировано из оригинала 11 октября 2019 г. Получено 11 октября 2019 г.
^ Шмидт, Уве; Рот, Стефан. Поля сжатия для эффективного восстановления изображений (PDF) . Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2014 г. Архивировано (PDF) из оригинала 2018-01-02 . Получено 2018-01-01 .
^ Kleanthous, Christos; Chatzis, Sotirios (2020). «Gated Mixture Variational Autoencoders for Value Added Tax Audit Case Selection». Системы, основанные на знаниях . 188 : 105048. doi : 10.1016/j.knosys.2019.105048. S2CID 204092079.
^ Чех, Томаш (28 июня 2018 г.). «Глубокое обучение: следующий рубеж обнаружения отмывания денег». Global Banking and Finance Review . Архивировано из оригинала 2018-11-16 . Получено 2018-07-15 .
^ Нуньес, Майкл (29.11.2023). «ИИ материалов Google DeepMind уже обнаружил 2,2 миллиона новых кристаллов». VentureBeat . Получено 19.12.2023 .
^ Мерчант, Амил; Батцнер, Саймон; Шенхольц, Сэмюэл С.; Айкол, Муратахан; Чон, Говун; Кубук, Экин Догус (декабрь 2023 г.). «Масштабирование глубокого обучения для открытия материалов». Nature . 624 (7990): 80–85. Bibcode :2023Natur.624...80M. doi : 10.1038/s41586-023-06735-9 . ISSN 1476-4687. PMC 10700131 . PMID 38030720.
^ Пеплоу, Марк (29.11.2023). «ИИ Google и роботы объединяют усилия для создания новых материалов». Nature . doi :10.1038/d41586-023-03745-5. PMID 38030771. S2CID 265503872.
^ abc "Армейские исследователи разрабатывают новые алгоритмы для обучения роботов". EurekAlert! . Архивировано из оригинала 28 августа 2018 г. . Получено 29 августа 2018 г. .
^ Raissi, M.; Perdikaris, P.; Karniadakis, GE (2019-02-01). "Физически-информированные нейронные сети: структура глубокого обучения для решения прямых и обратных задач, связанных с нелинейными частными дифференциальными уравнениями". Journal of Computational Physics . 378 : 686–707. Bibcode : 2019JCoPh.378..686R. doi : 10.1016/j.jcp.2018.10.045 . ISSN 0021-9991. OSTI 1595805. S2CID 57379996.
^ Мао, Чжипин; Джагтап, Амейя Д.; Карниадакис, Джордж Эм (2020-03-01). "Физически-информированные нейронные сети для высокоскоростных потоков". Компьютерные методы в прикладной механике и машиностроении . 360 : 112789. Bibcode : 2020CMAME.360k2789M. doi : 10.1016/j.cma.2019.112789 . ISSN 0045-7825. S2CID 212755458.
^ Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28.02.2020). «Скрытая механика жидкости: изучение полей скорости и давления с помощью визуализаций потока». Science . 367 (6481): 1026–1030. Bibcode :2020Sci...367.1026R. doi :10.1126/science.aaw4741. PMC 7219083 . PMID 32001523.
^ Хан, Дж.; Йентцен, А.; Э., В. (2018). «Решение многомерных уравнений в частных производных с использованием глубокого обучения». Труды Национальной академии наук . 115 (34): 8505–8510. arXiv : 1707.02568 . Bibcode : 2018PNAS..115.8505H. doi : 10.1073/pnas.1718942115 . PMC 6112690. PMID 30082389 .
^ Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). «Высокоразрешающая многоспектральная визуализация с дифракционными линзами и обученной реконструкцией». IEEE Transactions on Computational Imaging . 7 : 489–504. arXiv : 2008.11625 . doi : 10.1109/TCI.2021.3075349. ISSN 2333-9403. S2CID 235340737.
^ Бернхардт, Мелани; Вишневский, Валерий; Рау, Ричард; Гоксель, Оркун (декабрь 2020 г.). «Обучение вариационных сетей с помощью многодоменного моделирования: реконструкция изображений со скоростью звука». IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control . 67 (12): 2584–2594. arXiv : 2006.14395 . doi : 10.1109/TUFFC.2020.3010186. ISSN 1525-8955. PMID 32746211. S2CID 220055785.
^ Лам, Реми; Санчес-Гонсалес, Альваро; Уилсон, Мэтью; Вирнсбергер, Питер; Фортунато, Мейре; Алет, Ферран; Равури, Суман; Эвальдс, Тимо; Итон-Розен, Зак; Ху, Вэйхуа; Мерозе, Александр; Хойер, Стефан; Холланд, Джордж; Виньялс, Ориол; Стотт, Джеклинн (22 декабря 2023 г.). «Обучение умелому среднесрочному глобальному прогнозу погоды». Наука . 382 (6677): 1416–1421. arXiv : 2212.12794 . Бибкод : 2023Sci...382.1416L. дои : 10.1126/science.adi2336 . ISSN 0036-8075. PMID 37962497.
^ Сивакумар, Рамакришнан (27.11.2023). "GraphCast: прорыв в прогнозировании погоды". Medium . Получено 19.05.2024 .
^ Галкин, Ф.; Мамошина, П.; Кочетов, К.; Сидоренко, Д.; Жаворонков, А. (2020). "DeepMAge: часы старения метилирования, разработанные с помощью глубокого обучения". Старение и болезни . doi : 10.14336/AD .
^ Utgoff, PE; Stracuzzi, DJ (2002). «Многослойное обучение». Neural Computation . 14 (10): 2497–2529. doi :10.1162/08997660260293319. PMID 12396572. S2CID 1119517.
^ Элман, Джеффри Л. (1998). Переосмысление врожденности: коннекционистский взгляд на развитие. MIT Press. ISBN 978-0-262-55030-7.
^ Шрагер, Дж.; Джонсон, М. Х. (1996). «Динамическая пластичность влияет на возникновение функции в простом корковом массиве». Нейронные сети . 9 (7): 1119–1129. doi :10.1016/0893-6080(96)00033-0. PMID 12662587.
^ Quartz, SR; Sejnowski, TJ (1997). «Нейронная основа когнитивного развития: конструктивистский манифест». Behavioral and Brain Sciences . 20 (4): 537–556. CiteSeerX 10.1.1.41.7854 . doi :10.1017/s0140525x97001581. PMID 10097006. S2CID 5818342.
^ С. Блейксли, «На ранних этапах развития мозга график может иметь решающее значение», The New York Times, Science Section , стр. B5–B6, 1995.
^ Mazzoni, P.; Andersen, RA; Jordan, MI (15 мая 1991 г.). «Более биологически правдоподобное правило обучения для нейронных сетей». Труды Национальной академии наук . 88 (10): 4433–4437. Bibcode : 1991PNAS...88.4433M. doi : 10.1073/pnas.88.10.4433 . ISSN 0027-8424. PMC 51674. PMID 1903542 .
^ O'Reilly, Randall C. (1 июля 1996 г.). «Биологически правдоподобное обучение на основе ошибок с использованием локальных различий активации: обобщенный алгоритм рециркуляции». Neural Computation . 8 (5): 895–938. doi :10.1162/neco.1996.8.5.895. ISSN 0899-7667. S2CID 2376781.
^ Тестолин, Альберто; Зорзи, Марко (2016). «Вероятностные модели и генеративные нейронные сети: на пути к единой структуре для моделирования нормальных и нарушенных нейрокогнитивных функций». Frontiers in Computational Neuroscience . 10 : 73. doi : 10.3389/fncom.2016.00073 . ISSN 1662-5188. PMC 4943066. PMID 27468262. S2CID 9868901 .
^ Тестолин, Альберто; Стоянов, Ивилин; Зорзи, Марко (сентябрь 2017 г.). «Восприятие букв возникает из неконтролируемого глубокого обучения и переработки естественных особенностей изображения». Nature Human Behaviour . 1 (9): 657–664. doi :10.1038/s41562-017-0186-2. ISSN 2397-3374. PMID 31024135. S2CID 24504018.
^ Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 ноября 2011 г.). "Нейронная динамика как выборка: модель для стохастических вычислений в рекуррентных сетях импульсных нейронов". PLOS Computational Biology . 7 (11): e1002211. Bibcode : 2011PLSCB...7E2211B. doi : 10.1371/journal.pcbi.1002211 . ISSN 1553-7358. PMC 3207943. PMID 22096452. S2CID 7504633 .
^ Cash, S.; Yuste, R. (февраль 1999). «Линейное суммирование возбуждающих входов пирамидальными нейронами CA1». Neuron . 22 (2): 383–394. doi : 10.1016/s0896-6273(00)81098-3 . ISSN 0896-6273. PMID 10069343. S2CID 14663106.
^ Олсхаузен, Б.; Филд, Д. (1 августа 2004 г.). «Разреженное кодирование сенсорных входов». Current Opinion in Neurobiology . 14 (4): 481–487. doi :10.1016/j.conb.2004.07.007. ISSN 0959-4388. PMID 15321069. S2CID 16560320.
^ Яминс, Дэниел Л.К.; ДиКарло, Джеймс Дж. (март 2016 г.). «Использование моделей глубокого обучения, ориентированных на цели, для понимания сенсорной коры». Nature Neuroscience . 19 (3): 356–365. doi :10.1038/nn.4244. ISSN 1546-1726. PMID 26906502. S2CID 16970545.
^ Zorzi, Marco; Testolin, Alberto (19 февраля 2018 г.). «Эмерджентистская точка зрения на происхождение чувства числа». Phil. Trans. R. Soc. B . 373 (1740): 20170043. doi :10.1098/rstb.2017.0043. ISSN 0962-8436. PMC 5784047 . PMID 29292348. S2CID 39281431.
^ Гючлю, Умут; ван Гервен, Марсель А. Дж. (8 июля 2015 г.). «Глубокие нейронные сети выявляют градиент сложности нейронных представлений в вентральном потоке». Журнал нейронауки . 35 (27): 10005–10014. arXiv : 1411.6422 . doi : 10.1523/jneurosci.5023-14.2015. PMC 6605414. PMID 26157000 .
^ Metz, C. (12 декабря 2013 г.). «Гуру „глубокого обучения“ Facebook раскрывает будущее ИИ». Wired . Архивировано из оригинала 28 марта 2014 г. Получено 26 августа 2017 г.
^ Гибни, Элизабет (2016). «Алгоритм Google AI овладевает древней игрой Го». Nature . 529 (7587): 445–446. Bibcode :2016Natur.529..445G. doi : 10.1038/529445a . PMID 26819021. S2CID 4460235.
^ Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грепель, Торе; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. doi : 10.1038/nature16961. ISSN 0028-0836. PMID 26819042. S2CID 515925.
^ "Алгоритм Google DeepMind использует глубокое обучение и многое другое для освоения игры в го | MIT Technology Review". MIT Technology Review . Архивировано из оригинала 1 февраля 2016 года . Получено 30 января 2016 года .
^ Метц, Кейд (6 ноября 2017 г.). «Исследователи ИИ покидают лабораторию Илона Маска, чтобы начать робототехнический стартап». The New York Times . Архивировано из оригинала 7 июля 2019 г. Получено 5 июля 2019 г.
^ Брэдли Нокс, У.; Стоун, Питер (2008). «TAMER: Обучение агента вручную с помощью оценочного подкрепления». 2008 7-я Международная конференция IEEE по развитию и обучению . С. 292–297. doi :10.1109/devlrn.2008.4640845. ISBN 978-1-4244-2661-4. S2CID 5613334.
^ «Поговорите с алгоритмами: ИИ становится более быстрым учеником». governmentciomedia.com . 16 мая 2018 г. Архивировано из оригинала 28 августа 2018 г. Получено 29 августа 2018 г.
^ Маркус, Гэри (14 января 2018 г.). «В защиту скептицизма в отношении глубокого обучения». Гэри Маркус . Архивировано из оригинала 12 октября 2018 г. Получено 11 октября 2018 г.
^ Найт, Уилл (14 марта 2017 г.). «DARPA финансирует проекты, которые попытаются открыть черные ящики ИИ». MIT Technology Review . Архивировано из оригинала 4 ноября 2019 г. Получено 2 ноября 2017 г.
^ Маркус, Гэри (25 ноября 2012 г.). «Является ли «глубокое обучение» революцией в области искусственного интеллекта?». The New Yorker . Архивировано из оригинала 27.11.2009 . Получено 14.06.2017 .
^ Александр Мордвинцев; Кристофер Олах; Майк Тайка (17 июня 2015 г.). «Inceptionism: Going Deeper into Neural Networks». Google Research Blog. Архивировано из оригинала 3 июля 2015 г. Получено 20 июня 2015 г.
^ Алекс Херн (18 июня 2015 г.). «Да, андроиды мечтают об электроовцах». The Guardian . Архивировано из оригинала 19 июня 2015 г. Получено 20 июня 2015 г.
^ abc Goertzel, Ben (2015). «Есть ли глубокие причины, лежащие в основе патологий современных алгоритмов глубокого обучения?» (PDF) . Архивировано (PDF) из оригинала 2015-05-13 . Получено 2015-05-10 .
^ Нгуен, Ань; Йосински, Джейсон; Клун, Джефф (2014). «Глубокие нейронные сети легко обмануть: высоконадежные прогнозы для неузнаваемых изображений». arXiv : 1412.1897 [cs.CV].
^ Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергус, Роб (2013). «Интригующие свойства нейронных сетей». arXiv : 1312.6199 [cs.CV].
^ Чжу, СК; Мамфорд, Д. (2006). «Стохастическая грамматика изображений». Найдено. Trends Comput. Graph. Vis . 2 (4): 259–362. CiteSeerX 10.1.1.681.2190 . doi :10.1561/0600000018.
^ Миллер, GA и Н. Хомский. «Концепция паттерна». Доклад на конференции по обнаружению паттернов, Мичиганский университет. 1957.
^ Эйснер, Джейсон. "Глубокое изучение рекурсивной структуры: грамматическая индукция". Архивировано из оригинала 2017-12-30 . Получено 2015-05-10 .
^ «Хакеры уже начали превращать искусственный интеллект в оружие». Gizmodo . 11 сентября 2017 г. Архивировано из оригинала 11 октября 2019 г. Получено 11 октября 2019 г.
^ «Как хакеры могут заставить ИИ совершать глупые ошибки». The Daily Dot . 18 июня 2018 г. Архивировано из оригинала 11 октября 2019 г. Получено 11 октября 2019 г.
^ abcde «AI Is Easy to Fool—Why That Needs to Change». Singularity Hub . 10 октября 2017 г. Архивировано из оригинала 11 октября 2017 г. Получено 11 октября 2017 г.
^ Гибни, Элизабет (2017). «Ученый, который замечает поддельные видео». Nature . doi :10.1038/nature.2017.22784. Архивировано из оригинала 2017-10-10 . Получено 2017-10-11 .
^ Тубаро, Паола (2020). «Чей интеллект — искусственный интеллект?». Глобальный диалог : 38–39.
^ ab Mühlhoff, Rainer (6 ноября 2019 г.). «Искусственный интеллект с поддержкой человека: или как выполнять большие вычисления в человеческом мозге? К медиасоциологии машинного обучения». Новые медиа и общество . 22 (10): 1868–1884. doi : 10.1177/1461444819885334 . ISSN 1461-4448. S2CID 209363848.

Дальнейшее чтение

Бишоп, Кристофер М.; Бишоп, Хью (2024). Глубокое обучение: основы и концепции . Springer. ISBN 978-3-031-45467-7.
Принс, Саймон Дж. Д. (2023). Понимание глубокого обучения . MIT Press. ISBN 9780262048644.
Гудфеллоу, Ян ; Бенджио, Йошуа ; Курвилль, Аарон (2016). Глубокое обучение. MIT Press. ISBN 978-0-26203561-3. Архивировано из оригинала 2016-04-16 . Получено 2021-05-09 , вводный учебник.{{cite book}}: CS1 maint: постскриптум ( ссылка )