stringtranslate.com

Глубокое обучение

Представление изображений на нескольких уровнях абстракции в глубоком обучении
Представление изображений на нескольких уровнях абстракции в глубоком обучении [1]

Глубокое обучение — это подмножество методов машинного обучения , основанных на искусственных нейронных сетях (ИНС) с обучением представлений . Прилагательное «глубокий» относится к использованию в сети нескольких уровней. Используемые методы могут быть контролируемыми , полуконтролируемыми или неконтролируемыми . [2]

Архитектуры глубокого обучения, такие как глубокие нейронные сети, сети глубоких убеждений , рекуррентные нейронные сети , сверточные нейронные сети и преобразователи , применяются в таких областях, как компьютерное зрение , распознавание речи , обработка естественного языка , машинный перевод , биоинформатика , дизайн лекарств , анализ медицинских изображений. , климатологии , инспекции материалов и программ настольных игр , где они дали результаты, сравнимые, а в некоторых случаях превосходящие результаты человеческих экспертов. [3] [4] [5]

Искусственные нейронные сети были созданы на основе обработки информации и распределенных узлов связи в биологических системах . ИНС имеют различные отличия от биологического мозга. В частности, искусственные нейронные сети имеют тенденцию быть статичными и символическими, в то время как биологический мозг большинства живых организмов является динамическим (пластичным) и аналоговым. [6] [7] ИНС обычно рассматриваются как низкокачественные модели функций мозга. [8]

Определение

Глубокое обучение — это класс алгоритмов машинного обучения , которые [9] : 199–200  используют несколько слоев для постепенного извлечения функций более высокого уровня из необработанных входных данных. Например, при обработке изображений нижние уровни могут идентифицировать края, а более высокие уровни могут идентифицировать понятия, относящиеся к человеку, такие как цифры, буквы или лица.

С другой стороны, глубокое обучение означает «компьютерное моделирование» или «автоматизацию» процессов обучения человека от источника (например, изображения собак) до изучаемого объекта (собак). Следовательно, понятие «более глубокое» обучение или «самое глубокое» обучение [10] имеет смысл. Самое глубокое обучение означает полностью автоматическое обучение от источника до конечного изучаемого объекта. Таким образом, более глубокое обучение относится к смешанному процессу обучения: процесс обучения человека от источника к изученному полуобъекту, за которым следует процесс компьютерного обучения от полуобъекта, изученного человеком, к конечному изученному объекту.

Обзор

Большинство современных моделей глубокого обучения основаны на многослойных искусственных нейронных сетях, таких как сверточные нейронные сети и преобразователи , хотя они также могут включать пропозициональные формулы или скрытые переменные, организованные послойно в глубоких генеративных моделях , таких как узлы в глубоких сетях убеждений и глубоких генеративных моделях. Машины Больцмана . [11]

При глубоком обучении каждый уровень учится преобразовывать входные данные в несколько более абстрактное и составное представление. В приложении распознавания изображений необработанные входные данные могут представлять собой матрицу пикселей; первый репрезентативный уровень может абстрагировать пиксели и кодировать края; второй уровень может составлять и кодировать расположение ребер; третий слой может кодировать нос и глаза; и четвертый уровень может распознать, что изображение содержит лицо. Важно отметить, что процесс глубокого обучения может самостоятельно определить, какие функции на каком уровне оптимально разместить . Это не исключает необходимости ручной настройки; например, разное количество слоев и их размеры могут обеспечить разную степень абстракции. [12] [13]

Слово «глубокий» в «глубоком обучении» относится к количеству слоев, посредством которых преобразуются данные. Точнее, системы глубокого обучения имеют значительную глубину пути присвоения кредитов (CAP). CAP — это цепочка преобразований от входа к выходу. CAP описывают потенциально причинно-следственные связи между входом и выходом. Для нейронной сети прямого распространения глубина CAP равна глубине сети и равна количеству скрытых слоев плюс один (поскольку выходной слой также параметризуется). Для рекуррентных нейронных сетей , в которых сигнал может распространяться через слой более одного раза, глубина CAP потенциально не ограничена. [14] Не существует общепринятого порога глубины, который разделяет поверхностное обучение и глубокое обучение, но большинство исследователей сходятся во мнении, что глубокое обучение предполагает глубину CAP выше 2. Было показано, что CAP глубины 2 является универсальным аппроксиматором в том смысле, что он может эмулировать любую функцию. [15] Кроме того, большее количество слоев не увеличивает возможности аппроксимации функций сети. Глубокие модели (CAP > 2) способны извлекать лучшие функции, чем поверхностные модели, и, следовательно, дополнительные слои помогают эффективно изучать функции.

Архитектуры глубокого обучения могут быть построены жадным послойным методом. [16] Глубокое обучение помогает распутать эти абстракции и выбрать, какие функции улучшают производительность. [12]

Для задач контролируемого обучения методы глубокого обучения позволяют исключить разработку функций путем перевода данных в компактные промежуточные представления, подобные основным компонентам , и создавать многоуровневые структуры, которые устраняют избыточность в представлении.

Алгоритмы глубокого обучения могут применяться к задачам обучения без присмотра. Это важное преимущество, поскольку немаркированных данных больше, чем маркированных. Примерами глубоких структур, которые можно обучать без присмотра, являются сети глубоких убеждений . [12] [17]

Модели машинного обучения теперь способны выявлять сложные закономерности в данных финансового рынка. Благодаря преимуществам искусственного интеллекта инвесторы все чаще используют методы глубокого обучения для прогнозирования и анализа тенденций на фондовых и валютных рынках. [18]

Интерпретации

Глубокие нейронные сети обычно интерпретируются с точки зрения универсальной аппроксимационной теоремы [19] [20] [21] [22] [23] или вероятностного вывода . [24] [9] [12] [14] [25]

Классическая универсальная теорема аппроксимации касается способности нейронных сетей прямого распространения с одним скрытым слоем конечного размера аппроксимировать непрерывные функции . [19] [20] [21] [22] В 1989 году Джордж Цыбенко опубликовал первое доказательство для сигмовидных функций активации [19] , а в 1991 году Курт Хорник обобщил его на многоуровневые архитектуры с прямой связью. [20] Недавняя работа также показала, что универсальное приближение справедливо и для неограниченных функций активации, таких как выпрямленная линейная единица Кунихико Фукусимы . [26] [27]

Универсальная аппроксимационная теорема для глубоких нейронных сетей касается пропускной способности сетей с ограниченной шириной, но глубине разрешено расти. Лу и др. [23] доказали, что если ширина глубокой нейронной сети с активацией ReLU строго больше входной размерности, то сеть может аппроксимировать любую интегрируемую по Лебегу функцию ; если ширина меньше или равна входному измерению, то глубокая нейронная сеть не является универсальным аппроксиматором.

Вероятностная интерпретация [25] происходит из области машинного обучения . Он включает в себя логический вывод, [9] [11] [12] [14] [17] [25] , а также концепции оптимизации обучения и тестирования , связанные с подгонкой и обобщением соответственно. Более конкретно, вероятностная интерпретация рассматривает нелинейность активации как кумулятивную функцию распределения . [25] Вероятностная интерпретация привела к введению отсева в качестве регуляризатора в нейронных сетях. Вероятностная интерпретация была введена такими исследователями, как Хопфилд , Уидроу и Нарендра , и популяризирована в исследованиях, таких как исследование Бишопа . [28]

История

Существует два типа искусственных нейронных сетей (ИНС): нейронные сети прямого распространения (FNN) и рекуррентные нейронные сети (RNN). У RNN есть циклы в структуре связности, у FNN их нет. В 1920-х годах Вильгельм Ленц и Эрнст Изинг создали и проанализировали модель Изинга [29] , которая по сути представляет собой необучающуюся архитектуру RNN, состоящую из нейроноподобных пороговых элементов. В 1972 году Шуничи Амари сделал эту архитектуру адаптивной. [30] [31] Его обучение RNN было популяризировано Джоном Хопфилдом в 1982 году. [32] RNN стали центральными для распознавания речи и языковой обработки .

Чарльз Тапперт пишет, что Фрэнк Розенблатт разработал и исследовал все основные компоненты современных систем глубокого обучения [33] , ссылаясь на книгу Розенблатта 1962 года [34] , в которой был представлен многослойный перцептрон (MLP) с тремя слоями: входной слой, скрытый слой со рандомизированными весами, которые не обучались, и выходной слой. Он также представил варианты, в том числе версию с четырехслойными перцептронами, где последние два слоя обучаются весам (и, таким образом, это настоящий многослойный перцептрон). [34] : раздел 16  Кроме того, термин «глубокое обучение» был предложен в 1986 году Риной Дектер [35], хотя история его появления, по-видимому, более сложна. [36]

Первый общий работающий алгоритм обучения для контролируемых, глубоких, многослойных перцептронов с прямой связью был опубликован Алексеем Ивахненко и Лапа в 1967 году . [37] В статье 1971 года описывалась глубокая сеть с восемью слоями, обученная групповым методом обработки данных . [38]

Первый многослойный перцептрон глубокого обучения , обученный методом стохастического градиентного спуска [39], был опубликован в 1967 году Шуничи Амари . [40] [31] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойная MLP с двумя изменяемыми слоями изучила внутренние представления для классификации нелинейно разделимых классов шаблонов. [31] В 1987 году Мэтью Брэнд сообщил, что широкие 12-слойные нелинейные перцептроны могут быть полностью обучены для воспроизведения логических функций нетривиальной глубины схемы посредством градиентного спуска на небольших партиях случайных входных/выходных выборок, но пришел к выводу, что время обучения на современном оборудовании (компьютерах с субмегафлопсной производительностью) этот метод стал непрактичным и предложено использовать фиксированные случайные ранние слои в качестве входного хеша для одного изменяемого слоя. [41] Вместо этого последующие разработки в области аппаратного обеспечения и настройки гиперпараметров сделали сквозной стохастический градиентный спуск доминирующим в настоящее время методом обучения.

В 1970 году Сеппо Линнаинмаа опубликовал обратный режим автоматического дифференцирования дискретных связных сетей вложенных дифференцируемых функций. [42] [43] [44] Это стало известно как обратное распространение ошибки . [14] Это эффективное применение цепного правила , выведенного Готфридом Вильгельмом Лейбницем в 1673 году [45] к сетям дифференцируемых узлов. [31] Терминология «ошибки обратного распространения ошибки» была фактически введена в 1962 году Розенблаттом, [34] [31] но он не знал, как это реализовать, хотя у Генри Дж. Келли уже был непрерывный предшественник обратного распространения ошибки [46] в 1960 году в контексте теории управления . [31] В 1982 году Пол Вербос применил обратное распространение ошибки к MLP способом, который стал стандартным. [47] [48] [31] В 1985 году Дэвид Э. Румельхарт и др. опубликовал экспериментальный анализ метода. [49]

Архитектуры глубокого обучения для сверточных нейронных сетей (CNN) со сверточными слоями и слоями понижающей дискретизации начались с Неокогнитрона , представленного Кунихико Фукусимой в 1980 году . [50] В 1969 году он также представил функцию активации ReLU (выпрямленная линейная единица) . [26] [31] Выпрямитель стал самой популярной функцией активации для CNN и глубокого обучения в целом. [51] CNN стали важным инструментом компьютерного зрения .

Термин «глубокое обучение» был представлен сообществу машинного обучения Риной Дектер в 1986 году [35] и искусственным нейронным сетям Игорем Айзенбергом и его коллегами в 2000 году в контексте логических пороговых нейронов. [52] [53]

В 1988 году Вэй Чжан и др. применил алгоритм обратного распространения ошибки к сверточной нейронной сети (упрощенный неокогнитрон со сверточными взаимосвязями между слоями признаков изображения и последним полностью связным слоем) для распознавания алфавита. Они также предложили реализацию CNN с оптической вычислительной системой. [54] [55] В 1989 году Янн Лекун и др. применил обратное распространение ошибки к CNN с целью распознавания рукописных почтовых индексов в почте. Пока алгоритм работал, обучение заняло 3 дня. [56] Впоследствии Вэй Чжан и др. модифицировали свою модель, удалив последний полностью связанный слой, и применили ее для сегментации объектов медицинских изображений в 1991 году [57] и обнаружения рака молочной железы на маммограммах в 1994 году . [58] LeNet-5 (1998), 7-уровневая CNN Янна ЛеКуна. и др., [59] , который классифицирует цифры, применялся несколькими банками для распознавания рукописных чисел на чеках, оцифрованных в изображениях размером 32x32 пикселя.

В 1980-х годах обратное распространение ошибки не подходило для глубокого обучения с длинными путями присвоения кредитов. Чтобы преодолеть эту проблему, Юрген Шмидхубер (1992) предложил иерархию RNN, предварительно обучаемых по одному уровню за раз посредством самостоятельного обучения . [60] Он использует прогнозирующее кодирование для изучения внутренних представлений в нескольких самоорганизующихся временных масштабах. Это может существенно облегчить последующее глубокое обучение. Иерархию RNN можно свернуть в единую RNN путем разделения сети блоков более высокого уровня в сеть автоматизатора более низкого уровня . [60] [31] В 1993 году чанкёр решил задачу глубокого обучения, глубина которой превысила 1000. [61]

В 1992 году Юрген Шмидхубер также опубликовал альтернативу RNN [62] , которая теперь называется линейным преобразователем или преобразователем с линеаризованным самообслуживанием [63] [64] [31] (за исключением оператора нормализации). Она изучает внутренние прожекторы внимания : [65] медленная нейронная сеть прямого распространения учится путем градиентного спуска управлять быстрыми весами другой нейронной сети через внешние продукты самогенерируемых шаблонов активации ОТ и ДО (которые теперь называются ключом и значением для себя) . -внимание ). [63] Это быстрое отображение внимания к весам применяется к шаблону запроса.

Современный Трансформер был представлен Ашишем Васвани и др. в своей статье 2017 года «Внимание — это все, что вам нужно». [66] Он сочетает в себе это с оператором softmax и матрицей проекции. [31] Трансформаторы все чаще становятся предпочтительной моделью обработки естественного языка . [67] Его используют многие современные модели больших языков, такие как ChatGPT , GPT-4 и BERT . Трансформаторы также все чаще используются в компьютерном зрении . [68]

В 1991 году Юрген Шмидхубер также опубликовал состязательные нейронные сети, которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети является проигрышем другой сети. [69] [70] [71] Первая сеть представляет собой генеративную модель , которая моделирует распределение вероятностей по шаблонам выходных данных. Вторая сеть учится с помощью градиентного спуска предсказывать реакцию окружающей среды на эти закономерности. Это называлось «искусственное любопытство». В 2014 году этот принцип был использован в генеративно-состязательной сети (GAN) Яном Гудфеллоу и др. [72] Здесь реакция окружающей среды равна 1 или 0 в зависимости от того, находится ли выход первой сети в данном наборе. Это можно использовать для создания реалистичных дипфейков . [73] Превосходное качество изображения достигается с помощью StyleGAN (2018) от Nvidia [74] на основе Progressive GAN, разработанного Теро Каррасом и др. [75] Здесь генератор GAN растет от малого к большому по пирамидальной схеме.

Дипломную работу Зеппа Хохрайтера (1991) [76] его научный руководитель Шмидхубер назвал «одним из самых важных документов в истории машинного обучения» . [31] Он не только протестировал компрессор нейронной истории, [60] , но также выявил и проанализировал проблему исчезающего градиента . [76] [77] Хохрайтер предложил рекуррентные остаточные связи для решения этой проблемы. Это привело к появлению метода глубокого обучения под названием « длинная краткосрочная память » (LSTM), опубликованного в 1997 году . произошло тысячи дискретных шагов по времени раньше. «Ванильный LSTM» с затвором забывания был представлен в 1999 году Феликсом Герсом , Шмидхубером и Фредом Камминсом. [79] LSTM стала самой цитируемой нейронной сетью 20-го века. [31] В 2015 году Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали принципы LSTM для создания сети Highwayнейронной сети прямого распространения с сотнями слоев, гораздо более глубокой, чем предыдущие сети. [80] [81] 7 месяцев спустя Каймин Хэ, Сянъюй Чжан; Шаоцин Рен и Цзянь Сунь выиграли конкурс ImageNet 2015, предложив вариант сети шоссе с открытыми воротами или без ворот под названием Остаточная нейронная сеть . [82] Эта нейронная сеть стала самой цитируемой в 21 веке. [31]

В 1994 году Андре де Карвальо вместе с Майком Фэйрхерстом и Дэвидом Биссетом опубликовали экспериментальные результаты многослойной логической нейронной сети, также известной как невесомая нейронная сеть, состоящей из трехслойного самоорганизующегося модуля нейронной сети для извлечения признаков ( SOFT), за которым следовал модуль нейронной сети многоуровневой классификации (GSN), которые прошли независимое обучение. Каждый уровень модуля извлечения признаков извлекал признаки с возрастающей сложностью по сравнению с предыдущим слоем. [83]

В 1995 году Брендан Фрей продемонстрировал, что можно обучать (в течение двух дней) сеть, содержащую шесть полностью связанных слоев и несколько сотен скрытых блоков, с помощью алгоритма пробуждения-сна , разработанного совместно с Питером Даяном и Хинтоном . [84]

С 1997 года Свен Бенке расширил иерархический сверточный подход с прямой связью в пирамиде нейронной абстракции [85] за счет латеральных и обратных связей, чтобы гибко включать контекст в решения и итеративно разрешать локальные неоднозначности.

Более простые модели, в которых используются функции, созданные вручную для конкретных задач, такие как фильтры Габора и машины опорных векторов (SVM), были популярным выбором в 1990-х и 2000-х годах из-за вычислительной стоимости искусственных нейронных сетей и отсутствия понимания того, как мозг связывает свои биологические процессы. сети.

Как поверхностное, так и глубокое обучение (например, рекуррентные сети) ИНС для распознавания речи исследуются уже много лет. [86] [87] [88] Эти методы никогда не превзошли по эффективности неоднородную модель гауссовской смеси с внутренним ручным управлением / технологию скрытой марковской модели (GMM-HMM), основанную на генеративных моделях речи, обученных дискриминативно. [89] Были проанализированы ключевые трудности, включая уменьшение градиента [76] и слабую структуру временной корреляции в нейронных прогнозирующих моделях. [90] [91] Дополнительные трудности заключались в отсутствии обучающих данных и ограниченной вычислительной мощности. Большинство исследователей распознавания речи отошли от нейронных сетей и занялись генеративным моделированием. Исключением была компания SRI International в конце 1990-х годов. SRI , финансируемый АНБ США и DARPA , изучал глубокие нейронные сети (DNN) в распознавании речи и говорящего . Команда по распознаванию говорящего под руководством Ларри Хека сообщила о значительных успехах использования глубоких нейронных сетей в обработке речи в ходе оценки распознавания говорящих Национального института стандартов и технологий 1998 года. [92] Глубокая нейронная сеть SRI была затем развернута в Nuance Verifier, представляя собой первое крупное промышленное применение глубокого обучения. [93] Принцип повышения «необработанных» функций по сравнению с оптимизацией, созданной вручную, был впервые успешно исследован в архитектуре глубокого автокодирования на «необработанных» спектрограммах или функциях линейного набора фильтров в конце 1990-х годов, [93] показав свое превосходство над Мел -Цепстральные признаки, содержащие стадии фиксированного преобразования из спектрограмм. Необработанные характеристики речи, формы сигналов , позже дали превосходные результаты в более крупном масштабе. [94]

Распознавание речи взял на себя LSTM . В 2003 году LSTM начал конкурировать с традиционными распознавателями речи в определенных задачах. [95] В 2006 году Алекс Грейвс , Сантьяго Фернандес, Фаустино Гомес и Шмидхубер объединили его с коннекционистской временной классификацией (CTC) [96] в стеках LSTM RNN. [97] Сообщается, что в 2015 году производительность распознавания речи Google резко выросла на 49% благодаря обученному CTC LSTM, который они сделали доступным через Google Voice Search . [98]

По словам Яна Лекуна, влияние глубокого обучения на промышленность началось в начале 2000-х годов, когда CNN уже обрабатывали от 10% до 20% всех чеков, выписанных в США. [99] Промышленное применение глубокого обучения для крупномасштабного распознавания речи началось примерно в 2010 году.

В 2006 году публикации Джеффа Хинтона , Руслана Салахутдинова , Осиндеро и Тэ [100] [101] [102] показали, как многослойную нейронную сеть прямого распространения можно эффективно предварительно обучать по одному слою за раз, обрабатывая каждый слой по очереди как неконтролируемая ограниченная машина Больцмана , а затем ее точная настройка с использованием контролируемого обратного распространения ошибки. [103] В статьях говорилось об обучении глубоких сетей убеждений.

Семинар NIPS 2009 года по глубокому обучению для распознавания речи был мотивирован ограничениями глубоких генеративных моделей речи и возможностью того, что при наличии более мощного оборудования и крупномасштабных наборов данных глубокие нейронные сети могут стать практичными. Считалось, что предварительное обучение DNN с использованием генеративных моделей сетей глубокого доверия (DBN) позволит преодолеть основные трудности нейронных сетей. Однако было обнаружено, что замена предварительного обучения большими объемами обучающих данных для прямого обратного распространения ошибки при использовании DNN с большими, контекстно-зависимыми выходными слоями приводит к значительно более низкому уровню ошибок, чем современная на тот момент модель смеси Гаусса (GMM). )/Скрытая марковская модель (HMM), а также более продвинутые системы на основе генеративных моделей. [104] Природа ошибок распознавания, производимых двумя типами систем, была характерно разной, [105] предлагая техническую информацию о том, как интегрировать глубокое обучение в существующую высокоэффективную систему декодирования речи во время выполнения, используемую всеми основными системами распознавания речи. системы. [9] [106] [107] Анализ, проведенный в 2009–2010 годах, сравнивающий GMM (и другие модели генеративной речи) с моделями DNN, стимулировал ранние промышленные инвестиции в глубокое обучение для распознавания речи. [105] Этот анализ был проведен с сопоставимой производительностью (менее 1,5% по частоте ошибок) между дискриминативными DNN и генеративными моделями. [104] [105] [108] В 2010 году исследователи расширили глубокое обучение от TIMIT до распознавания речи с большим словарным запасом, приняв большие выходные слои DNN на основе контекстно-зависимых состояний HMM, построенных с помощью деревьев решений . [109] [110] [111] [106]

Глубокое обучение является частью современных систем в различных дисциплинах, в частности в компьютерном зрении и автоматическом распознавании речи (ASR). Результаты часто используемых наборов оценок, таких как TIMIT (ASR) и MNIST ( классификация изображений ), а также ряда задач по распознаванию речи с большим словарным запасом, постоянно улучшаются. [104] [112] Сверточные нейронные сети были заменены для ASR на CTC [96] для LSTM . [78] [98] [113] [114] [115] , но более успешны в компьютерном зрении.

Достижения в области аппаратного обеспечения возобновили интерес к глубокому обучению. В 2009 году Nvidia участвовала в так называемом «большом взрыве» глубокого обучения, «поскольку нейронные сети глубокого обучения обучались с помощью графических процессоров (GPU) Nvidia». [116] В том же году Эндрю Нг определил, что графические процессоры могут увеличить скорость систем глубокого обучения примерно в 100 раз. [117] В частности, графические процессоры хорошо подходят для матричных/векторных вычислений, используемых в машинном обучении. [118] [119] [120] Графические процессоры ускоряют алгоритмы обучения на порядки, сокращая время работы с недель до дней. [121] [122] Кроме того, для эффективной обработки моделей глубокого обучения можно использовать специализированное оборудование и оптимизацию алгоритмов. [123]

Революция глубокого обучения

Насколько глубокое обучение является частью машинного обучения и что машинное обучение является частью искусственного интеллекта (ИИ)

В конце 2000-х годов глубокое обучение начало превосходить другие методы в соревнованиях по машинному обучению. В 2009 году длинная кратковременная память , обученная с помощью коннекционистской временной классификации ( Алекс Грейвс , Сантьяго Фернандес, Фаустино Гомес и Юрген Шмидхубер , 2006) [96] стала первой RNN, выигравшей конкурсы по распознаванию образов , выиграв три конкурса по связанному распознаванию рукописного ввода . . [124] [14] Позже Google использовал LSTM, обученный CTC, для распознавания речи на смартфоне . [125] [98]

Значительное влияние на распознавание изображений или объектов ощущалось в период с 2011 по 2012 год. Хотя CNN, обученные методом обратного распространения ошибки, существовали уже несколько десятилетий, [54] [56] а реализации NN на GPU уже много лет, [118] включая CNN, [120] [14 ] ] Для прогресса в области компьютерного зрения требовалось более быстрое внедрение CNN на графических процессорах. В 2011 году DanNet [126] [3] Дэна Чиресана, Ули Мейера, Джонатана Маски, Луки Марии Гамбарделлы и Юргена Шмидхубера впервые добился сверхчеловеческих результатов в конкурсе по визуальному распознаванию образов, превзойдя традиционные методы в 3 раза. [14] Также в 2011 году DanNet выиграла конкурс китайского почерка ICDAR, а в мае 2012 года — конкурс сегментации изображений ISBI. [127] До 2011 года CNN не играли важной роли на конференциях по компьютерному зрению, но в июне 2012 года появилась статья Ciresan et al. на ведущей конференции CVPR [3] показал, как максимальное объединение CNN на графическом процессоре может значительно улучшить многие рекорды тестов машинного зрения. В сентябре 2012 года DanNet также выиграла конкурс ICPR по анализу больших медицинских изображений для выявления рака, а в следующем году — MICCAI Grand Challenge по той же теме. [128] В октябре 2012 года аналогичный AlexNet , созданный Алексом Крижевским , Ильей Суцкевером и Джеффри Хинтоном [4], выиграл крупномасштабное соревнование ImageNet со значительным отрывом от поверхностных методов машинного обучения. Сеть VGG-16 Карена Симоняна и Эндрю Зиссермана [129] еще больше снизила частоту ошибок и выиграла конкурс ImageNet 2014, следуя аналогичной тенденции в крупномасштабном распознавании речи.

Затем классификация изображений была расширена до более сложной задачи создания описаний (подписей) для изображений, часто в виде комбинации CNN и LSTM. [130] [131] [132]

В 2012 году команда под руководством Джорджа Э. Даля выиграла конкурс Merck Molecular Activity Challenge, используя многозадачные глубокие нейронные сети для прогнозирования биомолекулярной мишени одного лекарства. [133] [134] В 2014 году группа Зеппа Хохрейтера использовала глубокое обучение для обнаружения нецелевого и токсического воздействия химических веществ из окружающей среды в питательных веществах, предметах домашнего обихода и лекарствах и выиграла «Tox21 Data Challenge» от NIH , FDA и NCATS . [135] [136] [137]

В 2016 году Роджер Парлофф упомянул «революцию глубокого обучения», которая изменила индустрию искусственного интеллекта. [138]

В марте 2019 года Йошуа Бенджио , Джеффри Хинтон и Ян ЛеКун были награждены Премией Тьюринга за концептуальные и инженерные прорывы, которые сделали глубокие нейронные сети важнейшим компонентом вычислений.

Нейронные сети

Искусственные нейронные сети ( ИНС ) или коннекционистские системы — это вычислительные системы, вдохновленные биологическими нейронными сетями , которые составляют мозг животных. Такие системы учатся (постепенно совершенствуют свои способности) выполнять задачи, рассматривая примеры, как правило, без программирования для конкретных задач. Например, при распознавании изображений они могут научиться распознавать изображения, на которых есть кошки, анализируя примеры изображений, которые были вручную помечены как «кошка» или «нет кошки», и используя результаты анализа для идентификации кошек на других изображениях. Они нашли наибольшее применение в приложениях, которые трудно выразить с помощью традиционного компьютерного алгоритма с использованием программирования на основе правил .

ИНС основана на наборе связанных единиц, называемых искусственными нейронами (аналог биологических нейронов в биологическом мозге ). Каждое соединение ( синапс ) между нейронами может передавать сигнал другому нейрону. Принимающий (постсинаптический) нейрон может обрабатывать сигнал(ы), а затем сигнализировать нижестоящим нейронам, подключенным к нему. Нейроны могут иметь состояние, обычно представленное действительными числами , обычно от 0 до 1. Нейроны и синапсы также могут иметь вес, который меняется по мере обучения, что может увеличивать или уменьшать силу сигнала, который они посылают вниз по течению.

Обычно нейроны организованы слоями. Разные слои могут выполнять разные виды преобразований на своих входах. Сигналы перемещаются от первого (входного) к последнему (выходному) слою, возможно, после многократного прохождения слоев.

Первоначальная цель нейросетевого подхода заключалась в том, чтобы решать проблемы так же, как это делает человеческий мозг. Со временем внимание сосредоточилось на сопоставлении конкретных умственных способностей, что привело к отклонениям от биологии, таким как обратное распространение ошибки или передача информации в обратном направлении и настройка сети для отражения этой информации.

Нейронные сети использовались для решения различных задач, включая компьютерное зрение, распознавание речи , машинный перевод , фильтрацию социальных сетей , настольные и видеоигры , а также медицинскую диагностику.

По состоянию на 2017 год нейронные сети обычно насчитывают от нескольких тысяч до нескольких миллионов единиц и миллионов соединений. Несмотря на то, что это число на несколько порядков меньше количества нейронов в человеческом мозге, эти сети могут выполнять многие задачи на уровне, превосходящем человеческий (например, распознавание лиц или игра в «го» [ 140] ).

Глубокие нейронные сети

Глубокая нейронная сеть (DNN) — это искусственная нейронная сеть с несколькими слоями между входным и выходным слоями. [11] [14] Существуют разные типы нейронных сетей, но они всегда состоят из одних и тех же компонентов: нейронов, синапсов, весов, смещений и функций. [141] Эти компоненты в целом функционируют таким образом, что имитируют функции человеческого мозга, и их можно обучать, как и любой другой алгоритм МО. [ нужна цитата ]

Например, DNN, обученная распознавать породы собак, просматривает данное изображение и рассчитывает вероятность того, что собака на изображении принадлежит к определенной породе. Пользователь может просмотреть результаты и выбрать, какие вероятности должна отображать сеть (выше определенного порога и т. д.), а также вернуть предложенную метку. Каждая математическая манипуляция как таковая считается слоем, а сложные DNN имеют много слоев, отсюда и название «глубокие» сети.

DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, в которых объект выражается как многоуровневая композиция примитивов . [142] Дополнительные уровни позволяют комбинировать объекты из нижних слоев, потенциально моделируя сложные данные с меньшим количеством единиц, чем в мелкой сети с аналогичной производительностью. [11] Например, было доказано, что разреженные многомерные полиномы экспоненциально легче аппроксимировать с помощью DNN, чем с помощью мелких сетей. [143]

Глубокие архитектуры включают множество вариантов нескольких базовых подходов. Каждая архитектура нашла успех в определенных областях. Не всегда возможно сравнить производительность нескольких архитектур, если только они не оценивались на одних и тех же наборах данных.

DNN обычно представляют собой сети прямой связи, в которых данные передаются от входного уровня к выходному без обратного цикла. Сначала DNN создает карту виртуальных нейронов и присваивает случайные числовые значения или «веса» связям между ними. Веса и входные данные умножаются и возвращают выходные данные в диапазоне от 0 до 1. Если сеть не распознала точно определенный шаблон, алгоритм скорректирует веса. [144] Таким образом, алгоритм может сделать определенные параметры более влиятельными, пока не определит правильные математические манипуляции для полной обработки данных.

Рекуррентные нейронные сети , в которых данные могут передаваться в любом направлении, используются для таких приложений, как языковое моделирование . [145] [146] [147] [148] [149] Длительная кратковременная память особенно эффективна для этого использования. [78] [150]

Сверточные нейронные сети (CNN) используются в компьютерном зрении. [151] CNN также применялись для акустического моделирования автоматического распознавания речи (ASR). [152]

Проблемы

Как и в случае с ИНС, с наивно обученными DNN может возникнуть множество проблем. Двумя распространенными проблемами являются переобучение и время вычислений.

DNN склонны к переоснащению из-за дополнительных уровней абстракции, которые позволяют им моделировать редкие зависимости в обучающих данных. Методы регуляризации , такие как сокращение единиц Ивахненко [38] или затухание веса ( -регуляризация) или разреженность ( -регуляризация), могут применяться во время обучения для борьбы с переобучением. [153] Альтернативно, регуляризация отсева случайным образом исключает единицы из скрытых слоев во время обучения. Это помогает исключить редкие зависимости. [154] Наконец, данные можно дополнять с помощью таких методов, как обрезка и ротация, так что меньшие обучающие наборы можно увеличить в размере, чтобы уменьшить вероятность переобучения. [155]

DNN должны учитывать множество параметров обучения, таких как размер (количество слоев и количество единиц на слой), скорость обучения и начальные веса. Просмотр пространства параметров для поиска оптимальных параметров может оказаться невозможным из-за затрат времени и вычислительных ресурсов. Различные приемы, такие как пакетная обработка (вычисление градиента сразу на нескольких обучающих примерах, а не на отдельных примерах) [156], ускоряют вычисления. Большие вычислительные возможности многоядерных архитектур (таких как графические процессоры или Intel Xeon Phi) позволили значительно ускорить обучение благодаря пригодности таких архитектур обработки для матричных и векторных вычислений. [157] [158]

В качестве альтернативы инженеры могут искать другие типы нейронных сетей с более простыми и конвергентными алгоритмами обучения. CMAC ( контроллер артикуляции модели мозжечка ) — один из таких типов нейронной сети. Он не требует скорости обучения или рандомизированных начальных весов. Можно гарантировать, что процесс обучения сходится за один шаг с новым пакетом данных, а вычислительная сложность алгоритма обучения линейна в зависимости от количества задействованных нейронов. [159] [160]

Аппаратное обеспечение

С 2010-х годов достижения как в алгоритмах машинного обучения, так и в компьютерном оборудовании привели к появлению более эффективных методов обучения глубоких нейронных сетей, которые содержат множество слоев нелинейных скрытых модулей и очень большой выходной слой. [161] К 2019 году графические процессоры ( GPU ), часто с улучшениями, специфичными для искусственного интеллекта, вытеснили центральные процессоры в качестве доминирующего метода обучения крупномасштабного коммерческого облачного искусственного интеллекта. [162] OpenAI оценила аппаратные вычисления, используемые в крупнейших проектах глубокого обучения, от AlexNet (2012) до AlphaZero (2017), и обнаружила 300 000-кратное увеличение объема необходимых вычислений с линией тренда удвоения, равной 3,4 месяца. [163] [164]

Специальные электронные схемы , называемые процессорами глубокого обучения, были разработаны для ускорения алгоритмов глубокого обучения. Процессоры глубокого обучения включают нейронные процессоры (NPU) в мобильных телефонах Huawei [165] и серверы облачных вычислений , такие как тензорные процессоры (TPU) в Google Cloud Platform . [166] Компания Cerebras Systems также создала специальную систему для работы с большими моделями глубокого обучения, CS-2, на базе крупнейшего процессора в отрасли — Wafer Scale Engine второго поколения (WSE-2). [167] [168]

Атомно тонкие полупроводники считаются перспективными для создания энергоэффективного оборудования глубокого обучения, где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки устройств и схем логики в памяти на основе полевых транзисторов с плавающим затвором (FGFET). [169]

В 2021 г. Дж. Фельдманн и др. предложил интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. [170] Авторы выделяют два ключевых преимущества интегрированной фотоники перед ее электронными аналогами: (1) массово параллельная передача данных посредством мультиплексирования с разделением по длине волны в сочетании с частотными гребенками и (2) чрезвычайно высокая скорость модуляции данных. [170] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях искусственного интеллекта с большими объемами данных. [170]

Приложения

Автоматическое распознавание речи

Масштабное автоматическое распознавание речи — первый и наиболее убедительный успешный случай глубокого обучения. LSTM RNN могут изучать задачи «очень глубокого обучения» [14] , которые включают многосекундные интервалы, содержащие речевые события, разделенные тысячами дискретных временных шагов, где один временной шаг соответствует примерно 10 мс. LSTM с воротами забывания [150] конкурирует с традиционными распознавателями речи в определенных задачах. [95]

Первоначальный успех в распознавании речи был основан на небольших задачах распознавания на основе TIMIT. Набор данных содержит 630 носителей восьми основных диалектов американского английского , где каждый говорящий читает 10 предложений. [171] Его небольшой размер позволяет опробовать множество конфигураций. Что еще более важно, задача TIMIT касается распознавания телефонных последовательностей, которое, в отличие от распознавания последовательностей слов, позволяет создавать слабые языковые модели телефонных биграмм . Это позволяет легче анализировать сильные стороны акустического моделирования распознавания речи. Перечисленные ниже коэффициенты ошибок, включая эти ранние результаты и измеренные в процентах коэффициента ошибок телефона (PER), суммируются с 1991 года.

Дебют DNN для распознавания говорящего в конце 1990-х годов, распознавания речи примерно в 2009–2011 годах и LSTM примерно в 2003–2007 годах ускорил прогресс в восьми основных областях: [9] [108] [106]

Все основные коммерческие системы распознавания речи (например, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , Baidu и голосовой поиск iFlyTek , а также ряд речевых продуктов Nuance и т. д.) основаны на глубоком обучении. [9] [176] [177]

Распознавание изображений

Обычным набором оценок для классификации изображений является набор данных базы данных MNIST . MNIST состоит из рукописных цифр и включает 60 000 обучающих примеров и 10 000 тестовых примеров. Как и в случае с TIMIT, его небольшой размер позволяет пользователям тестировать несколько конфигураций. Доступен полный список результатов по этому набору. [178]

Распознавание изображений на основе глубокого обучения стало «сверхчеловеческим», давая более точные результаты, чем участники-люди. Впервые это произошло в 2011 году при распознавании дорожных знаков, а в 2014 году — при распознавании человеческих лиц. [179] [180]

Транспортные средства, обученные глубокому обучению, теперь интерпретируют изображения с камер на 360°. [181] Другим примером является новый анализ лицевой дисморфологии (FDNA), используемый для анализа случаев пороков развития человека, связанных с большой базой данных генетических синдромов.

Обработка визуального искусства

Визуальная художественная обработка Джимми Уэйлса во Франции со стилем « Крика » Мунка, примененным с использованием нейронной передачи стилей.

С прогрессом, достигнутым в распознавании изображений, тесно связано все более широкое применение методов глубокого обучения для различных задач визуального искусства. DNN доказали свою способность, например,

Обработка естественного языка

Нейронные сети используются для реализации языковых моделей с начала 2000-х годов. [145] LSTM помог улучшить машинный перевод и языковое моделирование. [146] [147] [148]

Другими ключевыми методами в этой области являются отрицательная выборка [184] и встраивание слов . Встраивание слов, такое как word2vec , можно рассматривать как репрезентативный уровень в архитектуре глубокого обучения, который преобразует атомарное слово в позиционное представление слова относительно других слов в наборе данных; положение представлено как точка в векторном пространстве . Использование встраивания слов в качестве входного слоя RNN позволяет сети анализировать предложения и фразы, используя эффективную композиционную векторную грамматику. Композиционную векторную грамматику можно рассматривать как вероятностную контекстно-свободную грамматику (PCFG), реализуемую RNN. [185] Рекурсивные автокодировщики, построенные на основе встраивания слов, могут оценивать сходство предложений и обнаруживать перефразирование. [185] Глубокие нейронные архитектуры обеспечивают наилучшие результаты для анализа аудитории , [186] анализа настроений , [187] поиска информации, [188] [189] понимания разговорной речи, [190] машинного перевода, [146] [191] контекстных объектов связывание, [191] распознавание стиля письма, [192] распознавание именованных объектов (классификация токенов), [193] классификация текста и другие. [194]

Недавние разработки обобщают встраивание слов в встраивание предложений .

Google Translate (GT) использует большую сквозную сеть с длинной краткосрочной памятью (LSTM). [195] [196] [197] [198] Нейронный машинный перевод Google (GNMT) использует метод машинного перевода на основе примеров, при котором система «обучается на миллионах примеров». [196] Он переводит «целые предложения за раз, а не по частям». Google Translate поддерживает более ста языков. [196] Сеть кодирует «семантику предложения, а не просто запоминает пофазный перевод». [196] [199] GT использует английский как промежуточное звено между большинством языковых пар. [199]

Открытие лекарств и токсикология

Большой процент потенциальных лекарств не получает одобрения регулирующих органов. Эти неудачи вызваны недостаточной эффективностью (нецелевой эффект), нежелательными взаимодействиями (нецелевые эффекты) или непредвиденными токсическими эффектами . [200] [201] В исследованиях изучалось использование глубокого обучения для прогнозирования биомолекулярных целей , [133] [134] отклонений от целей и токсических эффектов химических веществ из окружающей среды в питательных веществах, предметах домашнего обихода и лекарствах. [135] [136] [137]

AtomNet — это система глубокого обучения для рационального проектирования лекарств на основе структуры . [202] AtomNet использовался для прогнозирования новых биомолекул-кандидатов в качестве мишеней для таких заболеваний, как вирус Эбола [203] и рассеянный склероз . [204] [203]

В 2017 году графовые нейронные сети были впервые использованы для прогнозирования различных свойств молекул в большом наборе токсикологических данных. [205] В 2019 году генеративные нейронные сети были использованы для производства молекул, которые были проверены экспериментально на мышах. [206] [207]

Управление взаимоотношениями с клиентами

Глубокое обучение с подкреплением использовалось для приблизительного определения ценности возможных действий прямого маркетинга , определенной с точки зрения переменных RFM . Было показано, что функция оценочной стоимости имеет естественную интерпретацию как пожизненная ценность клиента . [208]

Рекомендательные системы

Системы рекомендаций использовали глубокое обучение для извлечения значимых функций для модели скрытых факторов для рекомендаций по музыке и журналам на основе контента. [209] [210] Глубокое обучение с несколькими представлениями применялось для изучения предпочтений пользователей из нескольких доменов. [211] Модель использует гибридный подход, основанный на сотрудничестве и контенте, и расширяет рекомендации при решении нескольких задач.

Биоинформатика

Автоэнкодер ANN использовался в биоинформатике для прогнозирования аннотаций онтологии генов и отношений ген-функция. [212]

В медицинской информатике глубокое обучение использовалось для прогнозирования качества сна на основе данных носимых устройств [213] и прогнозирования осложнений со здоровьем на основе данных электронных медицинских карт . [214]

Оценки глубокой нейронной сети

Глубокие нейронные сети могут использоваться для оценки энтропии случайного процесса и называются оценщиком энтропии нейронных соединений (NJEE). [215] Такая оценка дает представление о влиянии входных случайных величин на независимую случайную величину . На практике DNN обучается как классификатор , который сопоставляет входной вектор или матрицу X с выходным распределением вероятностей по возможным классам случайной величины Y при заданных входных данных X. Например, в задачах классификации изображений NJEE отображает вектор пикселей ' значения цвета для вероятностей возможных классов изображений. На практике распределение вероятностей Y получается с помощью слоя Softmax с количеством узлов, равным размеру алфавита Y. NJEE использует непрерывно дифференцируемые функции активации , так что выполняются условия универсальной теоремы аппроксимации . Показано, что этот метод обеспечивает строго согласованную оценку и превосходит другие методы в случае больших размеров алфавита. [215]

Анализ медицинских изображений

Было показано, что глубокое обучение дает конкурентоспособные результаты в медицинских приложениях, таких как классификация раковых клеток, обнаружение повреждений, сегментация органов и улучшение изображений. [216] [217] Современные инструменты глубокого обучения демонстрируют высокую точность выявления различных заболеваний и полезность их использования специалистами для повышения эффективности диагностики. [218] [219]

Мобильная реклама

Найти подходящую мобильную аудиторию для мобильной рекламы всегда непросто, поскольку необходимо учитывать и анализировать множество точек данных, прежде чем целевой сегмент можно будет создать и использовать при показе рекламы любым рекламным сервером. [220] Глубокое обучение использовалось для интерпретации больших и многомерных наборов рекламных данных. Многие данные собираются во время цикла интернет-рекламы «запрос/обслуживание/нажатие». Эта информация может лечь в основу машинного обучения для улучшения выбора рекламы.

Восстановление изображения

Глубокое обучение успешно применяется для решения обратных задач, таких как шумоподавление , суперразрешение , рисование и раскрашивание пленки . [221] Эти приложения включают в себя такие методы обучения, как «Поля усадки для эффективного восстановления изображений» [222] , которые обучаются на наборе данных изображения, и Deep Image Prior , который обучается на изображении, которое требует восстановления.

Обнаружение финансового мошенничества

Глубокое обучение успешно применяется для обнаружения финансового мошенничества , уклонения от уплаты налогов [223] и борьбы с отмыванием денег. [224]

Материаловедение

В ноябре 2023 года исследователи из Google DeepMind и Национальной лаборатории Лоуренса Беркли объявили, что разработали систему искусственного интеллекта, известную как GNoME. Эта система внесла вклад в материаловедение , открыв более 2 миллионов новых материалов за относительно короткий период времени. GNoME использует методы глубокого обучения для эффективного исследования потенциальных структур материалов, достигая значительного улучшения идентификации стабильных неорганических кристаллических структур . Предсказания системы были подтверждены в ходе автономных роботизированных экспериментов, продемонстрировавших примечательный уровень успеха — 71%. Данные о вновь обнаруженных материалах общедоступны через базу данных Materials Project , что дает исследователям возможность идентифицировать материалы с желаемыми свойствами для различных применений. Это развитие имеет последствия для будущего научных открытий и интеграции ИИ в исследования в области материаловедения, потенциально ускоряя инновации в материалах и снижая затраты на разработку продуктов. Использование искусственного интеллекта и глубокого обучения предполагает возможность свести к минимуму или исключить ручные лабораторные эксперименты и позволить ученым больше сосредоточиться на разработке и анализе уникальных соединений. [225] [226] [227]

Военный

Министерство обороны США применило глубокое обучение для обучения роботов новым задачам посредством наблюдения. [228]

Уравнения в частных производных

Нейронные сети, основанные на физике, использовались для решения уравнений в частных производных как в прямых, так и в обратных задачах на основе данных. [229] Одним из примеров является реконструкция потока жидкости, управляемая уравнениями Навье-Стокса . Использование нейронных сетей, основанных на физике, не требует часто дорогостоящего создания сетки, на котором полагаются традиционные методы CFD . [230] [231]

Реконструкция изображения

Реконструкция изображения — это реконструкция основных изображений на основе измерений, связанных с изображением. Несколько работ показали лучшую и превосходящую производительность методов глубокого обучения по сравнению с аналитическими методами для различных приложений, например, спектральной визуализации [232] и ультразвуковой визуализации. [233]

Эпигенетические часы

Эпигенетические часы — это биохимический тест , который можно использовать для измерения возраста. Галкин и др. использовали глубокие нейронные сети для обучения эпигенетических часов старения с беспрецедентной точностью, используя более 6000 образцов крови. [234] Часы используют информацию из 1000 сайтов CpG и прогнозируют людей с определенными заболеваниями старше, чем здоровый контроль: воспалительное заболевание кишечника , лобно-височная деменция , рак яичников , ожирение . Часы старения планировалось выпустить для публичного использования в 2021 году дочерней компанией Insilico Medicine Deep Longevity.

Связь с когнитивными способностями и развитием мозга человека

Глубокое обучение тесно связано с классом теорий развития мозга (в частности, развития неокортекса), предложенных когнитивными нейробиологами в начале 1990-х годов. [235] [236] [237] [238] Эти теории развития были воплощены в вычислительных моделях, что сделало их предшественниками систем глубокого обучения. Эти модели развития обладают тем общим свойством, что различные предполагаемые динамики обучения в мозге (например, волна фактора роста нервов ) поддерживают самоорганизацию, в некоторой степени аналогичную нейронным сетям, используемым в моделях глубокого обучения. Как и неокортекс , нейронные сети используют иерархию многоуровневых фильтров, в которой каждый уровень рассматривает информацию из предыдущего уровня (или операционной среды), а затем передает ее выходные данные (и, возможно, исходные входные данные) на другие уровни. В результате этого процесса получается самоорганизующийся набор датчиков , хорошо настроенный к рабочей среде. В описании 1995 года говорилось: «...мозг младенца, по-видимому, самоорганизуется под влиянием волн так называемых трофических факторов... различные области мозга соединяются последовательно, при этом один слой ткани созревает раньше другого и так до тех пор, пока весь мозг не созреет». [239]

Для исследования правдоподобности моделей глубокого обучения с нейробиологической точки зрения использовались различные подходы. С одной стороны, было предложено несколько вариантов алгоритма обратного распространения ошибки с целью повышения реалистичности его обработки. [240] [241] Другие исследователи утверждают, что неконтролируемые формы глубокого обучения, например, основанные на иерархических генеративных моделях и сетях глубоких убеждений , могут быть ближе к биологической реальности. [242] [243] В этом отношении модели генеративных нейронных сетей связаны с нейробиологическими данными об обработке данных на основе выборки в коре головного мозга. [244]

Хотя систематическое сравнение между организацией человеческого мозга и кодированием нейронов в глубоких сетях еще не проведено, сообщалось о нескольких аналогиях. Например, вычисления, выполняемые модулями глубокого обучения, могут быть аналогичны вычислениям реальных нейронов [245] и нейронных популяций. [246] Точно так же представления, разработанные с помощью моделей глубокого обучения, аналогичны тем, которые измерены в зрительной системе приматов [247] как на уровне отдельной единицы [248] , так и на уровне популяции [249] .

Коммерческая деятельность

Лаборатория искусственного интеллекта Facebook выполняет такие задачи, как автоматическая пометка загруженных изображений именами людей на них. [250]

Компания DeepMind Technologies компании Google разработала систему, способную научиться играть в видеоигры Atari , используя в качестве входных данных только пиксели. В 2015 году они продемонстрировали свою систему AlphaGo , которая достаточно хорошо изучила игру в го , чтобы победить профессионального игрока в го. [251] [252] [253] Google Translate использует нейронную сеть для перевода между более чем 100 языками.

В 2017 году был запущен Covariant.ai, целью которого является интеграция глубокого обучения в фабрики. [254]

В 2008 году [255] исследователи из Техасского университета в Остине (Юта) разработали систему машинного обучения под названием «Обучение агента вручную с помощью оценочного подкрепления» или TAMER, которая предлагала роботам или компьютерным программам новые методы обучения выполнению задач. путем взаимодействия с человеком-инструктором. [228] Новый алгоритм под названием Deep TAMER, впервые разработанный как TAMER, был позже представлен в 2018 году в ходе сотрудничества между Исследовательской лабораторией армии США (ARL) и исследователями UT. Deep TAMER использовал глубокое обучение, чтобы предоставить роботу возможность изучать новые задачи посредством наблюдения. [228] С помощью Deep TAMER робот обучался заданию вместе с тренером-человеком, просматривая видеопотоки или наблюдая, как человек выполняет задание лично. Позже робот попрактиковался в выполнении задания под руководством тренера, который давал такие отзывы, как «хорошая работа» и «плохая работа». [256]

Критика и комментарии

Глубокое обучение вызвало как критику, так и комментарии, в некоторых случаях за пределами области информатики.

Теория

Основная критика касается отсутствия теории вокруг некоторых методов. [257] Обучение в наиболее распространенных глубоких архитектурах реализуется с использованием хорошо понятного градиентного спуска. Однако теория других алгоритмов, таких как контрастивная дивергенция, менее ясна. [ нужна цитата ] (например, сходится ли он? Если да, то как быстро? Что он аппроксимирует?) Методы глубокого обучения часто рассматриваются как черный ящик , причем большинство подтверждений делается эмпирически, а не теоретически. [258]

Другие отмечают, что глубокое обучение следует рассматривать как шаг к созданию сильного ИИ , а не как всеобъемлющее решение. Несмотря на мощь методов глубокого обучения, им все еще не хватает функциональности, необходимой для полной реализации этой цели. Психолог-исследователь Гэри Маркус отметил:

На самом деле глубокое обучение — это лишь часть более масштабной задачи создания интеллектуальных машин. В таких методах отсутствуют способы представления причинно-следственных связей (...), нет очевидных способов выполнения логических выводов , а также они еще далеки от интеграции абстрактных знаний, таких как информация о том, что представляют собой объекты, для чего они предназначены и как они обычно используются. Самые мощные системы искусственного интеллекта, такие как Watson (...), используют такие методы, как глубокое обучение, как всего лишь один элемент в очень сложном ансамбле методов, начиная от статистического метода байесовского вывода и заканчивая дедуктивным рассуждением . [259]

В качестве дополнительной ссылки на идею о том, что художественная чувствительность может быть присуща относительно низким уровням когнитивной иерархии, опубликована серия графических представлений внутренних состояний глубоких (20-30 слоев) нейронных сетей, пытающихся различить среди по существу случайных данных изображения. на котором они обучались [260], демонстрируют визуальную привлекательность: оригинальное сообщение об исследовании получило более 1000 комментариев и стало темой статьи, которая какое-то время была наиболее часто посещаемой статьей на веб-сайте The Guardian [ 261] .

Ошибки

Некоторые архитектуры глубокого обучения демонстрируют проблемное поведение, [262] например, уверенную классификацию неузнаваемых изображений как принадлежащих к знакомой категории обычных изображений (2014) [263] и неверную классификацию незначительных отклонений правильно классифицированных изображений (2013). [264] Герцель предположил, что такое поведение обусловлено ограничениями в их внутренних представлениях и что эти ограничения будут препятствовать интеграции в гетерогенные многокомпонентные архитектуры общего искусственного интеллекта (AGI). [262] Эти проблемы, возможно, могут быть решены с помощью архитектур глубокого обучения, которые внутренне формируют состояния, гомологичные декомпозиции изображений и грамматик [265] наблюдаемых сущностей и событий. [262] Изучение грамматики (визуальной или лингвистической) на основе обучающих данных было бы эквивалентно ограничению системы рассуждениями здравого смысла , которые оперируют понятиями с точки зрения грамматических правил производства и являются основной целью как овладения человеческим языком [266] , так и искусственного интеллекта. (АИ). [267]

Киберугроза

По мере того как глубокое обучение выходит из лабораторий в мир, исследования и опыт показывают, что искусственные нейронные сети уязвимы для хакерских атак и обмана. [268] Выявив закономерности, которые эти системы используют для функционирования, злоумышленники могут изменить входные данные ИНС таким образом, что ИНС найдет совпадение, которое люди-наблюдатели не распознают. Например, злоумышленник может внести незначительные изменения в изображение так, что ИНС найдет совпадение, даже если для человека изображение выглядит совсем не так, как цель поиска. Такая манипуляция называется «состязательной атакой». [269]

В 2016 году исследователи использовали одну ИНС для обработки изображений методом проб и ошибок, определения фокусных точек другого и, таким образом, создания изображений, которые обманывали его. Модифицированные изображения ничем не отличались от человеческих глаз. Другая группа показала, что распечатки сфальсифицированных изображений, которые затем были сфотографированы, успешно обманули систему классификации изображений. [270] Одним из способов защиты является обратный поиск изображений, при котором возможное поддельное изображение отправляется на такой сайт, как TinEye , который затем может найти другие его экземпляры. Уточнение состоит в том, чтобы искать, используя только части изображения, чтобы идентифицировать изображения, из которых эта часть могла быть взята . [271]

Другая группа показала, что некоторые психоделические зрелища могут обмануть систему распознавания лиц , заставив ее думать, что обычные люди — знаменитости, потенциально позволяя одному человеку выдавать себя за другого. В 2017 году исследователи добавили наклейки на знаки остановки , из-за чего ANN неправильно их классифицировала. [270]

Однако ИНС можно дополнительно обучить обнаруживать попытки обмана , что потенциально может привести злоумышленников и защитников к гонке вооружений, подобной той, которая уже определяет индустрию защиты от вредоносного ПО . ИНС были обучены побеждать антивирусное программное обеспечение на основе ИНС , неоднократно атакуя защиту с помощью вредоносного ПО, которое постоянно изменялось генетическим алгоритмом, пока оно не обмануло антивирусное ПО, сохраняя при этом свою способность наносить ущерб цели. [270]

В 2016 году другая группа продемонстрировала, что определенные звуки могут заставить систему голосовых команд Google Now открыть определенный веб-адрес, и предположила, что это может «послужить трамплином для дальнейших атак (например, открытие веб-страницы, на которой размещено вредоносное ПО). ". [270]

При « отравлении данных » ложные данные постоянно вводятся в обучающий набор системы машинного обучения, чтобы помешать ей достичь мастерства. [270]

Этика сбора данных

Большинство систем глубокого обучения полагаются на данные обучения и проверки, которые генерируются и/или аннотируются людьми. [272] В философии СМИ утверждается , что для этой цели регулярно используется не только низкооплачиваемая работа с кликами (например, на Amazon Mechanical Turk ), но и неявные формы человеческой микроработы , которые часто не признаются как таковые. [273] Философ Райнер Мюльхофф выделяет пять типов «машинного захвата» микроработы человека для генерации обучающих данных: (1) геймификация (встраивание аннотаций или вычислительных задач в ход игры), (2) «перехват и отслеживание». (например, CAPTCHA для распознавания изображений или отслеживания кликов на страницах результатов поиска Google ), (3) использование социальных мотивов (например, пометка лиц на Facebook для получения маркированных изображений лиц), (4) интеллектуальный анализ информации (например, путем использования количественной самооценки). устройства, такие как трекеры активности ) и (5) Clickwork . [273]

Мюльхофф утверждает, что в большинстве коммерческих приложений глубокого обучения для конечных пользователей, таких как система распознавания лиц Facebook , потребность в обучающих данных не прекращается после обучения ИНС. Скорее, существует постоянный спрос на данные проверки, созданные человеком, для постоянной калибровки и обновления ИНС. С этой целью Facebook представил функцию: как только пользователь автоматически распознается на изображении, он получает уведомление. Они могут выбрать, хотят ли они, чтобы их публично отмечали на изображении, или сказать Facebook, что на изображении не они. [274] Этот пользовательский интерфейс представляет собой механизм генерации «постоянного потока проверочных данных» [273] для дальнейшего обучения сети в режиме реального времени. Как утверждает Мюльхофф, участие пользователей-людей для создания данных обучения и проверки настолько типично для большинства коммерческих приложений глубокого обучения для конечных пользователей, что такие системы можно назвать «искусственным интеллектом, управляемым человеком». [273]

Смотрите также

Рекомендации

  1. ^ Шульц, Ханнес; Бенке, Свен (1 ноября 2012 г.). «Глубокое обучение». КИ - Künstliche Intelligenz . 26 (4): 357–363. doi : 10.1007/s13218-012-0198-z. ISSN  1610-1987. S2CID  220523562.
  2. ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение». Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L. дои : 10.1038/nature14539. PMID  26017442. S2CID  3074096.
  3. ^ abc Чиресан, Д.; Мейер, У.; Шмидхубер, Дж. (2012). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . стр. 3642–3649. arXiv : 1202.2745 . дои : 10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID  2161592.
  4. ^ аб Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . NIPS 2012: Нейронные системы обработки информации, озеро Тахо, Невада . Архивировано (PDF) из оригинала 10 января 2017 г. Проверено 24 мая 2017 г.
  5. ^ «ИИ AlphaGo от Google выигрывает серию из трех матчей у лучшего в мире игрока в го» . ТехКранч . 25 мая 2017 года. Архивировано из оригинала 17 июня 2018 года . Проверено 17 июня 2018 г.
  6. ^ Марблстоун, Адам Х.; Уэйн, Грег; Кординг, Конрад П. (2016). «На пути к интеграции глубокого обучения и нейронауки». Границы вычислительной нейронауки . 10 : 94.arXiv : 1606.03813 . Бибкод : 2016arXiv160603813M. дои : 10.3389/fncom.2016.00094 . ПМК 5021692 . PMID  27683554. S2CID  1994856. 
  7. ^ Бенджио, Йошуа; Ли, Дон Хён; Борншайн, Йорг; Меснар, Томас; Линь, Чжоухань (13 февраля 2015 г.). «На пути к биологически правдоподобному глубокому обучению». arXiv : 1502.04156 [cs.LG].
  8. ^ «Исследование требует осторожности при сравнении нейронных сетей с мозгом» . Новости Массачусетского технологического института | Массачусетский Институт Технологий . 02.11.2022 . Проверено 6 декабря 2023 г.
  9. ^ abcdef Дэн, Л.; Ю, Д. (2014). «Глубокое обучение: методы и приложения» (PDF) . Основы и тенденции в области обработки сигналов . 7 (3–4): 1–199. дои : 10.1561/2000000039. Архивировано (PDF) из оригинала 14 марта 2016 г. Проверено 18 октября 2014 г.
  10. ^ Чжан, WJ; Ян, Г.; Джи, К.; Гупта, ММ (2018). «Об определении глубокого обучения». Всемирный конгресс по автоматизации (WAC) 2018 . стр. 1–5. дои : 10.23919/WAC.2018.8430387. ISBN 978-1-5323-7791-4. S2CID  51971897.
  11. ^ abcd Бенджио, Йошуа (2009). «Изучение глубокой архитектуры для искусственного интеллекта» (PDF) . Основы и тенденции в машинном обучении . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . дои : 10.1561/2200000006. S2CID  207178999. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 3 сентября 2015 г. 
  12. ^ abcde Бенджио, Ю.; Курвиль, А.; Винсент, П. (2013). «Обучение репрезентации: обзор и новые перспективы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . дои : 10.1109/tpami.2013.50. PMID  23787338. S2CID  393948.
  13. ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (28 мая 2015 г.). «Глубокое обучение». Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L. дои : 10.1038/nature14539. PMID  26017442. S2CID  3074096.
  14. ^ abcdefghij Шмидхубер, Дж. (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID  25462637. S2CID  11715509.
  15. Сигэки, Сугияма (12 апреля 2019 г.). Человеческое поведение и другие виды сознания: новые исследования и возможности: новые исследования и возможности. IGI Global. ISBN 978-1-5225-8218-2.
  16. ^ Бенджио, Йошуа; Ламблин, Паскаль; Поповичи, Дэн; Ларошель, Хьюго (2007). Жадное послойное обучение глубоких сетей (PDF) . Достижения в области нейронных систем обработки информации. стр. 153–160. Архивировано (PDF) из оригинала 20 октября 2019 г. Проверено 6 октября 2019 г.
  17. ^ Аб Хинтон, GE (2009). «Сети глубоких убеждений». Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
  18. ^ Саху, Сантош Кумар; Мохаде, Анил; Бокде, Нирадж Дханрадж (январь 2023 г.). «Обзор машинного обучения, глубокого обучения и методов обучения с подкреплением в количественных финансах: последние достижения и проблемы». Прикладные науки . 13 (3): 1956. doi : 10.3390/app13031956 . ISSN  2076-3417.
  19. ^ abc Цыбенко (1989). «Приближения суперпозициями сигмоидальных функций» (PDF) . Математика управления, сигналов и систем . 2 (4): 303–314. дои : 10.1007/bf02551274. S2CID  3958369. Архивировано из оригинала (PDF) 10 октября 2015 года.
  20. ^ abc Хорник, Курт (1991). «Аппроксимационные возможности многослойных сетей прямого распространения». Нейронные сети . 4 (2): 251–257. дои : 10.1016/0893-6080(91)90009-т. S2CID  7343126.
  21. ^ Аб Хайкин, Саймон С. (1999). Нейронные сети: комплексная основа. Прентис Холл. ISBN 978-0-13-273350-2.
  22. ^ Аб Хассун, Мохамад Х. (1995). Основы искусственных нейронных сетей. МТИ Пресс. п. 48. ИСБН 978-0-262-08239-6.
  23. ^ Аб Лу, З., Пу, Х., Ван, Ф., Ху, З. и Ван, Л. (2017). Выразительная сила нейронных сетей: взгляд со стороны. Архивировано 13 февраля 2019 г. на Wayback Machine . Нейронные системы обработки информации, 6231-6239.
  24. ^ Орхан, А.Э.; Ма, WJ (2017). «Эффективный вероятностный вывод в универсальных нейронных сетях, обученных с использованием невероятностной обратной связи». Природные коммуникации . 8 (1): 138. Бибкод : 2017NatCo...8..138O. дои : 10.1038/s41467-017-00181-8 . ПМК 5527101 . ПМИД  28743932. 
  25. ^ abcd Мерфи, Кевин П. (24 августа 2012 г.). Машинное обучение: вероятностная перспектива. МТИ Пресс. ISBN 978-0-262-01802-9.
  26. ^ аб Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225.
  27. ^ Сонода, Шо; Мурата, Нобору (2017). «Нейронная сеть с неограниченными функциями активации является универсальным аппроксиматором». Прикладной и вычислительный гармонический анализ . 43 (2): 233–268. arXiv : 1505.03654 . дои :10.1016/j.acha.2015.12.005. S2CID  12149203.
  28. ^ Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение (PDF) . Спрингер. ISBN 978-0-387-31073-2. Архивировано (PDF) из оригинала 11 января 2017 г. Проверено 6 августа 2017 г.
  29. ^ Браш, Стивен Г. (1967). «История модели Ленца-Изинга». Обзоры современной физики . 39 (4): 883–893. Бибкод : 1967RvMP...39..883B. doi : 10.1103/RevModPhys.39.883.
  30. ^ Амари, Шун-Ичи (1972). «Обучение шаблонам и последовательностям шаблонов с помощью самоорганизующихся сетей пороговых элементов». IEEE-транзакции . С (21): 1197–1206.
  31. ^ abcdefghijklmn Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
  32. ^ Хопфилд, Джей-Джей (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук . 79 (8): 2554–2558. Бибкод : 1982PNAS...79.2554H. дои : 10.1073/pnas.79.8.2554 . ПМЦ 346238 . ПМИД  6953413. 
  33. ^ Тапперт, Чарльз К. (2019). «Кто отец глубокого обучения?». Международная конференция по вычислительной науке и вычислительному интеллекту (CSCI) 2019 . IEEE. стр. 343–348. doi : 10.1109/CSCI49370.2019.00067. ISBN 978-1-7281-5584-5. S2CID  216043128 . Проверено 31 мая 2021 г.
  34. ^ abc Розенблатт, Франк (1962). Принципы нейродинамики . Спартан, Нью-Йорк.
  35. ^ аб Рина Дехтер (1986). Обучение во время поиска в задачах ограничения-удовлетворения. Калифорнийский университет, факультет компьютерных наук, Лаборатория когнитивных систем. Онлайн-архив, 19 апреля 2016 г., на Wayback Machine.
  36. ^ Фрадков, Александр Л. (01.01.2020). «Ранняя история машинного обучения». IFAC-PapersOnLine . 21-й Всемирный конгресс МФБ. 53 (2): 1385–1390. doi : 10.1016/j.ifacol.2020.12.1888 . ISSN  2405-8963. S2CID  235081987.
  37. ^ Ивахненко, А.Г.; Лапа, В.Г. (1967). Кибернетика и методы прогнозирования. ISBN американской издательской компании Elsevier 978-0-444-00020-0.
  38. ^ аб Ивахненко, Алексей (1971). «Полиномиальная теория сложных систем» (PDF) . Транзакции IEEE по системам, человеку и кибернетике . СМК-1 (4): 364–378. дои : 10.1109/TSMC.1971.4308320. Архивировано (PDF) из оригинала 29 августа 2017 г. Проверено 5 ноября 2019 г.
  39. ^ Роббинс, Х .; Монро, С. (1951). «Метод стохастической аппроксимации». Анналы математической статистики . 22 (3): 400. дои : 10.1214/aoms/1177729586 .
  40. ^ Амари, Шуничи (1967). «Теория адаптивного классификатора шаблонов». IEEE-транзакции . ЕС (16): 279–307.
  41. ^ Мэтью Брэнд (1988) Машинное обучение и обучение мозга. Бакалаврская диссертация по методическим исследованиям Чикагского университета, 1988 г. Сообщено в Летнем лингвистическом институте Стэнфордского университета, 1987 г.
  42. ^ Линнаинмаа, Сеппо (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (Мастерс) (на финском языке). Университет Хельсинки. стр. 6–7.
  43. ^ Линнаинмаа, Сеппо (1976). «Разложение Тейлора накопленной ошибки округления». БИТ Численная математика . 16 (2): 146–160. дои : 10.1007/bf01931367. S2CID  122357351.
  44. ^ Гриванк, Андреас (2012). «Кто изобрел обратный способ дифференциации?» (PDF) . Documenta Mathematica (Дополнительный том ISMP): 389–400. Архивировано из оригинала (PDF) 21 июля 2017 года . Проверено 11 июня 2017 г.
  45. ^ Лейбниц, Готфрид Вильгельм Фрайхерр фон (1920). Ранние математические рукописи Лейбница: перевод с латинских текстов, опубликованных Карлом Иммануэлем Герхардтом с критическими и историческими примечаниями (Лейбниц опубликовал цепное правило в мемуарах 1676 года). Издательство «Открытый суд». ISBN 9780598818461.
  46. ^ Келли, Генри Дж. (1960). «Градиентная теория оптимальных траекторий полета». Журнал АРС . 30 (10): 947–954. дои : 10.2514/8.5282.
  47. ^ Вербос, Пол (1982). «Применение достижений нелинейного анализа чувствительности». Системное моделирование и оптимизация . Спрингер. стр. 762–770.
  48. ^ Вербос, П. (1974). «За пределами регрессии: новые инструменты прогнозирования и анализа в поведенческих науках». Гарвардский университет . Проверено 12 июня 2017 г.
  49. ^ Румельхарт, Дэвид Э., Джеффри Э. Хинтон и Р. Дж. Уильямс. «Изучение внутренних представлений путем распространения ошибок». Дэвид Э. Румельхарт, Джеймс Л. Макклелланд и исследовательская группа НДП. (редакторы), Параллельная распределенная обработка: Исследования микроструктуры познания, Том 1: Фонд. Массачусетский технологический институт Пресс, 1986.
  50. ^ Фукусима, К. (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения». Биол. Киберн . 36 (4): 193–202. дои : 10.1007/bf00344251. PMID  7370364. S2CID  206775608.
  51. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
  52. ^ Айзенберг, Индиана; Айзенберг, Н.Н.; Вандевалле, Дж. (2000). Многозначные и универсальные бинарные нейроны. Научные и деловые СМИ. дои : 10.1007/978-1-4757-3115-6. ISBN 978-0-7923-7824-2. Проверено 27 декабря 2023 г.
  53. ^ Коэволюционирующие рекуррентные нейроны изучают POMDP глубокой памяти. Учеб. GECCO, Вашингтон, округ Колумбия, стр. 1795–1802, ACM Press, Нью-Йорк, Нью-Йорк, США, 2005 г.
  54. ^ Аб Чжан, Вэй (1988). «Нейронная сеть распознавания образов, инвариантная к сдвигу, и ее оптическая архитектура». Материалы ежегодной конференции Японского общества прикладной физики .
  55. ^ Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура». Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z. дои : 10.1364/AO.29.004790. ПМИД  20577468.
  56. ^ ab LeCun et al. , «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса», Neural Computation , 1, стр. 541–551, 1989.
  57. ^ Чжан, Вэй (1991). «Обработка изображений эндотелия роговицы человека на основе обучающей сети». Прикладная оптика . 30 (29): 4211–7. Бибкод : 1991ApOpt..30.4211Z. дои : 10.1364/AO.30.004211. ПМИД  20706526.
  58. ^ Чжан, Вэй (1994). «Компьютерное обнаружение кластерных микрокальцинатов на цифровых маммограммах с использованием инвариантной к сдвигу искусственной нейронной сети». Медицинская физика . 21 (4): 517–24. Бибкод : 1994MedPh..21..517Z. дои : 10.1118/1.597177. ПМИД  8058017.
  59. ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791. S2CID  14542261 . Проверено 7 октября 2016 г. 
  60. ^ abc Шмидхубер, Юрген (1992). «Обучение сложных, расширенных последовательностей с использованием принципа сжатия истории (на основе ТР ФКИ-148, 1991 г.)» (PDF) . Нейронные вычисления . 4 (2): 234–242. дои : 10.1162/neco.1992.4.2.234. S2CID  18271205.
  61. ^ Шмидхубер, Юрген (1993). Кандидатская диссертация (PDF) (на немецком языке). Архивировано из оригинала (PDF) 26 июня 2021 года.
  62. ^ Шмидхубер, Юрген (1 ноября 1992 г.). «Научимся контролировать быстрые воспоминания: альтернатива повторяющимся сетям». Нейронные вычисления . 4 (1): 131–139. дои : 10.1162/neco.1992.4.1.131. S2CID  16683347.
  63. ^ аб Шлаг, Иманол ; Ириэ, Кадзуки; Шмидхубер, Юрген (2021). «Линейные трансформаторы — тайно быстрые программисты веса». ICML 2021 . Спрингер. стр. 9355–9366.
  64. ^ Хороманский, Кшиштоф; Лихошерстов Валерий; Дохан, Дэвид; Сун, Синю; Гейн, Андреа; Сарлос, Тамас; Хокинс, Питер; Дэвис, Джаред; Мохиуддин, Афроз; Кайзер, Лукаш; Беланджер, Дэвид; Колвелл, Люси; Веллер, Адриан (2020). «Переосмысление внимания с исполнителями». arXiv : 2009.14794 [cs.CL].
  65. ^ Шмидхубер, Юрген (1993). «Уменьшение соотношения между сложностью обучения и количеством изменяющихся во времени переменных в полностью рекуррентных сетях». ИКАНН, 1993 год . Спрингер. стр. 460–463.
  66. ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н.; Кайзер, Лукаш; Полосухин, Илья (12 июня 2017 г.). «Внимание — это все, что вам нужно». arXiv : 1706.03762 [cs.CL].
  67. ^ Вольф, Томас; Дебют, Лисандра; Сан, Виктор; Шомон, Жюльен; Деланг, Клеман; Мой, Энтони; Систак, Пьеррик; Раулт, Тим; Луф, Реми; Фунтович, Морган; Дэвисон, Джо; Шлейфер, Сэм; фон Платен, Патрик; Ма, Клара; Джернит, Ясин; Плю, Жюльен; Сюй, Канвен; Ле Скао, Тевен; Гуггер, Сильвен; Драма, Мариама; Лоест, Квентин; Раш, Александр (2020). «Трансформеры: современная обработка естественного языка». Материалы конференции 2020 года по эмпирическим методам обработки естественного языка: системные демонстрации . стр. 38–45. doi : 10.18653/v1/2020.emnlp-demos.6. S2CID  208117506.
  68. Хэ, Ченг (31 декабря 2021 г.). «Трансформатор в резюме». Трансформатор в ЦВ . На пути к науке о данных.
  69. ^ Шмидхубер, Юрген (1991). «Возможность реализовать любопытство и скуку в нейронных контроллерах для построения моделей». Учеб. САБ'1991 . MIT Press/Брэдфорд Букс. стр. 222–227.
  70. ^ Шмидхубер, Юрген (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990–2010)». Транзакции IEEE по автономному умственному развитию . 2 (3): 230–247. дои : 10.1109/TAMD.2010.2056368. S2CID  234198.
  71. ^ Шмидхубер, Юрген (2020). «Генераторно-состязательные сети представляют собой особые случаи искусственного любопытства (1990), а также тесно связаны с минимизацией предсказуемости (1991)». Нейронные сети . 127 : 58–66. arXiv : 1906.04493 . doi :10.1016/j.neunet.2020.04.008. PMID  32334341. S2CID  216056336.
  72. ^ Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенджио, Йошуа (2014). Генеративно-состязательные сети (PDF) . Материалы Международной конференции по нейронным системам обработки информации (NIPS 2014). стр. 2672–2680. Архивировано (PDF) из оригинала 22 ноября 2019 г. Проверено 20 августа 2019 г.
  73. ^ «Готовьтесь, не паникуйте: синтетические медиа и дипфейки» . свидетель.орг. Архивировано из оригинала 2 декабря 2020 года . Проверено 25 ноября 2020 г.
  74. ^ «GAN 2.0: Гиперреалистичный генератор лиц NVIDIA» . SyncedReview.com . 14 декабря 2018 года . Проверено 3 октября 2019 г.
  75. ^ Каррас, Т.; Айла, Т.; Лейн, С.; Лехтинен, Дж. (26 февраля 2018 г.). «Прогрессивное развитие GAN для повышения качества, стабильности и разнообразия». arXiv : 1710.10196 [cs.NE].
  76. ^ abc С. Хохрайтер., "Untersuruchungen zu dynamischen Neuronalen Netzen". Архивировано 6 марта 2015 г. в Wayback Machine . Дипломная работа. Институт ф. Информатика, Технический университет. Мюнхен. Советник: Дж. Шмидхубер , 1991 г.
  77. ^ Хохрейтер, С.; и другие. (15 января 2001 г.). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей». В Колене, Джон Ф.; Кремер, Стефан К. (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Уайли и сыновья. ISBN 978-0-7803-5369-5.
  78. ^ abc Hochreiter, Зепп; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. ISSN  0899-7667. PMID  9377276. S2CID  1915014.
  79. ^ Герс, Феликс; Шмидхубер, Юрген; Камминс, Фред (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp: 19991218. ISBN 0-85296-721-7.
  80. ^ Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [cs.LG].
  81. ^ Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей». Достижения в области нейронных систем обработки информации . Curran Associates, Inc. 28 : 2377–2385.
  82. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). Глубокое остаточное обучение для распознавания изображений. Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  83. ^ де Карвальо, Андре CLF; Фэрхерст, Майк С.; Биссет, Дэвид (8 августа 1994 г.). «Интегрированная булева нейронная сеть для классификации шаблонов». Буквы для распознавания образов . 15 (8): 807–813. Бибкод : 1994PaReL..15..807D. дои : 10.1016/0167-8655(94)90009-4.
  84. ^ Хинтон, Джеффри Э.; Даян, Питер; Фрей, Брендан Дж.; Нил, Рэдфорд (26 мая 1995 г.). «Алгоритм пробуждения-сна для неконтролируемых нейронных сетей». Наука . 268 (5214): 1158–1161. Бибкод : 1995Sci...268.1158H. дои : 10.1126/science.7761831. PMID  7761831. S2CID  871473.
  85. ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений . Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963. ISBN 3-540-40722-7. S2CID  1304548.
  86. ^ Морган, Нельсон; Бурлар, Эрве; Реналс, Стив; Коэн, Майкл; Франко, Орасио (1 августа 1993 г.). «Гибридные нейронные сети/системы скрытых марковских моделей для распознавания непрерывной речи». Международный журнал распознавания образов и искусственного интеллекта . 07 (4): 899–916. дои : 10.1142/s0218001493000455. ISSN  0218-0014.
  87. ^ Робинсон, Т. (1992). «Система распознавания слов в сети распространения повторяющихся ошибок в реальном времени». ИКАССП . Икасп'92: 617–620. ISBN 9780780305328. Архивировано из оригинала 9 мая 2021 г. Проверено 12 июня 2017 г.
  88. ^ Вайбель, А.; Ханадзава, Т.; Хинтон, Г.; Сикано, К.; Ланг, К.Дж. (март 1989 г.). «Распознавание фонем с использованием нейронных сетей с задержкой» (PDF) . Транзакции IEEE по акустике, речи и обработке сигналов . 37 (3): 328–339. дои : 10.1109/29.21701. hdl : 10338.dmlcz/135496. ISSN  0096-3518. S2CID  9563026. Архивировано (PDF) из оригинала 27 апреля 2021 г. Проверено 24 сентября 2019 г.
  89. ^ Бейкер, Дж.; Дэн, Ли; Гласс, Джим; Худанпур, С.; Ли, Ч.-Х.; Морган, Н.; О'Шонесси, Д. (2009). «Научные разработки и направления в области распознавания и понимания речи, Часть 1». Журнал обработки сигналов IEEE . 26 (3): 75–80. Бибкод : 2009ISPM...26...75B. дои : 10.1109/msp.2009.932166. hdl : 1721.1/51891. S2CID  357467.
  90. ^ Бенджио, Ю. (1991). «Искусственные нейронные сети и их применение для распознавания речи/последовательностей». Доктор философии Университета Макгилла. Тезис. Архивировано из оригинала 9 мая 2021 г. Проверено 12 июня 2017 г.
  91. ^ Дэн, Л.; Хасанейн, К.; Элмасри, М. (1994). «Анализ корреляционной структуры модели нейронного прогнозирования с применением к распознаванию речи». Нейронные сети . 7 (2): 331–339. дои : 10.1016/0893-6080(94)90027-2.
  92. ^ Доддингтон, Г.; Пшибоцкий, М.; Мартин, А.; Рейнольдс, Д. (2000). «Оценка распознавания ораторов NIST – Обзор, методология, системы, результаты, перспективы». Речевое общение . 31 (2): 225–254. дои : 10.1016/S0167-6393(99)00080-1.
  93. ^ Аб Хек, Л.; Кениг, Ю.; Сонмез, М.; Вайнтрауб, М. (2000). «Устойчивость к искажениям телефонной трубки при распознавании говорящего посредством дискриминационного дизайна». Речевое общение . 31 (2): 181–192. дои : 10.1016/s0167-6393(99)00077-1.
  94. ^ «Акустическое моделирование с помощью глубоких нейронных сетей с использованием необработанного сигнала времени для LVCSR (доступна загрузка в формате PDF)» . Исследовательские ворота . Архивировано из оригинала 9 мая 2021 года . Проверено 14 июня 2017 г.
  95. ^ AB Грейвс, Алекс; Эк, Дуглас; Беринджер, Николь; Шмидхубер, Юрген (2003). «Биологически правдоподобное распознавание речи с помощью нейронных сетей LSTM» (PDF) . 1-й международный Семинар по биологическим подходам к передовым информационным технологиям, Bio-ADIT 2004, Лозанна, Швейцария . стр. 175–184. Архивировано (PDF) из оригинала 9 мая 2021 г. Проверено 9 апреля 2016 г.
  96. ^ abc Грейвс, Алекс ; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка данных несегментированных последовательностей с помощью рекуррентных нейронных сетей». Материалы Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 . 
  97. ^ Сантьяго Фернандес, Алекс Грейвс и Юрген Шмидхубер (2007). Применение рекуррентных нейронных сетей для различительного определения ключевых слов. Архивировано 18 ноября 2018 г. в Wayback Machine . Протоколы ICANN (2), стр. 220–229.
  98. ^ abc Сак, Хашим; Старший, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (сентябрь 2015 г.). «Голосовой поиск Google: быстрее и точнее». Архивировано из оригинала 9 марта 2016 г. Проверено 9 апреля 2016 г.
  99. ^ Янн ЛеКун (2016). Слайды по глубокому обучению в Интернете, заархивированные 23 апреля 2016 г. на Wayback Machine
  100. Хинтон, Джеффри Э. (1 октября 2007 г.). «Изучение нескольких уровней представления». Тенденции в когнитивных науках . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. ISSN  1364-6613. PMID  17921042. S2CID  15066318. Архивировано из оригинала 11 октября 2013 года . Проверено 12 июня 2017 г.
  101. ^ Хинтон, GE ; Осиндеро, С.; Тех, YW (2006). «Алгоритм быстрого обучения для сетей глубокого доверия» (PDF) . Нейронные вычисления . 18 (7): 1527–1554. дои : 10.1162/neco.2006.18.7.1527. PMID  16764513. S2CID  2309950. Архивировано (PDF) из оригинала 23 декабря 2015 г. Проверено 20 июля 2011 г.
  102. ^ Бенджио, Йошуа (2012). «Практические рекомендации по градиентному обучению глубоких архитектур». arXiv : 1206.5533 [cs.LG].
  103. ^ Дж. Э. Хинтон., «Изучение нескольких уровней представления». Архивировано 22 мая 2018 г. в Wayback Machine . Тенденции в когнитивных науках , 11, стр. 428–434, 2007 г.
  104. ^ abc Хинтон, Г.; Дэн, Л.; Ю, Д.; Даль, Г.; Мохамед, А.; Джейтли, Н.; Старший, А.; Ванхук, В.; Нгуен, П.; Сайнат, Т. ; Кингсбери, Б. (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп». Журнал обработки сигналов IEEE . 29 (6): 82–97. Бибкод : 2012ISPM...29...82H. дои : 10.1109/msp.2012.2205597. S2CID  206485943.
  105. ^ abc Дэн, Л.; Хинтон, Г.; Кингсбери, Б. (май 2013 г.). «Новые типы глубокого обучения нейронных сетей для распознавания речи и связанных с ним приложений: обзор (ICASSP)» (PDF) . Майкрософт. Архивировано (PDF) из оригинала 26 сентября 2017 г. Проверено 27 декабря 2023 г.
  106. ^ abc Ю, Д.; Дэн, Л. (2014). Автоматическое распознавание речи: подход глубокого обучения (Издатель: Springer). Спрингер. ISBN 978-1-4471-5779-3.
  107. ^ «Дэн получает престижную награду IEEE за технические достижения - Microsoft Research» . Исследования Майкрософт . 3 декабря 2015 г. Архивировано из оригинала 16 марта 2018 г. Проверено 16 марта 2018 г.
  108. ^ Аб Ли, Дэн (сентябрь 2014 г.). «Основной доклад:« Достижения и проблемы глубокого обучения - от анализа и распознавания речи до языка и мультимодальной обработки »». Интерспич . Архивировано из оригинала 26 сентября 2017 г. Проверено 12 июня 2017 г.
  109. ^ Ю, Д.; Дэн, Л. (2010). «Роль предварительного обучения и тонкой настройки контекстно-зависимых DBN-HMM для реального распознавания речи». Семинар NIPS по глубокому обучению и обучению функций без учителя . Архивировано из оригинала 12 октября 2017 г. Проверено 14 июня 2017 г.
  110. ^ Сейде, Ф.; Ли, Г.; Ю, Д. (2011). «Транскрипция разговорной речи с использованием контекстно-зависимых глубоких нейронных сетей». Интерспич : 437–440. doi : 10.21437/Interspeech.2011-169. S2CID  398770. Архивировано из оригинала 12 октября 2017 г. Проверено 14 июня 2017 г.
  111. ^ Дэн, Ли; Ли, Цзиньюй; Хуан, Цзюй-Тин; Яо, Кайшэн; Ю, Донг; Сейде, Фрэнк; Зельцер, Майк; Цвейг, Джефф; Хэ, Сяодун (1 мая 2013 г.). «Последние достижения в области глубокого обучения для исследования речи в Microsoft». Исследования Майкрософт . Архивировано из оригинала 12 октября 2017 года . Проверено 14 июня 2017 г.
  112. ^ Сингх, Премджит; Саха, Гутам; Сахидулла, Мэриленд (2021). «Нелинейное искажение частоты с использованием преобразования с постоянной добротностью для распознавания речевых эмоций». Международная конференция по компьютерной связи и информатике (ICCCI) 2021 . стр. 1–4. arXiv : 2102.04029 . дои : 10.1109/ICCCI50826.2021.9402569. ISBN 978-1-7281-5875-4. S2CID  231846518.
  113. ^ Сак, Хасим; Старший, Эндрю; Бофе, Франсуаза (2014). «Архитектуры рекуррентных нейронных сетей с долгосрочной кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинала (PDF) 24 апреля 2018 года.
  114. ^ Ли, Сянган; Ву, Сихун (2014). «Построение глубоких рекуррентных нейронных сетей на основе долговременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [cs.CL].
  115. ^ Дзен, Хейга; Сак, Хасим (2015). «Однонаправленная рекуррентная нейронная сеть с долговременной краткосрочной памятью и рекуррентным выходным слоем для синтеза речи с малой задержкой» (PDF) . Google.com . ИКАССП. стр. 4470–4474. Архивировано (PDF) из оригинала 9 мая 2021 г. Проверено 13 июня 2017 г.
  116. ^ «Генеральный директор Nvidia делает большую ставку на глубокое обучение и виртуальную реальность» . Венчурный бит . 5 апреля 2016 г. Архивировано из оригинала 25 ноября 2020 г. . Проверено 21 апреля 2017 г.
  117. ^ «От неработы к нейронным сетям» . Экономист . Архивировано из оригинала 31 декабря 2016 г. Проверено 26 августа 2017 г.
  118. ^ аб О, К.-С.; Юнг, К. (2004). «ГПУ-реализация нейронных сетей». Распознавание образов . 37 (6): 1311–1314. Бибкод : 2004PatRe..37.1311O. дои : 10.1016/j.patcog.2004.01.013.
  119. ^ «Обзор методов оптимизации глубокого обучения на графических процессорах, заархивировано 9 мая 2021 г. в Wayback Machine », С. Миттал и С. Вайшай, Журнал системной архитектуры, 2019 г.
  120. ^ аб Челлапилла, Кумар; Пури, Сидд; Симард, Патрис (2006), Высокопроизводительные сверточные нейронные сети для обработки документов , заархивировано из оригинала 18 мая 2020 г. , получено 14 февраля 2021 г.
  121. ^ Чирешан, Дэн Клаудиу; Мейер, Ули; Гамбарделла, Лука Мария; Шмидхубер, Юрген (21 сентября 2010 г.). «Глубокие, большие и простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . дои : 10.1162/neco_a_00052. ISSN  0899-7667. PMID  20858131. S2CID  1918673.
  122. ^ Райна, Раджат; Мадхаван, Ананд; Нг, Эндрю Ю. (2009). «Масштабное глубокое обучение без учителя с использованием графических процессоров». Материалы 26-й ежегодной международной конференции по машинному обучению . ICML '09. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 873–880. CiteSeerX 10.1.1.154.372 . дои : 10.1145/1553374.1553486. ISBN  9781605585161. S2CID  392458.
  123. ^ Сзе, Вивьен ; Чен, Ю-Синь; Ян, Тянь-Джу; Эмер, Джоэл (2017). «Эффективная обработка глубоких нейронных сетей: учебное пособие и обзор». arXiv : 1703.09039 [cs.CV].
  124. ^ Грейвс, Алекс; и Шмидхубер, Юрген; Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей , Бенджио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К.И.; и Кулотта, Арон (ред.), «Достижения в области систем нейронной обработки информации 22» (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Фонд систем нейронной обработки информации (NIPS), 2009 г., стр. 545–552.
  125. ^ Блог исследований Google. Нейронные сети, лежащие в основе транскрипции Google Voice. 11 августа 2015 г. Автор: Франсуаза Бофе http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
  126. ^ Чиресан, округ Колумбия; Мейер, У.; Маски, Дж.; Гамбарделла, LM; Шмидхубер, Дж. (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Международная совместная конференция по искусственному интеллекту . дои : 10.5591/978-1-57735-516-8/ijcai11-210. Архивировано (PDF) из оригинала 29 сентября 2014 г. Проверено 13 июня 2017 г.
  127. ^ Чиресан, Дэн; Джусти, Алессандро; Гамбарделла, Лука М.; Шмидхубер, Юрген (2012). Перейра, Ф.; Берджес, CJC; Ботту, Л.; Вайнбергер, KQ (ред.). Достижения в области нейронных систем обработки информации 25 (PDF) . Curran Associates, Inc., стр. 2843–2851. Архивировано (PDF) из оригинала 9 августа 2017 г. Проверено 13 июня 2017 г.
  128. ^ Чиресан, Д.; Джусти, А.; Гамбарделла, LM; Шмидхубер, Дж. (2013). «Обнаружение митоза на гистологических изображениях рака молочной железы с помощью глубоких нейронных сетей». Вычисление медицинских изображений и компьютерное вмешательство – MICCAI 2013 . Конспекты лекций по информатике. Том. 7908. стр. 411–418. дои : 10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. ПМИД  24579167.
  129. ^ Симоньян, Карен; Эндрю, Зиссерман (2014). «Сети очень глубокой свертки для крупномасштабного распознавания изображений». arXiv : 1409.1556 [cs.CV].
  130. ^ Виньялс, Ориол; Тошев, Александр; Бенджио, Сами; Эрхан, Дмитрий (2014). «Покажи и расскажи: нейронный генератор подписей к изображениям». arXiv : 1411.4555 [cs.CV]..
  131. ^ Фанг, Хао; Гупта, Саураб; Яндола, Форрест; Шривастава, Рупеш; Дэн, Ли; Доллар, Петр; Гао, Цзяньфэн; Он, Сяодун; Митчелл, Маргарет; Платт, Джон С; Лоуренс Зитник, центральный; Цвейг, Джеффри (2014). «От подписей к визуальным концепциям и обратно». arXiv : 1411.4952 [cs.CV]..
  132. ^ Кирос, Райан; Салахутдинов Руслан; Земель, Ричард С. (2014). «Объединение визуально-семантических вложений с мультимодальными моделями нейронного языка». arXiv : 1411.2539 [cs.LG]..
  133. ^ ab «Проблема молекулярной активности Merck». kaggle.com . Архивировано из оригинала 16 июля 2020 г. Проверено 16 июля 2020 г.
  134. ^ ab «Многозадачные нейронные сети для прогнозов QSAR | Ассоциация науки о данных» . www.datascienceassn.org . Архивировано из оригинала 30 апреля 2017 года . Проверено 14 июня 2017 г.
  135. ^ ab «Токсикология в вызове данных XXI века»
  136. ^ ab «NCATS объявляет победителей конкурса данных Tox21» . Архивировано из оригинала 8 сентября 2015 г. Проверено 05 марта 2015 г.
  137. ^ ab «NCATS объявляет победителей конкурса данных Tox21» . Архивировано из оригинала 28 февраля 2015 года . Проверено 5 марта 2015 г.
  138. ^ «Почему глубокое обучение внезапно меняет вашу жизнь» . Удача . 2016. Архивировано из оригинала 14 апреля 2018 года . Проверено 13 апреля 2018 г.
  139. ^ Ферри, К., и Кайзер, С. (2019). Нейронные сети для детей . Справочники. ISBN 978-1492671206.{{cite book}}: CS1 maint: multiple names: authors list (link)
  140. ^ Сильвер, Дэвид; Хуанг, Аджа; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда (январь 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. дои : 10.1038/nature16961. ISSN  1476-4687. PMID  26819042. S2CID  515925.
  141. ^ Руководство по глубокому обучению и нейронным сетям, заархивировано из оригинала 02 ноября 2020 г. , получено 16 ноября 2020 г.
  142. ^ Сегеди, Кристиан; Тошев, Александр; Эрхан, Дмитрий (2013). «Глубокие нейронные сети для обнаружения объектов». Достижения в области нейронных систем обработки информации : 2553–2561. Архивировано из оригинала 29 июня 2017 г. Проверено 13 июня 2017 г.
  143. ^ Рольник, Дэвид; Тегмарк, Макс (2018). «Сила более глубоких сетей для выражения естественных функций». Международная конференция по обучению представлений . ICLR 2018. Архивировано из оригинала 07 января 2021 г. Проверено 05 января 2021 г.
  144. ^ Хоф, Роберт Д. «Наконец-то искусственный интеллект вступает в свои права?». Обзор технологий Массачусетского технологического института . Архивировано из оригинала 31 марта 2019 года . Проверено 10 июля 2018 г.
  145. ^ аб Герс, Феликс А.; Шмидхубер, Юрген (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки». Транзакции IEEE в нейронных сетях . 12 (6): 1333–1340. дои : 10.1109/72.963769. PMID  18249962. S2CID  10192330. Архивировано из оригинала 26 января 2020 г. Проверено 25 февраля 2020 г.
  146. ^ abc Суцкевер, Л.; Виньялс, О.; Ле, К. (2014). «Последовательное обучение с помощью нейронных сетей» (PDF) . Учеб. НИПС . arXiv : 1409.3215 . Бибкод : 2014arXiv1409.3215S. Архивировано (PDF) из оригинала 9 мая 2021 г. Проверено 13 июня 2017 г.
  147. ^ аб Йозефович, Рафаль; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; Ву, Юнхуэй (2016). «Изучение пределов языкового моделирования». arXiv : 1602.02410 [cs.CL].
  148. ^ аб Гиллик, Дэн; Бранк, Клифф; Виньялс, Ориол; Субраманья, Амарнаг (2015). «Многоязычная языковая обработка из байтов». arXiv : 1512.00103 [cs.CL].
  149. ^ Миколов, Т.; и другие. (2010). «Языковая модель на основе рекуррентной нейронной сети» (PDF) . Интерспич : 1045–1048. дои : 10.21437/Interspeech.2010-343. S2CID  17048224. Архивировано (PDF) из оригинала 16 мая 2017 г. Проверено 13 июня 2017 г.
  150. ^ ab «Изучение точного времени с помощью рекуррентных сетей LSTM (доступна загрузка в формате PDF)» . Исследовательские ворота . Архивировано из оригинала 9 мая 2021 года . Проверено 13 июня 2017 г.
  151. ^ ЛеКун, Ю.; и другие. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791. S2CID  14542261.
  152. ^ Саинат, Тара Н .; Мохамед, Абдель-Рахман; Кингсбери, Брайан; Рамабхадран, Бхувана (2013). «Глубокие сверточные нейронные сети для LVCSR». Международная конференция IEEE 2013 по акустике, речи и обработке сигналов . стр. 8614–8618. дои : 10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6. S2CID  13816461.
  153. ^ Бенджио, Йошуа; Буланже-Левандовски, Николя; Паскану, Разван (2013). «Достижения в оптимизации рекуррентных сетей». Международная конференция IEEE 2013 по акустике, речи и обработке сигналов . стр. 8624–8628. arXiv : 1212.0901 . CiteSeerX 10.1.1.752.9151 . дои : 10.1109/icassp.2013.6639349. ISBN  978-1-4799-0356-6. S2CID  12485056.
  154. ^ Даль, Г.; и другие. (2013). «Улучшение DNN для LVCSR с использованием выпрямленных линейных единиц и исключения» (PDF) . ИКАССП . Архивировано (PDF) из оригинала 12 августа 2017 г. Проверено 13 июня 2017 г.
  155. ^ «Расширение данных — deeplearning.ai | Coursera» . Курсера . Архивировано из оригинала 1 декабря 2017 года . Проверено 30 ноября 2017 г.
  156. ^ Хинтон, GE (2010). «Практическое руководство по обучению ограниченных машин Больцмана». Тех. Реп. УТМЛ ТР 2010-003 . Архивировано из оригинала 9 мая 2021 г. Проверено 13 июня 2017 г.
  157. ^ Ты, Ян; Булуч, Айдын; Деммель, Джеймс (ноябрь 2017 г.). «Масштабирование глубокого обучения на графических процессорах и кластерах рыцарей». Материалы Международной конференции по высокопроизводительным вычислениям, сетям, хранению и анализу - SC '17. СЦ '17, АКМ. стр. 1–12. дои : 10.1145/3126908.3126912. ISBN 9781450351140. S2CID  8869270. Архивировано из оригинала 29 июля 2020 года . Проверено 5 марта 2018 г.
  158. ^ Вибке, Андре; Мемети, Суэйб; Планана, Сабри; Авраам, Аджит (2019). «ХАОС: схема распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi». Журнал суперкомпьютеров . 75 : 197–227. arXiv : 1702.07908 . Бибкод : 2017arXiv170207908V. doi : 10.1007/s11227-017-1994-x. S2CID  14135321.
  159. ^ Тин Цинь и др. «Алгоритм обучения CMAC на основе RLS». Письма о нейронной обработке 19.1 (2004): 49-61.
  160. ^ Тин Цинь и др. «Непрерывный CMAC-QRLS и его систолический массив». Архивировано 18 ноября 2018 г. в Wayback Machine . Письма о нейронной обработке 22.1 (2005): 1–16.
  161. ^ Исследования, AI (23 октября 2015 г.). «Глубокие нейронные сети для акустического моделирования в распознавании речи». airesearch.com . Архивировано из оригинала 1 февраля 2016 года . Проверено 23 октября 2015 г.
  162. ^ «Графические процессоры пока продолжают доминировать на рынке ускорителей искусственного интеллекта» . Информационная неделя . Декабрь 2019. Архивировано из оригинала 10 июня 2020 года . Проверено 11 июня 2020 г.
  163. ^ Рэй, Тирнан (2019). «ИИ меняет всю природу вычислений». ЗДНет . Архивировано из оригинала 25 мая 2020 года . Проверено 11 июня 2020 г.
  164. ^ «ИИ и вычисления». ОпенАИ . 16 мая 2018 г. Архивировано из оригинала 17 июня 2020 г. . Проверено 11 июня 2020 г.
  165. ^ «HUAWEI раскрывает будущее мобильного искусственного интеллекта на IFA 2017 | Последние новости HUAWEI | HUAWEI Global» . потребитель.huawei.com .
  166. ^ П, ЖуппиНорман; ЯнгКлифф; ПатилНишант; ПаттерсонДэвид; Агравал Гаурав; БаджваРаминдер; БейтсСара; Бхатия Суреш; БоденНан; БорхерсАл; БойлРик (24 июня 2017 г.). «Анализ производительности тензорного процессора в центре обработки данных». Новости компьютерной архитектуры ACM SIGARCH . 45 (2): 1–12. arXiv : 1704.04760 . дои : 10.1145/3140659.3080246 .
  167. ^ Вуди, Алекс (01 ноября 2021 г.). «Cerebras использует ускоритель для рабочих нагрузок глубокого обучения». Датанами . Проверено 3 августа 2022 г.
  168. ^ «Cerebras запускает новый суперкомпьютерный процессор искусственного интеллекта с 2,6 триллионами транзисторов» . ВенчурБит . 20 апреля 2021 г. Проверено 3 августа 2022 г.
  169. ^ Марега, Гильерме Мильято; Чжао, Яньфэй; Авсар, Ахмет; Ван, Чжэньюй; Трипати, Мукеш; Раденович, Александра; Кис, Анрас (2020). «Логика в памяти на основе атомарно тонкого полупроводника». Природа . 587 (2): 72–77. Бибкод :2020Natur.587...72M. дои : 10.1038/s41586-020-2861-0. ПМЦ 7116757 . ПМИД  33149289. 
  170. ^ abc Фельдманн, Дж.; Янгблад, Н.; Карпов, М.; и другие. (2021). «Параллельная сверточная обработка с использованием интегрированного фотонного тензора». Природа . 589 (2): 52–58. arXiv : 2002.00281 . дои : 10.1038/s41586-020-03070-1. PMID  33408373. S2CID  211010976.
  171. ^ Гарофоло, Дж. С.; Ламель, ЛФ; Фишер, В.М.; Фискус, Дж. Г.; Паллетт, Д.С.; Дальгрен, Нидерланды; Зуэ, В. (1993). ТИМИТ Акустико-фонетический корпус непрерывной речи. Консорциум лингвистических данных. дои : 10.35111/17gk-bn40. ISBN 1-58563-019-5. Проверено 27 декабря 2023 г.
  172. Робинсон, Тони (30 сентября 1991 г.). «Несколько улучшений в системе распознавания сетевых телефонов с распространением периодических ошибок». Технический отчет инженерного факультета Кембриджского университета . CUED/F-INFENG/TR82. дои : 10.13140/RG.2.2.15418.90567.
  173. ^ Абдель-Хамид, О.; и другие. (2014). «Сверточные нейронные сети для распознавания речи». Транзакции IEEE/ACM по обработке звука, речи и языка . 22 (10): 1533–1545. дои : 10.1109/taslp.2014.2339736. S2CID  206602362. Архивировано из оригинала 22 сентября 2020 г. Проверено 20 апреля 2018 г.
  174. ^ Дэн, Л.; Платт, Дж. (2014). «Ансамбль глубокого обучения для распознавания речи». Учеб. Интерспич : 1915–1919. doi :10.21437/Interspeech.2014-433. S2CID  15641618.
  175. ^ Тот, Ласло (2015). «Распознавание телефона с помощью иерархических сверточных сетей Deep Maxout» (PDF) . Журнал EURASIP по обработке звука, речи и музыки . 2015 . дои : 10.1186/s13636-015-0068-3 . S2CID  217950236. Архивировано (PDF) из оригинала 24 сентября 2020 г. Проверено 1 апреля 2019 г.
  176. Макмиллан, Роберт (17 декабря 2014 г.). «Как Skype использовал искусственный интеллект для создания своего удивительного переводчика нового языка | WIRED» . Проводной . Архивировано из оригинала 8 июня 2017 года . Проверено 14 июня 2017 г.
  177. ^ Ханнун, Ауни; Кейс, Карл; Каспер, Джаред; Катандзаро, Брайан; Диамос, Грег; Элсен, Эрих; Пренгер, Райан; Сатиш, Санджив; Сенгупта, Шубхо; Коутс, Адам; Нг, Эндрю Ю (2014). «Глубокая речь: расширение сквозного распознавания речи». arXiv : 1412.5567 [cs.CL].
  178. ^ "База данных рукописных цифр MNIST, Ян ЛеКун, Коринна Кортес и Крис Берджес" . yann.lecun.com . Архивировано из оригинала 13 января 2014 г. Проверено 28 января 2014 г.
  179. ^ Чирешан, Дэн; Мейер, Ули; Маски, Джонатан; Шмидхубер, Юрген (август 2012 г.). «Многоколоночная глубокая нейронная сеть для классификации дорожных знаков». Нейронные сети . Избранные статьи IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . doi :10.1016/j.neunet.2012.02.023. ПМИД  22386783. 
  180. ^ Чаочао Лу; Сяоу Тан (2014). «Превосходящее распознавание лиц на человеческом уровне». arXiv : 1404.3840 [cs.CV].
  181. ^ Nvidia демонстрирует автомобильный компьютер, обученный с помощью «глубокого обучения» (6 января 2015 г.), Дэвид Талбот, MIT Technology Review
  182. ^ abc Г.В. Смит; Фредерик Фол Леймари (10 апреля 2017 г.). «Машина как художник: Введение». Искусство . 6 (4): 5. doi : 10.3390/arts6020005 .
  183. ↑ abc Blaise Agüera y Arcas (29 сентября 2017 г.). «Искусство в эпоху машинного интеллекта». Искусство . 6 (4): 18. дои : 10.3390/arts6040018 .
  184. ^ Гольдберг, Йоав; Леви, Омар (2014). «Объяснение word2vec: получение метода встраивания слов с отрицательной выборкой Миколова и др.» . arXiv : 1402.3722 [cs.CL].
  185. ^ аб Сохер, Ричард; Мэннинг, Кристофер. «Глубокое обучение для НЛП» (PDF) . Архивировано (PDF) из оригинала 6 июля 2014 года . Проверено 26 октября 2014 г.
  186. ^ Сочер, Ричард; Бауэр, Джон; Мэннинг, Кристофер; Нг, Эндрю (2013). «Разбор с помощью композиционных векторных грамматик» (PDF) . Материалы конференции ACL 2013 . Архивировано (PDF) из оригинала 27 ноября 2014 г. Проверено 3 сентября 2014 г.
  187. ^ Сочер, Р.; Перелыгин А.; Ву, Дж.; Чуанг, Дж.; Мэннинг, CD; Нг, А.; Поттс, К. (октябрь 2013 г.). «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» (PDF) . Материалы конференции 2013 года по эмпирическим методам обработки естественного языка . Ассоциация компьютерной лингвистики. Архивировано (PDF) из оригинала 28 декабря 2016 года . Проверено 21 декабря 2023 г.
  188. ^ Шен, Йелун; Он, Сяодун; Гао, Цзяньфэн; Дэн, Ли; Мениль, Грегуар (1 ноября 2014 г.). «Скрытая семантическая модель со структурой сверточного пула для поиска информации». Исследования Майкрософт . Архивировано из оригинала 27 октября 2017 года . Проверено 14 июня 2017 г.
  189. ^ Хуанг, По-Сен; Он, Сяодун; Гао, Цзяньфэн; Дэн, Ли; Асеро, Алекс; Черт возьми, Ларри (1 октября 2013 г.). «Изучение глубоко структурированных семантических моделей для веб-поиска с использованием данных о кликах». Исследования Майкрософт . Архивировано из оригинала 27 октября 2017 года . Проверено 14 июня 2017 г.
  190. ^ Менил, Г.; Дофин, Ю.; Яо, К.; Бенджио, Ю.; Дэн, Л.; Хаккани-Тур, Д.; Он, Х.; Черт возьми, Л.; Тур, Г.; Ю, Д.; Цвейг, Г. (2015). «Использование рекуррентных нейронных сетей для заполнения слотов в понимании разговорной речи». Транзакции IEEE по обработке звука, речи и языка . 23 (3): 530–539. дои : 10.1109/taslp.2014.2383614. S2CID  1317136.
  191. ^ Аб Гао, Цзяньфэн; Он, Сяодун; Да, Скотт Вен-тау; Дэн, Ли (1 июня 2014 г.). «Изучение представлений непрерывных фраз для моделирования перевода». Исследования Майкрософт . Архивировано из оригинала 27 октября 2017 года . Проверено 14 июня 2017 г.
  192. ^ Брокардо, Марсело Луис; Траоре, Исса; Вунганг, Исаак; Обайдат, Мохаммад С. (2017). «Проверка авторства с использованием сетевых систем глубокого доверия». Международный журнал систем связи . 30 (12): е3259. дои : 10.1002/dac.3259. S2CID  40745740.
  193. ^ Кариампужа, Уильям; Алия, Джоконда; Цюй, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядо, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для масштабной эпидемиологии редких заболеваний». Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . ПМЦ 9972634 . ПМИД  36855134. 
  194. ^ «Глубокое обучение для обработки естественного языка: теория и практика (учебное пособие CIKM2014) - Microsoft Research» . Исследования Майкрософт . Архивировано из оригинала 13 марта 2017 года . Проверено 14 июня 2017 г.
  195. Туровский, Барак (15 ноября 2016 г.). «Найдено в переводе: более точные и беглые предложения в Google Translate». Ключевое слово Блог Google . Архивировано из оригинала 7 апреля 2017 года . Проверено 23 марта 2017 г.
  196. ^ abcd Шустер, Майк; Джонсон, Мелвин; Торат, Нихил (22 ноября 2016 г.). «Нулевой перевод с помощью многоязычной нейронной системы машинного перевода Google». Блог исследований Google . Архивировано из оригинала 10 июля 2017 года . Проверено 23 марта 2017 г. .
  197. ^ Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок V; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш; Гаус, Стефан; Като, Ёсикиё; Кудо, Таку; Казава, Хидето; Стивенс, Кейт; Куриан, Джордж; Патил, Нишант; Ван, Вэй; Янг, Клифф; Смит, Джейсон; Риза, Джейсон; Рудник, Алекс; Виньялс, Ориол; Коррадо, Грег; и другие. (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [cs.CL].
  198. Мец, Кейд (27 сентября 2016 г.). «Внедрение искусственного интеллекта делает Google Translate более мощным, чем когда-либо». Проводной . Архивировано из оригинала 8 ноября 2020 года . Проверено 12 октября 2017 г.
  199. ^ аб Бойте, Кристиан; Бланшон, Эрве; Селигман, Марк; Беллинк, Валери (2010). «MT для Интернета» (PDF) . Архивировано из оригинала (PDF) 29 марта 2017 года . Проверено 1 декабря 2016 г.
  200. ^ Эроусмит, Дж; Миллер, П. (2013). «Пробное наблюдение: темпы отсева на этапе II и этапе III в 2011–2012 годах». Nature Reviews Открытие лекарств . 12 (8): 569. дои : 10.1038/nrd4090 . PMID  23903212. S2CID  20246434.
  201. ^ Вербист, Б; Кламбауэр, Г; Верворт, Л; Таллоен, В; Qstar, Консорциум; Шкеди, З; Это, О; Бендер, А; Гёльманн, Х.В.; Хохрайтер, С (2015). «Использование транскриптомики для оптимизации потенциальных проектов в проектах по открытию лекарств: уроки, извлеченные из проекта QSTAR». Открытие наркотиков сегодня . 20 (5): 505–513. дои : 10.1016/j.drudis.2014.12.014 . HDL : 1942/18723 . ПМИД  25582842.
  202. ^ Валлах, Ижар; Дзамба, Майкл; Хейфец, Авраам (9 октября 2015 г.). «AtomNet: глубокая сверточная нейронная сеть для прогнозирования биологической активности при открытии лекарств на основе структуры». arXiv : 1510.02855 [cs.LG].
  203. ^ ab «У стартапа в Торонто есть более быстрый способ найти эффективные лекарства». Глобус и почта . Архивировано из оригинала 20 октября 2015 года . Проверено 9 ноября 2015 г.
  204. ^ «Стартап использует суперкомпьютеры для поиска лекарств» . KQED Ваше будущее . 27 мая 2015 года. Архивировано из оригинала 24 декабря 2015 года . Проверено 9 ноября 2015 г.
  205. ^ Гилмер, Джастин; Шенхольц, Сэмюэл С.; Райли, Патрик Ф.; Виньялс, Ориол; Даль, Джордж Э. (12 июня 2017 г.). «Нейронная передача сообщений для квантовой химии». arXiv : 1704.01212 [cs.LG].
  206. ^ Жаворонков, Алекс (2019). «Глубокое обучение позволяет быстро идентифицировать мощные ингибиторы киназы DDR1». Природная биотехнология . 37 (9): 1038–1040. дои : 10.1038/s41587-019-0224-x. PMID  31477924. S2CID  201716327.
  207. ^ Грегори, Барбер. «Молекула, созданная искусственным интеллектом, обладает свойствами, подобными лекарству». Проводной . Архивировано из оригинала 30 апреля 2020 г. Проверено 5 сентября 2019 г.
  208. Ткаченко, Егор (8 апреля 2015 г.). «Автономное управление CRM посредством приближения CLV с глубоким обучением с подкреплением в пространстве дискретных и непрерывных действий». arXiv : 1504.01840 [cs.LG].
  209. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Шраувен, Бенджамин (2013). Берджес, CJC; Ботту, Л.; Веллинг, М.; Гахрамани, З.; Вайнбергер, KQ (ред.). Достижения в области нейронных систем обработки информации 26 (PDF) . Curran Associates, Inc., стр. 2643–2651. Архивировано (PDF) из оригинала 16 мая 2017 г. Проверено 14 июня 2017 г.
  210. ^ Фэн, XY; Чжан, Х.; Рен, YJ; Шан, штат Пенсильвания; Чжу, Ю.; Лян, ЮК; Гуань, RC; Сюй, Д. (2019). «Рекомендательная система на основе глубокого обучения «Pubmender» для выбора места проведения биомедицинских публикаций: исследование разработки и проверки». Журнал медицинских интернет-исследований . 21 (5): e12957. дои : 10.2196/12957 . ПМК 6555124 . ПМИД  31127715. 
  211. ^ Элькахки, Али Мамду; Сун, Ян; Хэ, Сяодун (1 мая 2015 г.). «Многопредставленный подход к глубокому обучению для междоменного моделирования пользователей в рекомендательных системах». Исследования Майкрософт . Архивировано из оригинала 25 января 2018 года . Проверено 14 июня 2017 г.
  212. ^ Чикко, Давиде; Садовский, Питер; Бальди, Пьер (1 января 2014 г.). «Нейронные сети глубокого автокодирования для прогнозирования аннотаций онтологии генов». Материалы 5-й конференции ACM по биоинформатике, вычислительной биологии и медицинской информатике. АКМ. стр. 533–540. дои : 10.1145/2649387.2649442. hdl : 11311/964622. ISBN 9781450328944. S2CID  207217210. Архивировано из оригинала 9 мая 2021 года . Проверено 23 ноября 2015 г.
  213. ^ Сатьянараяна, Аарти (1 января 2016 г.). «Прогнозирование качества сна на основе носимых данных с использованием глубокого обучения». JMIR mHealth и uHealth . 4 (4): е125. дои : 10.2196/mhealth.6562 . ПМК 5116102 . PMID  27815231. S2CID  3821594. 
  214. ^ Чой, Эдвард; Шуец, Энди; Стюарт, Уолтер Ф.; Сунь, Джимэн (13 августа 2016 г.). «Использование рекуррентных моделей нейронных сетей для раннего выявления начала сердечной недостаточности». Журнал Американской ассоциации медицинской информатики . 24 (2): 361–370. дои : 10.1093/jamia/ocw112. ISSN  1067-5027. ПМК 5391725 . ПМИД  27521897. 
  215. ^ Аб Шалев, Ю.; Паинский, А.; Бен-Гал, И. (2022). «Нейронная совместная оценка энтропии» (PDF) . Транзакции IEEE в нейронных сетях и системах обучения . ПП : 1–13. arXiv : 2012.11197 . дои : 10.1109/TNNLS.2022.3204919. PMID  36155469. S2CID  229339809.
  216. ^ Литженс, Герт; Коой, Тайс; Бейнорди, Бабак Эхтешами; Сетио, Арно Ариндра Адийосо; Чомпи, Франческо; Гафурян, Мохсен; ван дер Лаак, Йерун АВМ; ван Гиннекен, Брэм; Санчес, Клара И. (декабрь 2017 г.). «Опрос по глубокому обучению в области анализа медицинских изображений». Анализ медицинских изображений . 42 : 60–88. arXiv : 1702.05747 . Бибкод : 2017arXiv170205747L. дои : 10.1016/j.media.2017.07.005. PMID  28778026. S2CID  2088679.
  217. ^ Форслид, Густав; Висландер, Хакан; Бенгтссон, Эверт; Уолби, Каролина; Хирш, Ян-Майкл; Старк, Кристина Руноу; Саданандан, Саджит Кечерил (2017). «Глубокие сверточные нейронные сети для обнаружения клеточных изменений, вызванных злокачественными новообразованиями». Международная конференция IEEE по компьютерному зрению, 2017 г. (ICCVW) . стр. 82–89. дои : 10.1109/ICCVW.2017.18. ISBN 9781538610343. S2CID  4728736. Архивировано из оригинала 9 мая 2021 г. Проверено 12 ноября 2019 г.
  218. ^ Донг, Синь; Чжоу, Ичжао; Ван, Ланьтянь; Пэн, Цзинфэн; Лу, Янбо; Фань, Ицюнь (2020). «Обнаружение рака печени с использованием гибридизированной полностью сверточной нейронной сети на основе платформы глубокого обучения». Доступ IEEE . 8 : 129889–129898. Бибкод : 2020IEEA...8l9889D. дои : 10.1109/ACCESS.2020.3006362 . ISSN  2169-3536. S2CID  220733699.
  219. ^ Ляхов, Павел Алексеевич; Ляхова Ульяна Алексеевна; Нагорнов Николай Николаевич (03.04.2022). «Система распознавания пигментных поражений кожи с объединением и анализом гетерогенных данных на основе мультимодальной нейронной сети». Раки . 14 (7): 1819. doi : 10.3390/cancers14071819 . ISSN  2072-6694. ПМЦ 8997449 . ПМИД  35406591. 
  220. ^ Де, Шонак; Майти, Абхишек; Гоэл, Вритти; Шитоле, Санджай; Бхаттачарья, Авик (2017). «Прогнозирование популярности постов в Instagram для журнала о стиле жизни с помощью глубокого обучения». 2017 2-я Международная конференция по системам связи, вычислительной технике и ИТ-приложениям (CSCITA) . стр. 174–177. doi : 10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID  35350962.
  221. ^ «Раскрашивание и восстановление старых изображений с помощью глубокого обучения». Блог FloydHub . 13 ноября 2018 года. Архивировано из оригинала 11 октября 2019 года . Проверено 11 октября 2019 г.
  222. ^ Шмидт, Уве; Рот, Стефан. Поля усадки для эффективного восстановления изображений (PDF) . Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2014 г. Архивировано (PDF) из оригинала 02 января 2018 г. Проверено 1 января 2018 г.
  223. ^ Клеантус, Христос; Хацис, Сотириос (2020). «Вариационные автоэнкодеры с контролируемой смесью для выбора случая проверки налога на добавленную стоимость». Системы, основанные на знаниях . 188 : 105048. doi : 10.1016/j.knosys.2019.105048. S2CID  204092079.
  224. Чех, Томаш (28 июня 2018 г.). «Глубокое обучение: следующий рубеж в обнаружении отмывания денег». Глобальный обзор банковского дела и финансов . Архивировано из оригинала 16 ноября 2018 г. Проверено 15 июля 2018 г.
  225. ^ Нуньес, Майкл (29 ноября 2023 г.). «Материалы Google DeepMind ИИ уже обнаружил 2,2 миллиона новых кристаллов». ВенчурБит . Проверено 19 декабря 2023 г.
  226. ^ Торговец, Амиль; Бацнер, Саймон; Шенхольц, Сэмюэл С.; Айколь, Муратахан; Чхон, Говун; Чубук, Экин Догус (декабрь 2023 г.). «Масштабирование глубокого обучения для открытия материалов». Природа . 624 (7990): 80–85. дои : 10.1038/s41586-023-06735-9 . ISSN  1476-4687. ПМК 10700131 . 
  227. ^ Пеплоу, Марк (29 ноября 2023 г.). «ИИ Google и роботы объединяют усилия для создания новых материалов». Природа . дои : 10.1038/d41586-023-03745-5.
  228. ^ abc «Армейские исследователи разрабатывают новые алгоритмы для обучения роботов». ЭврекАлерт! . Архивировано из оригинала 28 августа 2018 года . Проверено 29 августа 2018 г.
  229. ^ Раисси, М.; Пердикарис, П.; Карниадакис, GE (01 февраля 2019 г.). «Нейронные сети, основанные на физике: система глубокого обучения для решения прямых и обратных задач, включающих нелинейные уравнения в частных производных». Журнал вычислительной физики . 378 : 686–707. Бибкод : 2019JCoPh.378..686R. дои : 10.1016/j.jcp.2018.10.045 . ISSN  0021-9991. ОСТИ  1595805. S2CID  57379996.
  230. ^ Мао, Чжипин; Джагтап, Амея Д.; Карниадакис, Джордж Эм (01 марта 2020 г.). «Нейронные сети, основанные на физике, для высокоскоростных потоков». Компьютерные методы в прикладной механике и технике . 360 : 112789. Бибкод : 2020CMAME.360k2789M. дои : 10.1016/j.cma.2019.112789 . ISSN  0045-7825. S2CID  212755458.
  231. ^ Раисси, Мазиар; Яздани, Алиреза; Карниадакис, Джордж Эм (28 февраля 2020 г.). «Скрытая механика жидкости: изучение полей скорости и давления на основе визуализации потока». Наука . 367 (6481): 1026–1030. Бибкод : 2020Sci...367.1026R. doi : 10.1126/science.aaw4741. ПМК 7219083 . ПМИД  32001523. 
  232. ^ Октем, Фиген С.; Кар, Огужан Фатих; Безек, Кан Дениз; Камалабади, Фарзад (2021). «Мультиспектральная визуализация высокого разрешения с помощью дифракционных линз и обученной реконструкции». Транзакции IEEE по вычислительной визуализации . 7 : 489–504. arXiv : 2008.11625 . дои : 10.1109/TCI.2021.3075349. ISSN  2333-9403. S2CID  235340737.
  233. ^ Бернхардт, Мелани; Вишневский, Валерий; Рау, Ричард; Гоксель, Оркун (декабрь 2020 г.). «Обучение вариационных сетей с помощью многодоменного моделирования: реконструкция изображения со скоростью звука». Транзакции IEEE по ультразвуку, сегнетоэлектрике и контролю частоты . 67 (12): 2584–2594. arXiv : 2006.14395 . дои : 10.1109/TUFFC.2020.3010186. ISSN  1525-8955. PMID  32746211. S2CID  220055785.
  234. ^ Галкин, Ф.; Мамошина П.; Кочетов, К.; Сидоренко Д.; Жаворонков, А. (2020). «DeepMAge: часы старения метилирования, разработанные с помощью глубокого обучения». Старение и болезни . дои : 10.14336/AD .
  235. ^ Утгофф, ЧП; Стракуцци, диджей (2002). «Многоуровневое обучение». Нейронные вычисления . 14 (10): 2497–2529. дои : 10.1162/08997660260293319. PMID  12396572. S2CID  1119517.
  236. ^ Элман, Джеффри Л. (1998). Переосмысление врожденности: коннекционистский взгляд на развитие. МТИ Пресс. ISBN 978-0-262-55030-7.
  237. ^ Шрагер, Дж.; Джонсон, Миннесота (1996). «Динамическая пластичность влияет на возникновение функций в простом кортикальном массиве». Нейронные сети . 9 (7): 1119–1129. дои : 10.1016/0893-6080(96)00033-0. ПМИД  12662587.
  238. ^ Кварц, СР; Сейновский, Т.Дж. (1997). «Нейронная основа когнитивного развития: конструктивистский манифест». Поведенческие и мозговые науки . 20 (4): 537–556. CiteSeerX 10.1.1.41.7854 . дои : 10.1017/s0140525x97001581. PMID  10097006. S2CID  5818342. 
  239. ^ С. Блейксли, «На раннем этапе развития мозга график может иметь решающее значение», The New York Times, Science Division , стр. B5–B6, 1995.
  240. ^ Маццони, П.; Андерсен, РА; Джордан, Мичиган (15 мая 1991 г.). «Более биологически правдоподобное правило обучения для нейронных сетей». Труды Национальной академии наук . 88 (10): 4433–4437. Бибкод : 1991PNAS...88.4433M. дои : 10.1073/pnas.88.10.4433 . ISSN  0027-8424. ПМК 51674 . ПМИД  1903542. 
  241. ^ О'Рейли, Рэндалл К. (1 июля 1996 г.). «Биологически правдоподобное обучение, основанное на ошибках, с использованием различий локальной активации: обобщенный алгоритм рециркуляции». Нейронные вычисления . 8 (5): 895–938. дои : 10.1162/neco.1996.8.5.895. ISSN  0899-7667. S2CID  2376781.
  242. ^ Тестолин, Альберто; Зорзи, Марко (2016). «Вероятностные модели и генеративные нейронные сети: на пути к единой структуре для моделирования нормальных и нарушенных нейрокогнитивных функций». Границы вычислительной нейронауки . 10:73 . дои : 10.3389/fncom.2016.00073 . ISSN  1662-5188. ПМЦ 4943066 . PMID  27468262. S2CID  9868901. 
  243. ^ Тестолин, Альберто; Стоянов, Ивилин; Зорзи, Марко (сентябрь 2017 г.). «Восприятие букв возникает в результате неконтролируемого глубокого обучения и переработки естественных особенностей изображения». Природа человеческого поведения . 1 (9): 657–664. дои : 10.1038/s41562-017-0186-2. ISSN  2397-3374. PMID  31024135. S2CID  24504018.
  244. ^ Бузинг, Ларс; Билл, Йоханнес; Несслер, Бернхард; Маасс, Вольфганг (3 ноября 2011 г.). «Нейронная динамика как выборка: модель стохастических вычислений в рекуррентных сетях импульсных нейронов». PLOS Вычислительная биология . 7 (11): e1002211. Бибкод : 2011PLSCB...7E2211B. дои : 10.1371/journal.pcbi.1002211 . ISSN  1553-7358. ПМК 3207943 . PMID  22096452. S2CID  7504633. 
  245. ^ Кэш, С.; Юсте, Р. (февраль 1999 г.). «Линейное суммирование возбуждающих входов пирамидными нейронами CA1». Нейрон . 22 (2): 383–394. дои : 10.1016/s0896-6273(00)81098-3 . ISSN  0896-6273. PMID  10069343. S2CID  14663106.
  246. ^ Ольсхаузен, Б; Филд, Д. (1 августа 2004 г.). «Разреженное кодирование сенсорных входов». Современное мнение в нейробиологии . 14 (4): 481–487. дои : 10.1016/j.conb.2004.07.007. ISSN  0959-4388. PMID  15321069. S2CID  16560320.
  247. ^ Яминс, Дэниел Л.К.; ДиКарло, Джеймс Дж (март 2016 г.). «Использование целенаправленных моделей глубокого обучения для понимания сенсорной коры». Природная неврология . 19 (3): 356–365. дои : 10.1038/nn.4244. ISSN  1546-1726. PMID  26906502. S2CID  16970545.
  248. ^ Зорзи, Марко; Тестолин, Альберто (19 февраля 2018 г.). «Эмерджентистский взгляд на происхождение чувства числа». Фил. Пер. Р. Сок. Б. _ 373 (1740): 20170043. doi :10.1098/rstb.2017.0043. ISSN  0962-8436. ПМК 5784047 . PMID  29292348. S2CID  39281431. 
  249. ^ Гючлю, Умут; ван Гервен, Марсель А.Дж. (8 июля 2015 г.). «Глубокие нейронные сети выявляют градиент сложности нейронных представлений в вентральном потоке». Журнал неврологии . 35 (27): 10005–10014. arXiv : 1411.6422 . doi : 10.1523/jneurosci.5023-14.2015. ПМК 6605414 . ПМИД  26157000. 
  250. ^ Мец, К. (12 декабря 2013 г.). «Гуру глубокого обучения Facebook раскрывает будущее искусственного интеллекта» . Проводной . Архивировано из оригинала 28 марта 2014 года . Проверено 26 августа 2017 г.
  251. ^ Гибни, Элизабет (2016). «Алгоритм Google AI освоил древнюю игру го» . Природа . 529 (7587): 445–446. Бибкод : 2016Natur.529..445G. дои : 10.1038/529445а . PMID  26819021. S2CID  4460235.
  252. ^ Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нэм, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грепель, Торе; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. дои : 10.1038/nature16961. ISSN  0028-0836. PMID  26819042. S2CID  515925.Значок закрытого доступа
  253. ^ «Алгоритм Google DeepMind использует глубокое обучение и многое другое, чтобы освоить игру в го | Обзор технологий MIT» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 1 февраля 2016 года . Проверено 30 января 2016 г.
  254. Мец, Кейд (6 ноября 2017 г.). «Исследователи искусственного интеллекта покидают лабораторию Илона Маска, чтобы начать стартап в области робототехники» . Нью-Йорк Таймс . Архивировано из оригинала 7 июля 2019 года . Проверено 5 июля 2019 г.
  255. ^ Брэдли Нокс, В.; Стоун, Питер (2008). «Укротитель: обучение агента вручную посредством оценочного подкрепления». 2008 г. 7-я Международная конференция IEEE по развитию и обучению . стр. 292–297. дои : 10.1109/devlrn.2008.4640845. ISBN 978-1-4244-2661-4. S2CID  5613334.
  256. ^ «Поговорите с алгоритмами: ИИ учится быстрее» . Governmentciomedia.com . 16 мая 2018 года. Архивировано из оригинала 28 августа 2018 года . Проверено 29 августа 2018 г. .
  257. Маркус, Гэри (14 января 2018 г.). «В защиту скептицизма по поводу глубокого обучения». Гэри Маркус . Архивировано из оригинала 12 октября 2018 года . Проверено 11 октября 2018 г.
  258. Найт, Уилл (14 марта 2017 г.). «DARPA финансирует проекты, которые попытаются открыть черные ящики ИИ». Обзор технологий Массачусетского технологического института . Архивировано из оригинала 4 ноября 2019 года . Проверено 2 ноября 2017 г.
  259. Маркус, Гэри (25 ноября 2012 г.). «Является ли «глубокое обучение» революцией в искусственном интеллекте?». Житель Нью-Йорка . Архивировано из оригинала 27 ноября 2009 г. Проверено 14 июня 2017 г.
  260. ^ Александр Мордвинцев; Кристофер Ола; Майк Тыка (17 июня 2015 г.). «Инцепционизм: углубляясь в нейронные сети». Блог исследований Google. Архивировано из оригинала 3 июля 2015 года . Проверено 20 июня 2015 г.
  261. Алекс Херн (18 июня 2015 г.). «Да, андроиды мечтают об электрических овцах». Хранитель . Архивировано из оригинала 19 июня 2015 года . Проверено 20 июня 2015 г.
  262. ^ abc Герцель, Бен (2015). «Есть ли глубокие причины, лежащие в основе патологий современных алгоритмов глубокого обучения?» (PDF) . Архивировано (PDF) из оригинала 13 мая 2015 г. Проверено 10 мая 2015 г.
  263. ^ Нгуен, Ань; Йосински, Джейсон; Клюн, Джефф (2014). «Глубокие нейронные сети легко обмануть: прогнозы с высокой достоверностью для неузнаваемых изображений». arXiv : 1412.1897 [cs.CV].
  264. ^ Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергус, Роб (2013). «Интригующие свойства нейронных сетей». arXiv : 1312.6199 [cs.CV].
  265. ^ Чжу, Южная Каролина; Мамфорд, Д. (2006). «Стохастическая грамматика изображений». Найденный. Тенденции Компьютер. Граф. Вис . 2 (4): 259–362. CiteSeerX 10.1.1.681.2190 . дои : 10.1561/0600000018. 
  266. ^ Миллер, Г.А., и Н. Хомский. «Концепция шаблона». Доклад для конференции по обнаружению закономерностей, Мичиганский университет. 1957.
  267. ^ Эйснер, Джейсон. «Глубокое изучение рекурсивной структуры: грамматическая индукция». Архивировано из оригинала 30 декабря 2017 г. Проверено 10 мая 2015 г.
  268. ^ «Хакеры уже начали использовать искусственный интеллект в качестве оружия». Гизмодо . 11 сентября 2017 года. Архивировано из оригинала 11 октября 2019 года . Проверено 11 октября 2019 г.
  269. ^ «Как хакеры могут заставить ИИ совершать глупые ошибки» . Ежедневная точка . 18 июня 2018 года. Архивировано из оригинала 11 октября 2019 года . Проверено 11 октября 2019 г.
  270. ^ abcde «ИИ легко обмануть — почему это нужно изменить». Центр сингулярности . 10 октября 2017 года. Архивировано из оригинала 11 октября 2017 года . Проверено 11 октября 2017 г.
  271. ^ Гибни, Элизабет (2017). «Ученый, который замечает фейковые видео». Природа . дои : 10.1038/nature.2017.22784. Архивировано из оригинала 10 октября 2017 г. Проверено 11 октября 2017 г.
  272. ^ Тубаро, Паола (2020). «Чей интеллект — искусственный интеллект?». Глобальный диалог : 38–39.
  273. ^ abcd Мюльхофф, Райнер (6 ноября 2019 г.). «Искусственный интеллект, управляемый человеком: или как выполнять большие вычисления в человеческом мозге? На пути к медиасоциологии машинного обучения». Новые медиа и общество . 22 (10): 1868–1884. дои : 10.1177/1461444819885334 . ISSN  1461-4448. S2CID  209363848.
  274. ^ «Facebook теперь может найти ваше лицо, даже если оно не отмечено тегами» . Проводной . ISSN  1059-1028. Архивировано из оригинала 10 августа 2019 года . Проверено 22 ноября 2019 г.

дальнейшее чтение