Глубокое обучение

Глубокое обучение — это подмножество методов машинного обучения , основанных на искусственных нейронных сетях (ИНС) с обучением представлений . Прилагательное «глубокий» относится к использованию в сети нескольких уровней. Используемые методы могут быть контролируемыми , полуконтролируемыми или неконтролируемыми . ^[2]

Архитектуры глубокого обучения, такие как глубокие нейронные сети, сети глубоких убеждений , рекуррентные нейронные сети , сверточные нейронные сети и преобразователи , применяются в таких областях, как компьютерное зрение , распознавание речи , обработка естественного языка , машинный перевод , биоинформатика , дизайн лекарств , анализ медицинских изображений. , климатологии , инспекции материалов и программ настольных игр , где они дали результаты, сравнимые, а в некоторых случаях превосходящие результаты человеческих экспертов. ^[3]^[4]^[5]

Искусственные нейронные сети были созданы на основе обработки информации и распределенных узлов связи в биологических системах . ИНС имеют различные отличия от биологического мозга. В частности, искусственные нейронные сети имеют тенденцию быть статичными и символическими, в то время как биологический мозг большинства живых организмов является динамическим (пластичным) и аналоговым. ^[6]^[7] ИНС обычно рассматриваются как низкокачественные модели функций мозга. ^[8]

Определение

Глубокое обучение — это класс алгоритмов машинного обучения , которые ^[9]^{: 199–200} используют несколько слоев для постепенного извлечения функций более высокого уровня из необработанных входных данных. Например, при обработке изображений нижние уровни могут идентифицировать края, а более высокие уровни могут идентифицировать понятия, относящиеся к человеку, такие как цифры, буквы или лица.

С другой стороны, глубокое обучение означает «компьютерное моделирование» или «автоматизацию» процессов обучения человека от источника (например, изображения собак) до изучаемого объекта (собак). Следовательно, понятие «более глубокое» обучение или «самое глубокое» обучение ^[10] имеет смысл. Самое глубокое обучение означает полностью автоматическое обучение от источника до конечного изучаемого объекта. Таким образом, более глубокое обучение относится к смешанному процессу обучения: процесс обучения человека от источника к изученному полуобъекту, за которым следует процесс компьютерного обучения от полуобъекта, изученного человеком, к конечному изученному объекту.

Обзор

Большинство современных моделей глубокого обучения основаны на многослойных искусственных нейронных сетях, таких как сверточные нейронные сети и преобразователи , хотя они также могут включать пропозициональные формулы или скрытые переменные, организованные послойно в глубоких генеративных моделях , таких как узлы в глубоких сетях убеждений и глубоких генеративных моделях. Машины Больцмана . ^[11]

При глубоком обучении каждый уровень учится преобразовывать входные данные в несколько более абстрактное и составное представление. В приложении распознавания изображений необработанные входные данные могут представлять собой матрицу пикселей; первый репрезентативный уровень может абстрагировать пиксели и кодировать края; второй уровень может составлять и кодировать расположение ребер; третий слой может кодировать нос и глаза; и четвертый уровень может распознать, что изображение содержит лицо. Важно отметить, что процесс глубокого обучения может самостоятельно определить, какие функции на каком уровне оптимально разместить . Это не исключает необходимости ручной настройки; например, разное количество слоев и их размеры могут обеспечить разную степень абстракции. ^[12]^[13]

Слово «глубокий» в «глубоком обучении» относится к количеству слоев, посредством которых преобразуются данные. Точнее, системы глубокого обучения имеют значительную глубину пути присвоения кредитов (CAP). CAP — это цепочка преобразований от входа к выходу. CAP описывают потенциально причинно-следственные связи между входом и выходом. Для нейронной сети прямого распространения глубина CAP равна глубине сети и равна количеству скрытых слоев плюс один (поскольку выходной слой также параметризуется). Для рекуррентных нейронных сетей , в которых сигнал может распространяться через слой более одного раза, глубина CAP потенциально не ограничена. ^[14] Не существует общепринятого порога глубины, который разделяет поверхностное обучение и глубокое обучение, но большинство исследователей сходятся во мнении, что глубокое обучение предполагает глубину CAP выше 2. Было показано, что CAP глубины 2 является универсальным аппроксиматором в том смысле, что он может эмулировать любую функцию. ^[15] Кроме того, большее количество слоев не увеличивает возможности аппроксимации функций сети. Глубокие модели (CAP > 2) способны извлекать лучшие функции, чем поверхностные модели, и, следовательно, дополнительные слои помогают эффективно изучать функции.

Архитектуры глубокого обучения могут быть построены жадным послойным методом. ^[16] Глубокое обучение помогает распутать эти абстракции и выбрать, какие функции улучшают производительность. ^[12]

Для задач контролируемого обучения методы глубокого обучения позволяют исключить разработку функций путем перевода данных в компактные промежуточные представления, подобные основным компонентам , и создавать многоуровневые структуры, которые устраняют избыточность в представлении.

Алгоритмы глубокого обучения могут применяться к задачам обучения без присмотра. Это важное преимущество, поскольку немаркированных данных больше, чем маркированных. Примерами глубоких структур, которые можно обучать без присмотра, являются сети глубоких убеждений . ^[12]^[17]

Модели машинного обучения теперь способны выявлять сложные закономерности в данных финансового рынка. Благодаря преимуществам искусственного интеллекта инвесторы все чаще используют методы глубокого обучения для прогнозирования и анализа тенденций на фондовых и валютных рынках. ^[18]

Интерпретации

Глубокие нейронные сети обычно интерпретируются с точки зрения универсальной аппроксимационной теоремы ^[19]^[20]^[21]^[22]^[23] или вероятностного вывода . ^[24]^[9]^[12]^[14]^[25]

Классическая универсальная теорема аппроксимации касается способности нейронных сетей прямого распространения с одним скрытым слоем конечного размера аппроксимировать непрерывные функции . ^[19]^[20]^[21]^{[22] В 1989 году}Джордж Цыбенко опубликовал первое доказательство для сигмовидных функций активации ^[19] , а в 1991 году Курт Хорник обобщил его на многоуровневые архитектуры с прямой связью. ^[20] Недавняя работа также показала, что универсальное приближение справедливо и для неограниченных функций активации, таких как выпрямленная линейная единица Кунихико Фукусимы . ^[26]^[27]

Универсальная аппроксимационная теорема для глубоких нейронных сетей касается пропускной способности сетей с ограниченной шириной, но глубине разрешено расти. Лу и др. ^[23] доказали, что если ширина глубокой нейронной сети с активацией ReLU строго больше входной размерности, то сеть может аппроксимировать любую интегрируемую по Лебегу функцию ; если ширина меньше или равна входному измерению, то глубокая нейронная сеть не является универсальным аппроксиматором.

Вероятностная интерпретация ^[25] происходит из области машинного обучения . Он включает в себя логический вывод, ^[9]^[11]^[12]^[14]^[17]^[25] , а также концепции оптимизации обучения и тестирования , связанные с подгонкой и обобщением соответственно. Более конкретно, вероятностная интерпретация рассматривает нелинейность активации как кумулятивную функцию распределения . ^[25] Вероятностная интерпретация привела к введению отсева в качестве регуляризатора в нейронных сетях. Вероятностная интерпретация была введена такими исследователями, как Хопфилд , Уидроу и Нарендра , и популяризирована в исследованиях, таких как исследование Бишопа . ^[28]

История

Существует два типа искусственных нейронных сетей (ИНС): нейронные сети прямого распространения (FNN) и рекуррентные нейронные сети (RNN). У RNN есть циклы в структуре связности, у FNN их нет. В 1920-х годах Вильгельм Ленц и Эрнст Изинг создали и проанализировали модель Изинга ^[29] , которая по сути представляет собой необучающуюся архитектуру RNN, состоящую из нейроноподобных пороговых элементов. В 1972 году Шуничи Амари сделал эту архитектуру адаптивной. ^[30]^[31] Его обучение RNN было популяризировано Джоном Хопфилдом в 1982 году. ^[32] RNN стали центральными для распознавания речи и языковой обработки .

Чарльз Тапперт пишет, что Фрэнк Розенблатт разработал и исследовал все основные компоненты современных систем глубокого обучения ^[33] , ссылаясь на книгу Розенблатта 1962 года ^[34] , в которой был представлен многослойный перцептрон (MLP) с тремя слоями: входной слой, скрытый слой со рандомизированными весами, которые не обучались, и выходной слой. Он также представил варианты, в том числе версию с четырехслойными перцептронами, где последние два слоя обучаются весам (и, таким образом, это настоящий многослойный перцептрон). ^[34]^{: раздел 16} Кроме того, термин «глубокое обучение» был предложен в 1986 году Риной Дектер ^[35], хотя история его появления, по-видимому, более сложна. ^[36]

Первый общий работающий алгоритм обучения для контролируемых, глубоких, многослойных перцептронов с прямой связью был опубликован Алексеем Ивахненко и Лапа в 1967 году . ^[37] В статье 1971 года описывалась глубокая сеть с восемью слоями, обученная групповым методом обработки данных . ^[38]

Первый многослойный перцептрон глубокого обучения , обученный методом стохастического градиентного спуска ^[39], был опубликован в 1967 году Шуничи Амари . ^[40]^[31] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойная MLP с двумя изменяемыми слоями изучила внутренние представления для классификации нелинейно разделимых классов шаблонов. ^[31] В 1987 году Мэтью Брэнд сообщил, что широкие 12-слойные нелинейные перцептроны могут быть полностью обучены для воспроизведения логических функций нетривиальной глубины схемы посредством градиентного спуска на небольших партиях случайных входных/выходных выборок, но пришел к выводу, что время обучения на современном оборудовании (компьютерах с субмегафлопсной производительностью) этот метод стал непрактичным и предложено использовать фиксированные случайные ранние слои в качестве входного хеша для одного изменяемого слоя. ^[41] Вместо этого последующие разработки в области аппаратного обеспечения и настройки гиперпараметров сделали сквозной стохастический градиентный спуск доминирующим в настоящее время методом обучения.

В 1970 году Сеппо Линнаинмаа опубликовал обратный режим автоматического дифференцирования дискретных связных сетей вложенных дифференцируемых функций. ^[42]^[43]^[44] Это стало известно как обратное распространение ошибки . ^[14] Это эффективное применение цепного правила , выведенного Готфридом Вильгельмом Лейбницем в 1673 году ^[45] к сетям дифференцируемых узлов. ^[31] Терминология «ошибки обратного распространения ошибки» была фактически введена в 1962 году Розенблаттом, ^[34]^[31] но он не знал, как это реализовать, хотя у Генри Дж. Келли уже был непрерывный предшественник обратного распространения ошибки ^[46] в 1960 году в контексте теории управления . ^[31] В 1982 году Пол Вербос применил обратное распространение ошибки к MLP способом, который стал стандартным. ^[47]^[48]^[31] В 1985 году Дэвид Э. Румельхарт и др. опубликовал экспериментальный анализ метода. ^[49]

Архитектуры глубокого обучения для сверточных нейронных сетей (CNN) со сверточными слоями и слоями понижающей дискретизации начались с Неокогнитрона , представленного Кунихико Фукусимой в 1980 году . ^[50] В 1969 году он также представил функцию активации ReLU (выпрямленная линейная единица) . ^[26]^[31] Выпрямитель стал самой популярной функцией активации для CNN и глубокого обучения в целом. ^[51] CNN стали важным инструментом компьютерного зрения .

Термин «глубокое обучение» был представлен сообществу машинного обучения Риной Дектер в 1986 году ^[35] и искусственным нейронным сетям Игорем Айзенбергом и его коллегами в 2000 году в контексте логических пороговых нейронов. ^[52]^[53]

В 1988 году Вэй Чжан и др. применил алгоритм обратного распространения ошибки к сверточной нейронной сети (упрощенный неокогнитрон со сверточными взаимосвязями между слоями признаков изображения и последним полностью связным слоем) для распознавания алфавита. Они также предложили реализацию CNN с оптической вычислительной системой. ^[54]^[55] В 1989 году Янн Лекун и др. применил обратное распространение ошибки к CNN с целью распознавания рукописных почтовых индексов в почте. Пока алгоритм работал, обучение заняло 3 дня. ^[56] Впоследствии Вэй Чжан и др. модифицировали свою модель, удалив последний полностью связанный слой, и применили ее для сегментации объектов медицинских изображений в 1991 году ^[57] и обнаружения рака молочной железы на маммограммах в 1994 году . ^[58] LeNet-5 (1998), 7-уровневая CNN Янна ЛеКуна. и др., ^[59] , который классифицирует цифры, применялся несколькими банками для распознавания рукописных чисел на чеках, оцифрованных в изображениях размером 32x32 пикселя.

В 1980-х годах обратное распространение ошибки не подходило для глубокого обучения с длинными путями присвоения кредитов. Чтобы преодолеть эту проблему, Юрген Шмидхубер (1992) предложил иерархию RNN, предварительно обучаемых по одному уровню за раз посредством самостоятельного обучения . ^[60] Он использует прогнозирующее кодирование для изучения внутренних представлений в нескольких самоорганизующихся временных масштабах. Это может существенно облегчить последующее глубокое обучение. Иерархию RNN можно свернуть в единую RNN путем разделения сети блоков более высокого уровня в сеть автоматизатора более низкого уровня . ^[60]^[31] В 1993 году чанкёр решил задачу глубокого обучения, глубина которой превысила 1000. ^[61]

В 1992 году Юрген Шмидхубер также опубликовал альтернативу RNN ^[62] , которая теперь называется линейным преобразователем или преобразователем с линеаризованным самообслуживанием ^[63]^[64]^[31] (за исключением оператора нормализации). Она изучает внутренние прожекторы внимания : ^[65] медленная нейронная сеть прямого распространения учится путем градиентного спуска управлять быстрыми весами другой нейронной сети через внешние продукты самогенерируемых шаблонов активации ОТ и ДО (которые теперь называются ключом и значением для себя) . -внимание ). ^[63] Это быстрое отображение внимания к весам применяется к шаблону запроса.

Современный Трансформер был представлен Ашишем Васвани и др. в своей статье 2017 года «Внимание — это все, что вам нужно». ^[66] Он сочетает в себе это с оператором softmax и матрицей проекции. ^[31] Трансформаторы все чаще становятся предпочтительной моделью обработки естественного языка . ^[67] Его используют многие современные модели больших языков, такие как ChatGPT , GPT-4 и BERT . Трансформаторы также все чаще используются в компьютерном зрении . ^[68]

В 1991 году Юрген Шмидхубер также опубликовал состязательные нейронные сети, которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети является проигрышем другой сети. ^[69]^[70]^[71] Первая сеть представляет собой генеративную модель , которая моделирует распределение вероятностей по шаблонам выходных данных. Вторая сеть учится с помощью градиентного спуска предсказывать реакцию окружающей среды на эти закономерности. Это называлось «искусственное любопытство». В 2014 году этот принцип был использован в генеративно-состязательной сети (GAN) Яном Гудфеллоу и др. ^[72] Здесь реакция окружающей среды равна 1 или 0 в зависимости от того, находится ли выход первой сети в данном наборе. Это можно использовать для создания реалистичных дипфейков . ^[73] Превосходное качество изображения достигается с помощью StyleGAN (2018) от Nvidia ^[74] на основе Progressive GAN, разработанного Теро Каррасом и др. ^[75] Здесь генератор GAN растет от малого к большому по пирамидальной схеме.

Дипломную работу Зеппа Хохрайтера (1991) ^{[76] его научный руководитель}Шмидхубер назвал «одним из самых важных документов в истории машинного обучения» . ^[31] Он не только протестировал компрессор нейронной истории, ^[60] , но также выявил и проанализировал проблему исчезающего градиента . ^[76]^[77] Хохрайтер предложил рекуррентные остаточные связи для решения этой проблемы. Это привело к появлению метода глубокого обучения под названием « длинная краткосрочная память » (LSTM), опубликованного в 1997 ^году^. произошло тысячи дискретных шагов по времени раньше. «Ванильный LSTM» с затвором забывания был представлен в 1999 году Феликсом Герсом , Шмидхубером и Фредом Камминсом. ^[79] LSTM стала самой цитируемой нейронной сетью 20-го века. ^[31] В 2015 году Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали принципы LSTM для создания сети Highway — нейронной сети прямого распространения с сотнями слоев, гораздо более глубокой, чем предыдущие сети. ^[80]^[81] 7 месяцев спустя Каймин Хэ, Сянъюй Чжан; Шаоцин Рен и Цзянь Сунь выиграли конкурс ImageNet 2015, предложив вариант сети шоссе с открытыми воротами или без ворот под названием Остаточная нейронная сеть . ^[82] Эта нейронная сеть стала самой цитируемой в 21 веке. ^[31]

В 1994 году Андре де Карвальо вместе с Майком Фэйрхерстом и Дэвидом Биссетом опубликовали экспериментальные результаты многослойной логической нейронной сети, также известной как невесомая нейронная сеть, состоящей из трехслойного самоорганизующегося модуля нейронной сети для извлечения признаков ( SOFT), за которым следовал модуль нейронной сети многоуровневой классификации (GSN), которые прошли независимое обучение. Каждый уровень модуля извлечения признаков извлекал признаки с возрастающей сложностью по сравнению с предыдущим слоем. ^[83]

В 1995 году Брендан Фрей продемонстрировал, что можно обучать (в течение двух дней) сеть, содержащую шесть полностью связанных слоев и несколько сотен скрытых блоков, с помощью алгоритма пробуждения-сна , разработанного совместно с Питером Даяном и Хинтоном . ^[84]

С 1997 года Свен Бенке расширил иерархический сверточный подход с прямой связью в пирамиде нейронной абстракции ^[85] за счет латеральных и обратных связей, чтобы гибко включать контекст в решения и итеративно разрешать локальные неоднозначности.

Более простые модели, в которых используются функции, созданные вручную для конкретных задач, такие как фильтры Габора и машины опорных векторов (SVM), были популярным выбором в 1990-х и 2000-х годах из-за вычислительной стоимости искусственных нейронных сетей и отсутствия понимания того, как мозг связывает свои биологические процессы. сети.

Как поверхностное, так и глубокое обучение (например, рекуррентные сети) ИНС для распознавания речи исследуются уже много лет. ^[86]^[87]^[88] Эти методы никогда не превзошли по эффективности неоднородную модель гауссовской смеси с внутренним ручным управлением / технологию скрытой марковской модели (GMM-HMM), основанную на генеративных моделях речи, обученных дискриминативно. ^[89] Были проанализированы ключевые трудности, включая уменьшение градиента ^[76] и слабую структуру временной корреляции в нейронных прогнозирующих моделях. ^[90]^[91] Дополнительные трудности заключались в отсутствии обучающих данных и ограниченной вычислительной мощности. Большинство исследователей распознавания речи отошли от нейронных сетей и занялись генеративным моделированием. Исключением была компания SRI International в конце 1990-х годов. SRI , финансируемый АНБ США и DARPA , изучал глубокие нейронные сети (DNN) в распознавании речи и говорящего . Команда по распознаванию говорящего под руководством Ларри Хека сообщила о значительных успехах использования глубоких нейронных сетей в обработке речи в ходе оценки распознавания говорящих Национального института стандартов и технологий 1998 года. ^[92] Глубокая нейронная сеть SRI была затем развернута в Nuance Verifier, представляя собой первое крупное промышленное применение глубокого обучения. ^[93] Принцип повышения «необработанных» функций по сравнению с оптимизацией, созданной вручную, был впервые успешно исследован в архитектуре глубокого автокодирования на «необработанных» спектрограммах или функциях линейного набора фильтров в конце 1990-х годов, ^[93] показав свое превосходство над Мел -Цепстральные признаки, содержащие стадии фиксированного преобразования из спектрограмм. Необработанные характеристики речи, формы сигналов , позже дали превосходные результаты в более крупном масштабе. ^[94]

Распознавание речи взял на себя LSTM . В 2003 году LSTM начал конкурировать с традиционными распознавателями речи в определенных задачах. ^[95] В 2006 году Алекс Грейвс , Сантьяго Фернандес, Фаустино Гомес и Шмидхубер объединили его с коннекционистской временной классификацией (CTC) ^[96] в стеках LSTM RNN. ^[97] Сообщается, что в 2015 году производительность распознавания речи Google резко выросла на 49% благодаря обученному CTC LSTM, который они сделали доступным через Google Voice Search . ^[98]

По словам Яна Лекуна, влияние глубокого обучения на промышленность началось в начале 2000-х годов, когда CNN уже обрабатывали от 10% до 20% всех чеков, выписанных в США. ^[99] Промышленное применение глубокого обучения для крупномасштабного распознавания речи началось примерно в 2010 году.

В 2006 году публикации Джеффа Хинтона , Руслана Салахутдинова , Осиндеро и Тэ ^[100]^[101]^[102] показали, как многослойную нейронную сеть прямого распространения можно эффективно предварительно обучать по одному слою за раз, обрабатывая каждый слой по очереди как неконтролируемая ограниченная машина Больцмана , а затем ее точная настройка с использованием контролируемого обратного распространения ошибки. ^[103] В статьях говорилось об обучении глубоких сетей убеждений.

Семинар NIPS 2009 года по глубокому обучению для распознавания речи был мотивирован ограничениями глубоких генеративных моделей речи и возможностью того, что при наличии более мощного оборудования и крупномасштабных наборов данных глубокие нейронные сети могут стать практичными. Считалось, что предварительное обучение DNN с использованием генеративных моделей сетей глубокого доверия (DBN) позволит преодолеть основные трудности нейронных сетей. Однако было обнаружено, что замена предварительного обучения большими объемами обучающих данных для прямого обратного распространения ошибки при использовании DNN с большими, контекстно-зависимыми выходными слоями приводит к значительно более низкому уровню ошибок, чем современная на тот момент модель смеси Гаусса (GMM). )/Скрытая марковская модель (HMM), а также более продвинутые системы на основе генеративных моделей. ^[104] Природа ошибок распознавания, производимых двумя типами систем, была характерно разной, ^[105] предлагая техническую информацию о том, как интегрировать глубокое обучение в существующую высокоэффективную систему декодирования речи во время выполнения, используемую всеми основными системами распознавания речи. системы. ^[9]^[106]^[107] Анализ, проведенный в 2009–2010 годах, сравнивающий GMM (и другие модели генеративной речи) с моделями DNN, стимулировал ранние промышленные инвестиции в глубокое обучение для распознавания речи. ^[105] Этот анализ был проведен с сопоставимой производительностью (менее 1,5% по частоте ошибок) между дискриминативными DNN и генеративными моделями. ^[104]^[105]^[108] В 2010 году исследователи расширили глубокое обучение от TIMIT до распознавания речи с большим словарным запасом, приняв большие выходные слои DNN на основе контекстно-зависимых состояний HMM, построенных с помощью деревьев решений . ^[109]^[110]^[111]^[106]

Глубокое обучение является частью современных систем в различных дисциплинах, в частности в компьютерном зрении и автоматическом распознавании речи (ASR). Результаты часто используемых наборов оценок, таких как TIMIT (ASR) и MNIST ( классификация изображений ), а также ряда задач по распознаванию речи с большим словарным запасом, постоянно улучшаются. ^[104]^[112] Сверточные нейронные сети были заменены для ASR на CTC ^[96] для LSTM . ^[78]^[98]^[113]^[114]^[115] , но более успешны в компьютерном зрении.

Достижения в области аппаратного обеспечения возобновили интерес к глубокому обучению. В 2009 году Nvidia участвовала в так называемом «большом взрыве» глубокого обучения, «поскольку нейронные сети глубокого обучения обучались с помощью графических процессоров (GPU) Nvidia». ^[116] В том же году Эндрю Нг определил, что графические процессоры могут увеличить скорость систем глубокого обучения примерно в 100 раз. ^[117] В частности, графические процессоры хорошо подходят для матричных/векторных вычислений, используемых в машинном обучении. ^[118]^[119]^[120] Графические процессоры ускоряют алгоритмы обучения на порядки, сокращая время работы с недель до дней. ^[121]^[122] Кроме того, для эффективной обработки моделей глубокого обучения можно использовать специализированное оборудование и оптимизацию алгоритмов. ^[123]

Революция глубокого обучения

Насколько глубокое обучение является частью машинного обучения и что машинное обучение является частью искусственного интеллекта (ИИ)

В конце 2000-х годов глубокое обучение начало превосходить другие методы в соревнованиях по машинному обучению. В 2009 году длинная кратковременная память , обученная с помощью коннекционистской временной классификации ( Алекс Грейвс , Сантьяго Фернандес, Фаустино Гомес и Юрген Шмидхубер , 2006) ^[96] стала первой RNN, выигравшей конкурсы по распознаванию образов , выиграв три конкурса по связанному распознаванию рукописного ввода . . ^[124]^{[14] Позже} Google использовал LSTM, обученный CTC, для распознавания речи на смартфоне . ^[125]^[98]

Значительное влияние на распознавание изображений или объектов ощущалось в период с 2011 по 2012 год. Хотя CNN, обученные методом обратного распространения ошибки, существовали уже несколько десятилетий, ^[54]^[56] а реализации NN на GPU уже много лет, ^[118] включая CNN, ^[120]^{[14 ] ]} Для прогресса в области компьютерного зрения требовалось более быстрое внедрение CNN на графических процессорах. В 2011 году DanNet ^[126]^[3] Дэна Чиресана, Ули Мейера, Джонатана Маски, Луки Марии Гамбарделлы и Юргена Шмидхубера впервые добился сверхчеловеческих результатов в конкурсе по визуальному распознаванию образов, превзойдя традиционные методы в 3 раза. ^[14] Также в 2011 году DanNet выиграла конкурс китайского почерка ICDAR, а в мае 2012 года — конкурс сегментации изображений ISBI. ^[127] До 2011 года CNN не играли важной роли на конференциях по компьютерному зрению, но в июне 2012 года появилась статья Ciresan et al. на ведущей конференции CVPR ^[3] показал, как максимальное объединение CNN на графическом процессоре может значительно улучшить многие рекорды тестов машинного зрения. В сентябре 2012 года DanNet также выиграла конкурс ICPR по анализу больших медицинских изображений для выявления рака, а в следующем году — MICCAI Grand Challenge по той же теме. ^[128] В октябре 2012 года аналогичный AlexNet , созданный Алексом Крижевским , Ильей Суцкевером и Джеффри Хинтоном ^[4], выиграл крупномасштабное соревнование ImageNet со значительным отрывом от поверхностных методов машинного обучения. Сеть VGG-16 Карена Симоняна и Эндрю Зиссермана ^[129] еще больше снизила частоту ошибок и выиграла конкурс ImageNet 2014, следуя аналогичной тенденции в крупномасштабном распознавании речи.

Затем классификация изображений была расширена до более сложной задачи создания описаний (подписей) для изображений, часто в виде комбинации CNN и LSTM. ^[130]^[131]^[132]

В 2012 году команда под руководством Джорджа Э. Даля выиграла конкурс Merck Molecular Activity Challenge, используя многозадачные глубокие нейронные сети для прогнозирования биомолекулярной мишени одного лекарства. ^[133]^[134] В 2014 году группа Зеппа Хохрейтера использовала глубокое обучение для обнаружения нецелевого и токсического воздействия химических веществ из окружающей среды в питательных веществах, предметах домашнего обихода и лекарствах и выиграла «Tox21 Data Challenge» от NIH , FDA и NCATS . ^[135]^[136]^[137]

В 2016 году Роджер Парлофф упомянул «революцию глубокого обучения», которая изменила индустрию искусственного интеллекта. ^[138]

В марте 2019 года Йошуа Бенджио , Джеффри Хинтон и Ян ЛеКун были награждены Премией Тьюринга за концептуальные и инженерные прорывы, которые сделали глубокие нейронные сети важнейшим компонентом вычислений.

Нейронные сети

Искусственные нейронные сети ( ИНС ) или коннекционистские системы — это вычислительные системы, вдохновленные биологическими нейронными сетями , которые составляют мозг животных. Такие системы учатся (постепенно совершенствуют свои способности) выполнять задачи, рассматривая примеры, как правило, без программирования для конкретных задач. Например, при распознавании изображений они могут научиться распознавать изображения, на которых есть кошки, анализируя примеры изображений, которые были вручную помечены как «кошка» или «нет кошки», и используя результаты анализа для идентификации кошек на других изображениях. Они нашли наибольшее применение в приложениях, которые трудно выразить с помощью традиционного компьютерного алгоритма с использованием программирования на основе правил .

ИНС основана на наборе связанных единиц, называемых искусственными нейронами (аналог биологических нейронов в биологическом мозге ). Каждое соединение ( синапс ) между нейронами может передавать сигнал другому нейрону. Принимающий (постсинаптический) нейрон может обрабатывать сигнал(ы), а затем сигнализировать нижестоящим нейронам, подключенным к нему. Нейроны могут иметь состояние, обычно представленное действительными числами , обычно от 0 до 1. Нейроны и синапсы также могут иметь вес, который меняется по мере обучения, что может увеличивать или уменьшать силу сигнала, который они посылают вниз по течению.

Обычно нейроны организованы слоями. Разные слои могут выполнять разные виды преобразований на своих входах. Сигналы перемещаются от первого (входного) к последнему (выходному) слою, возможно, после многократного прохождения слоев.

Первоначальная цель нейросетевого подхода заключалась в том, чтобы решать проблемы так же, как это делает человеческий мозг. Со временем внимание сосредоточилось на сопоставлении конкретных умственных способностей, что привело к отклонениям от биологии, таким как обратное распространение ошибки или передача информации в обратном направлении и настройка сети для отражения этой информации.

Нейронные сети использовались для решения различных задач, включая компьютерное зрение, распознавание речи , машинный перевод , фильтрацию социальных сетей , настольные и видеоигры , а также медицинскую диагностику.

По состоянию на 2017 год нейронные сети обычно насчитывают от нескольких тысяч до нескольких миллионов единиц и миллионов соединений. Несмотря на то, что это число на несколько порядков меньше количества нейронов в человеческом мозге, эти сети могут выполнять многие задачи на уровне, превосходящем человеческий (например, распознавание лиц или игра в «го» [ ^140] ).

Глубокие нейронные сети

Глубокая нейронная сеть (DNN) — это искусственная нейронная сеть с несколькими слоями между входным и выходным слоями. ^[11]^[14] Существуют разные типы нейронных сетей, но они всегда состоят из одних и тех же компонентов: нейронов, синапсов, весов, смещений и функций. ^[141] Эти компоненты в целом функционируют таким образом, что имитируют функции человеческого мозга, и их можно обучать, как и любой другой алгоритм МО. ^{[ нужна цитата ]}

Например, DNN, обученная распознавать породы собак, просматривает данное изображение и рассчитывает вероятность того, что собака на изображении принадлежит к определенной породе. Пользователь может просмотреть результаты и выбрать, какие вероятности должна отображать сеть (выше определенного порога и т. д.), а также вернуть предложенную метку. Каждая математическая манипуляция как таковая считается слоем, ^{а сложные DNN} имеют много слоев, отсюда и название «глубокие» сети.

DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, в которых объект выражается как многоуровневая композиция примитивов . ^[142] Дополнительные уровни позволяют комбинировать объекты из нижних слоев, потенциально моделируя сложные данные с меньшим количеством единиц, чем в мелкой сети с аналогичной производительностью. ^[11] Например, было доказано, что разреженные многомерные полиномы экспоненциально легче аппроксимировать с помощью DNN, чем с помощью мелких сетей. ^[143]

Глубокие архитектуры включают множество вариантов нескольких базовых подходов. Каждая архитектура нашла успех в определенных областях. Не всегда возможно сравнить производительность нескольких архитектур, если только они не оценивались на одних и тех же наборах данных.

DNN обычно представляют собой сети прямой связи, в которых данные передаются от входного уровня к выходному без обратного цикла. Сначала DNN создает карту виртуальных нейронов и присваивает случайные числовые значения или «веса» связям между ними. Веса и входные данные умножаются и возвращают выходные данные в диапазоне от 0 до 1. Если сеть не распознала точно определенный шаблон, алгоритм скорректирует веса. ^[144] Таким образом, алгоритм может сделать определенные параметры более влиятельными, пока не определит правильные математические манипуляции для полной обработки данных.

Рекуррентные нейронные сети , в которых данные могут передаваться в любом направлении, используются для таких приложений, как языковое моделирование . ^[145]^[146]^[147]^[148]^[149] Длительная кратковременная память особенно эффективна для этого использования. ^[78]^[150]

Сверточные нейронные сети (CNN) используются в компьютерном зрении. ^[151] CNN также применялись для акустического моделирования автоматического распознавания речи (ASR). ^[152]

Проблемы

Как и в случае с ИНС, с наивно обученными DNN может возникнуть множество проблем. Двумя распространенными проблемами являются переобучение и время вычислений.

DNN склонны к переоснащению из-за дополнительных уровней абстракции, которые позволяют им моделировать редкие зависимости в обучающих данных. Методы регуляризации , такие как сокращение единиц Ивахненко ^[38] или затухание веса ( -регуляризация) или разреженность ( -регуляризация), могут применяться во время обучения для борьбы с переобучением. ^[153] Альтернативно, регуляризация отсева случайным образом исключает единицы из скрытых слоев во время обучения. Это помогает исключить редкие зависимости. ^[154] Наконец, данные можно дополнять с помощью таких методов, как обрезка и ротация, так что меньшие обучающие наборы можно увеличить в размере, чтобы уменьшить вероятность переобучения. ^[155] $\ell _{2}$ $\ell _{1}$

DNN должны учитывать множество параметров обучения, таких как размер (количество слоев и количество единиц на слой), скорость обучения и начальные веса. Просмотр пространства параметров для поиска оптимальных параметров может оказаться невозможным из-за затрат времени и вычислительных ресурсов. Различные приемы, такие как пакетная обработка (вычисление градиента сразу на нескольких обучающих примерах, а не на отдельных примерах) ^[156], ускоряют вычисления. Большие вычислительные возможности многоядерных архитектур (таких как графические процессоры или Intel Xeon Phi) позволили значительно ускорить обучение благодаря пригодности таких архитектур обработки для матричных и векторных вычислений. ^[157]^[158]

В качестве альтернативы инженеры могут искать другие типы нейронных сетей с более простыми и конвергентными алгоритмами обучения. CMAC ( контроллер артикуляции модели мозжечка ) — один из таких типов нейронной сети. Он не требует скорости обучения или рандомизированных начальных весов. Можно гарантировать, что процесс обучения сходится за один шаг с новым пакетом данных, а вычислительная сложность алгоритма обучения линейна в зависимости от количества задействованных нейронов. ^[159]^[160]

Аппаратное обеспечение

С 2010-х годов достижения как в алгоритмах машинного обучения, так и в компьютерном оборудовании привели к появлению более эффективных методов обучения глубоких нейронных сетей, которые содержат множество слоев нелинейных скрытых модулей и очень большой выходной слой. ^[161] К 2019 году графические процессоры ( GPU ), часто с улучшениями, специфичными для искусственного интеллекта, вытеснили центральные процессоры в качестве доминирующего метода обучения крупномасштабного коммерческого облачного искусственного интеллекта. ^[162] OpenAI оценила аппаратные вычисления, используемые в крупнейших проектах глубокого обучения, от AlexNet (2012) до AlphaZero (2017), и обнаружила 300 000-кратное увеличение объема необходимых вычислений с линией тренда удвоения, равной 3,4 месяца. ^[163]^[164]

Специальные электронные схемы , называемые процессорами глубокого обучения, были разработаны для ускорения алгоритмов глубокого обучения. Процессоры глубокого обучения включают нейронные процессоры (NPU) в мобильных телефонах Huawei ^[165] и серверы облачных вычислений , такие как тензорные процессоры (TPU) в Google Cloud Platform . ^[166] Компания Cerebras Systems также создала специальную систему для работы с большими моделями глубокого обучения, CS-2, на базе крупнейшего процессора в отрасли — Wafer Scale Engine второго поколения (WSE-2). ^[167]^[168]

Атомно тонкие полупроводники считаются перспективными для создания энергоэффективного оборудования глубокого обучения, где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки устройств и схем логики в памяти на основе полевых транзисторов с плавающим затвором (FGFET). ^[169]

В 2021 г. Дж. Фельдманн и др. предложил интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. ^[170] Авторы выделяют два ключевых преимущества интегрированной фотоники перед ее электронными аналогами: (1) массово параллельная передача данных посредством мультиплексирования с разделением по длине волны в сочетании с частотными гребенками и (2) чрезвычайно высокая скорость модуляции данных. ^[170] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях искусственного интеллекта с большими объемами данных. ^[170]

Приложения

Автоматическое распознавание речи

Масштабное автоматическое распознавание речи — первый и наиболее убедительный успешный случай глубокого обучения. LSTM RNN могут изучать задачи «очень глубокого обучения» ^[14] , которые включают многосекундные интервалы, содержащие речевые события, разделенные тысячами дискретных временных шагов, где один временной шаг соответствует примерно 10 мс. LSTM с воротами забывания ^[150] конкурирует с традиционными распознавателями речи в определенных задачах. ^[95]

Первоначальный успех в распознавании речи был основан на небольших задачах распознавания на основе TIMIT. Набор данных содержит 630 носителей восьми основных диалектов американского английского , где каждый говорящий читает 10 предложений. ^[171] Его небольшой размер позволяет опробовать множество конфигураций. Что еще более важно, задача TIMIT касается распознавания телефонных последовательностей, которое, в отличие от распознавания последовательностей слов, позволяет создавать слабые языковые модели телефонных биграмм . Это позволяет легче анализировать сильные стороны акустического моделирования распознавания речи. Перечисленные ниже коэффициенты ошибок, включая эти ранние результаты и измеренные в процентах коэффициента ошибок телефона (PER), суммируются с 1991 года.

Дебют DNN для распознавания говорящего в конце 1990-х годов, распознавания речи примерно в 2009–2011 годах и LSTM примерно в 2003–2007 годах ускорил прогресс в восьми основных областях: ^[9]^[108]^[106]

Масштабирование и ускорение обучения и декодирования DNN
Последовательное дискриминационное обучение
Обработка признаков с помощью глубоких моделей с глубоким пониманием основных механизмов
Адаптация DNN и связанных с ними глубоких моделей
Многозадачное и трансферное обучение с помощью DNN и связанных с ними глубоких моделей
CNN и как их спроектировать, чтобы наилучшим образом использовать знания предметной области речи
RNN и его богатые варианты LSTM
Другие типы глубоких моделей, включая тензорные модели и интегрированные глубокие генеративные/дискриминационные модели.

Все основные коммерческие системы распознавания речи (например, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , Baidu и голосовой поиск iFlyTek , а также ряд речевых продуктов Nuance и т. д.) основаны на глубоком обучении. ^[9]^[176]^[177]

Распознавание изображений

Обычным набором оценок для классификации изображений является набор данных базы данных MNIST . MNIST состоит из рукописных цифр и включает 60 000 обучающих примеров и 10 000 тестовых примеров. Как и в случае с TIMIT, его небольшой размер позволяет пользователям тестировать несколько конфигураций. Доступен полный список результатов по этому набору. ^[178]

Распознавание изображений на основе глубокого обучения стало «сверхчеловеческим», давая более точные результаты, чем участники-люди. Впервые это произошло в 2011 году при распознавании дорожных знаков, а в 2014 году — при распознавании человеческих лиц. ^[179]^[180]

Транспортные средства, обученные глубокому обучению, теперь интерпретируют изображения с камер на 360°. ^[181] Другим примером является новый анализ лицевой дисморфологии (FDNA), используемый для анализа случаев пороков развития человека, связанных с большой базой данных генетических синдромов.

Обработка визуального искусства

С прогрессом, достигнутым в распознавании изображений, тесно связано все более широкое применение методов глубокого обучения для различных задач визуального искусства. DNN доказали свою способность, например,

определение стилевого периода данной картины ^[182]^[183]
Нейронная передача стиля – улавливание стиля данного произведения искусства и применение его визуально приятным образом к произвольной фотографии или видео ^[182]^[183]
создание ярких изображений на основе случайных полей визуального ввода. ^[182]^[183]

Обработка естественного языка

Нейронные сети используются для реализации языковых моделей с начала 2000-х годов. ^[145] LSTM помог улучшить машинный перевод и языковое моделирование. ^[146]^[147]^[148]

Другими ключевыми методами в этой области являются отрицательная выборка ^[184] и встраивание слов . Встраивание слов, такое как word2vec , можно рассматривать как репрезентативный уровень в архитектуре глубокого обучения, который преобразует атомарное слово в позиционное представление слова относительно других слов в наборе данных; положение представлено как точка в векторном пространстве . Использование встраивания слов в качестве входного слоя RNN позволяет сети анализировать предложения и фразы, используя эффективную композиционную векторную грамматику. Композиционную векторную грамматику можно рассматривать как вероятностную контекстно-свободную грамматику (PCFG), реализуемую RNN. ^[185] Рекурсивные автокодировщики, построенные на основе встраивания слов, могут оценивать сходство предложений и обнаруживать перефразирование. ^[185] Глубокие нейронные архитектуры обеспечивают наилучшие результаты для анализа аудитории , ^[186] анализа настроений , ^[187] поиска информации, ^[188]^[189] понимания разговорной речи, ^[190] машинного перевода, ^[146]^[191] контекстных объектов связывание, ^[191] распознавание стиля письма, ^[192] распознавание именованных объектов (классификация токенов), ^[193] классификация текста и другие. ^[194]

Недавние разработки обобщают встраивание слов в встраивание предложений .

Google Translate (GT) использует большую сквозную сеть с длинной краткосрочной памятью (LSTM). ^[195]^[196]^[197]^[198] Нейронный машинный перевод Google (GNMT) использует метод машинного перевода на основе примеров, при котором система «обучается на миллионах примеров». ^[196] Он переводит «целые предложения за раз, а не по частям». Google Translate поддерживает более ста языков. ^[196] Сеть кодирует «семантику предложения, а не просто запоминает пофазный перевод». ^[196]^[199] GT использует английский как промежуточное звено между большинством языковых пар. ^[199]

Открытие лекарств и токсикология

Большой процент потенциальных лекарств не получает одобрения регулирующих органов. Эти неудачи вызваны недостаточной эффективностью (нецелевой эффект), нежелательными взаимодействиями (нецелевые эффекты) или непредвиденными токсическими эффектами . ^[200]^[201] В исследованиях изучалось использование глубокого обучения для прогнозирования биомолекулярных целей , ^[133]^[134] отклонений от целей и токсических эффектов химических веществ из окружающей среды в питательных веществах, предметах домашнего обихода и лекарствах. ^[135]^[136]^[137]

AtomNet — это система глубокого обучения для рационального проектирования лекарств на основе структуры . ^[202] AtomNet использовался для прогнозирования новых биомолекул-кандидатов в качестве мишеней для таких заболеваний, как вирус Эбола ^[203] и рассеянный склероз . ^[204]^[203]

В 2017 году графовые нейронные сети были впервые использованы для прогнозирования различных свойств молекул в большом наборе токсикологических данных. ^[205] В 2019 году генеративные нейронные сети были использованы для производства молекул, которые были проверены экспериментально на мышах. ^[206]^[207]

Управление взаимоотношениями с клиентами

Глубокое обучение с подкреплением использовалось для приблизительного определения ценности возможных действий прямого маркетинга , определенной с точки зрения переменных RFM . Было показано, что функция оценочной стоимости имеет естественную интерпретацию как пожизненная ценность клиента . ^[208]

Биоинформатика

Автоэнкодер ANN использовался в биоинформатике для прогнозирования аннотаций онтологии генов и отношений ген-функция. ^[212]

В медицинской информатике глубокое обучение использовалось для прогнозирования качества сна на основе данных носимых устройств ^[213] и прогнозирования осложнений со здоровьем на основе данных электронных медицинских карт . ^[214]

Оценки глубокой нейронной сети

Глубокие нейронные сети могут использоваться для оценки энтропии случайного процесса и называются оценщиком энтропии нейронных соединений (NJEE). ^[215] Такая оценка дает представление о влиянии входных случайных величин на независимую случайную величину . На практике DNN обучается как классификатор , который сопоставляет входной вектор или матрицу X с выходным распределением вероятностей по возможным классам случайной величины Y при заданных входных данных X. Например, в задачах классификации изображений NJEE отображает вектор пикселей ' значения цвета для вероятностей возможных классов изображений. На практике распределение вероятностей Y получается с помощью слоя Softmax с количеством узлов, равным размеру алфавита Y. NJEE использует непрерывно дифференцируемые функции активации , так что выполняются условия универсальной теоремы аппроксимации . Показано, что этот метод обеспечивает строго согласованную оценку и превосходит другие методы в случае больших размеров алфавита. ^[215]

Анализ медицинских изображений

Было показано, что глубокое обучение дает конкурентоспособные результаты в медицинских приложениях, таких как классификация раковых клеток, обнаружение повреждений, сегментация органов и улучшение изображений. ^[216]^[217] Современные инструменты глубокого обучения демонстрируют высокую точность выявления различных заболеваний и полезность их использования специалистами для повышения эффективности диагностики. ^[218]^[219]

Мобильная реклама

Найти подходящую мобильную аудиторию для мобильной рекламы всегда непросто, поскольку необходимо учитывать и анализировать множество точек данных, прежде чем целевой сегмент можно будет создать и использовать при показе рекламы любым рекламным сервером. ^[220] Глубокое обучение использовалось для интерпретации больших и многомерных наборов рекламных данных. Многие данные собираются во время цикла интернет-рекламы «запрос/обслуживание/нажатие». Эта информация может лечь в основу машинного обучения для улучшения выбора рекламы.

Восстановление изображения

Глубокое обучение успешно применяется для решения обратных задач, таких как шумоподавление , суперразрешение , рисование и раскрашивание пленки . ^[221] Эти приложения включают в себя такие методы обучения, как «Поля усадки для эффективного восстановления изображений» ^[222] , которые обучаются на наборе данных изображения, и Deep Image Prior , который обучается на изображении, которое требует восстановления.

Обнаружение финансового мошенничества

Глубокое обучение успешно применяется для обнаружения финансового мошенничества , уклонения от уплаты налогов ^[223] и борьбы с отмыванием денег. ^[224]

Материаловедение

В ноябре 2023 года исследователи из Google DeepMind и Национальной лаборатории Лоуренса Беркли объявили, что разработали систему искусственного интеллекта, известную как GNoME. Эта система внесла вклад в материаловедение , открыв более 2 миллионов новых материалов за относительно короткий период времени. GNoME использует методы глубокого обучения для эффективного исследования потенциальных структур материалов, достигая значительного улучшения идентификации стабильных неорганических кристаллических структур . Предсказания системы были подтверждены в ходе автономных роботизированных экспериментов, продемонстрировавших примечательный уровень успеха — 71%. Данные о вновь обнаруженных материалах общедоступны через базу данных Materials Project , что дает исследователям возможность идентифицировать материалы с желаемыми свойствами для различных применений. Это развитие имеет последствия для будущего научных открытий и интеграции ИИ в исследования в области материаловедения, потенциально ускоряя инновации в материалах и снижая затраты на разработку продуктов. Использование искусственного интеллекта и глубокого обучения предполагает возможность свести к минимуму или исключить ручные лабораторные эксперименты и позволить ученым больше сосредоточиться на разработке и анализе уникальных соединений. ^[225]^[226]^[227]

Военный

Министерство обороны США применило глубокое обучение для обучения роботов новым задачам посредством наблюдения. ^[228]

Уравнения в частных производных

Нейронные сети, основанные на физике, использовались для решения уравнений в частных производных как в прямых, так и в обратных задачах на основе данных. ^[229] Одним из примеров является реконструкция потока жидкости, управляемая уравнениями Навье-Стокса . Использование нейронных сетей, основанных на физике, не требует часто дорогостоящего создания сетки, на котором полагаются традиционные методы CFD . ^[230]^[231]

Реконструкция изображения

Реконструкция изображения — это реконструкция основных изображений на основе измерений, связанных с изображением. Несколько работ показали лучшую и превосходящую производительность методов глубокого обучения по сравнению с аналитическими методами для различных приложений, например, спектральной визуализации ^[232] и ультразвуковой визуализации. ^[233]

Эпигенетические часы

Эпигенетические часы — это биохимический тест , который можно использовать для измерения возраста. Галкин и др. использовали глубокие нейронные сети для обучения эпигенетических часов старения с беспрецедентной точностью, используя более 6000 образцов крови. ^[234] Часы используют информацию из 1000 сайтов CpG и прогнозируют людей с определенными заболеваниями старше, чем здоровый контроль: воспалительное заболевание кишечника , лобно-височная деменция , рак яичников , ожирение . Часы старения планировалось выпустить для публичного использования в 2021 году дочерней компанией Insilico Medicine Deep Longevity.

Связь с когнитивными способностями и развитием мозга человека

Глубокое обучение тесно связано с классом теорий развития мозга (в частности, развития неокортекса), предложенных когнитивными нейробиологами в начале 1990-х годов. ^[235]^[236]^[237]^[238] Эти теории развития были воплощены в вычислительных моделях, что сделало их предшественниками систем глубокого обучения. Эти модели развития обладают тем общим свойством, что различные предполагаемые динамики обучения в мозге (например, волна фактора роста нервов ) поддерживают самоорганизацию, в некоторой степени аналогичную нейронным сетям, используемым в моделях глубокого обучения. Как и неокортекс , нейронные сети используют иерархию многоуровневых фильтров, в которой каждый уровень рассматривает информацию из предыдущего уровня (или операционной среды), а затем передает ее выходные данные (и, возможно, исходные входные данные) на другие уровни. В результате этого процесса получается самоорганизующийся набор датчиков , хорошо настроенный к рабочей среде. В описании 1995 года говорилось: «...мозг младенца, по-видимому, самоорганизуется под влиянием волн так называемых трофических факторов... различные области мозга соединяются последовательно, при этом один слой ткани созревает раньше другого и так до тех пор, пока весь мозг не созреет». ^[239]

Для исследования правдоподобности моделей глубокого обучения с нейробиологической точки зрения использовались различные подходы. С одной стороны, было предложено несколько вариантов алгоритма обратного распространения ошибки с целью повышения реалистичности его обработки. ^[240]^[241] Другие исследователи утверждают, что неконтролируемые формы глубокого обучения, например, основанные на иерархических генеративных моделях и сетях глубоких убеждений , могут быть ближе к биологической реальности. ^[242]^[243] В этом отношении модели генеративных нейронных сетей связаны с нейробиологическими данными об обработке данных на основе выборки в коре головного мозга. ^[244]

Хотя систематическое сравнение между организацией человеческого мозга и кодированием нейронов в глубоких сетях еще не проведено, сообщалось о нескольких аналогиях. Например, вычисления, выполняемые модулями глубокого обучения, могут быть аналогичны вычислениям реальных нейронов ^[245] и нейронных популяций. ^[246] Точно так же представления, разработанные с помощью моделей глубокого обучения, аналогичны тем, которые измерены в зрительной системе приматов ^[247] как на уровне отдельной единицы ^[248] , так и на уровне популяции ^[249] .

Коммерческая деятельность

Лаборатория искусственного интеллекта Facebook выполняет такие задачи, как автоматическая пометка загруженных изображений именами людей на них. ^[250]

Компания DeepMind Technologies компании Google разработала систему, способную научиться играть в видеоигры Atari , используя в качестве входных данных только пиксели. В 2015 году они продемонстрировали свою систему AlphaGo , которая достаточно хорошо изучила игру в го , чтобы победить профессионального игрока в го. ^[251]^[252]^[253] Google Translate использует нейронную сеть для перевода между более чем 100 языками.

В 2017 году был запущен Covariant.ai, целью которого является интеграция глубокого обучения в фабрики. ^[254]

В 2008 году ^[255] исследователи из Техасского университета в Остине (Юта) разработали систему машинного обучения под названием «Обучение агента вручную с помощью оценочного подкрепления» или TAMER, которая предлагала роботам или компьютерным программам новые методы обучения выполнению задач. путем взаимодействия с человеком-инструктором. ^[228] Новый алгоритм под названием Deep TAMER, впервые разработанный как TAMER, был позже представлен в 2018 году в ходе сотрудничества между Исследовательской лабораторией армии США (ARL) и исследователями UT. Deep TAMER использовал глубокое обучение, чтобы предоставить роботу возможность изучать новые задачи посредством наблюдения. ^[228] С помощью Deep TAMER робот обучался заданию вместе с тренером-человеком, просматривая видеопотоки или наблюдая, как человек выполняет задание лично. Позже робот попрактиковался в выполнении задания под руководством тренера, который давал такие отзывы, как «хорошая работа» и «плохая работа». ^[256]

Критика и комментарии

Глубокое обучение вызвало как критику, так и комментарии, в некоторых случаях за пределами области информатики.

Теория

Основная критика касается отсутствия теории вокруг некоторых методов. ^[257] Обучение в наиболее распространенных глубоких архитектурах реализуется с использованием хорошо понятного градиентного спуска. Однако теория других алгоритмов, таких как контрастивная дивергенция, менее ясна. ^{[ нужна цитата ]} (например, сходится ли он? Если да, то как быстро? Что он аппроксимирует?) Методы глубокого обучения часто рассматриваются как черный ящик , причем большинство подтверждений делается эмпирически, а не теоретически. ^[258]

Другие отмечают, что глубокое обучение следует рассматривать как шаг к созданию сильного ИИ , а не как всеобъемлющее решение. Несмотря на мощь методов глубокого обучения, им все еще не хватает функциональности, необходимой для полной реализации этой цели. Психолог-исследователь Гэри Маркус отметил:

На самом деле глубокое обучение — это лишь часть более масштабной задачи создания интеллектуальных машин. В таких методах отсутствуют способы представления причинно-следственных связей (...), нет очевидных способов выполнения логических выводов , а также они еще далеки от интеграции абстрактных знаний, таких как информация о том, что представляют собой объекты, для чего они предназначены и как они обычно используются. Самые мощные системы искусственного интеллекта, такие как Watson (...), используют такие методы, как глубокое обучение, как всего лишь один элемент в очень сложном ансамбле методов, начиная от статистического метода байесовского вывода и заканчивая дедуктивным рассуждением . ^[259]

В качестве дополнительной ссылки на идею о том, что художественная чувствительность может быть присуща относительно низким уровням когнитивной иерархии, опубликована серия графических представлений внутренних состояний глубоких (20-30 слоев) нейронных сетей, пытающихся различить среди по существу случайных данных изображения. на котором они обучались ^[260], демонстрируют визуальную привлекательность: оригинальное сообщение об исследовании получило более 1000 комментариев и стало темой статьи, которая какое-то время была наиболее часто посещаемой статьей на веб-сайте The Guardian [ ^261] .

Ошибки

Некоторые архитектуры глубокого обучения демонстрируют проблемное поведение, ^[262] например, уверенную классификацию неузнаваемых изображений как принадлежащих к знакомой категории обычных изображений (2014) ^[263] и неверную классификацию незначительных отклонений правильно классифицированных изображений (2013). ^[264] Герцель предположил, что такое поведение обусловлено ограничениями в их внутренних представлениях и что эти ограничения будут препятствовать интеграции в гетерогенные многокомпонентные архитектуры общего искусственного интеллекта (AGI). ^[262] Эти проблемы, возможно, могут быть решены с помощью архитектур глубокого обучения, которые внутренне формируют состояния, гомологичные декомпозиции изображений и грамматик ^[265] наблюдаемых сущностей и событий. ^[262] Изучение грамматики (визуальной или лингвистической) на основе обучающих данных было бы эквивалентно ограничению системы рассуждениями здравого смысла , которые оперируют понятиями с точки зрения грамматических правил производства и являются основной целью как овладения человеческим языком ^[266] , так и искусственного интеллекта. (АИ). ^[267]

Киберугроза

По мере того как глубокое обучение выходит из лабораторий в мир, исследования и опыт показывают, что искусственные нейронные сети уязвимы для хакерских атак и обмана. ^[268] Выявив закономерности, которые эти системы используют для функционирования, злоумышленники могут изменить входные данные ИНС таким образом, что ИНС найдет совпадение, которое люди-наблюдатели не распознают. Например, злоумышленник может внести незначительные изменения в изображение так, что ИНС найдет совпадение, даже если для человека изображение выглядит совсем не так, как цель поиска. Такая манипуляция называется «состязательной атакой». ^[269]

В 2016 году исследователи использовали одну ИНС для обработки изображений методом проб и ошибок, определения фокусных точек другого и, таким образом, создания изображений, которые обманывали его. Модифицированные изображения ничем не отличались от человеческих глаз. Другая группа показала, что распечатки сфальсифицированных изображений, которые затем были сфотографированы, успешно обманули систему классификации изображений. ^[270] Одним из способов защиты является обратный поиск изображений, при котором возможное поддельное изображение отправляется на такой сайт, как TinEye , который затем может найти другие его экземпляры. Уточнение состоит в том, чтобы искать, используя только части изображения, чтобы идентифицировать изображения, из которых эта часть могла быть взята . ^[271]

Другая группа показала, что некоторые психоделические зрелища могут обмануть систему распознавания лиц , заставив ее думать, что обычные люди — знаменитости, потенциально позволяя одному человеку выдавать себя за другого. В 2017 году исследователи добавили наклейки на знаки остановки , из-за чего ANN неправильно их классифицировала. ^[270]

Однако ИНС можно дополнительно обучить обнаруживать попытки обмана , что потенциально может привести злоумышленников и защитников к гонке вооружений, подобной той, которая уже определяет индустрию защиты от вредоносного ПО . ИНС были обучены побеждать антивирусное программное обеспечение на основе ИНС , неоднократно атакуя защиту с помощью вредоносного ПО, которое постоянно изменялось генетическим алгоритмом, пока оно не обмануло антивирусное ПО, сохраняя при этом свою способность наносить ущерб цели. ^[270]

В 2016 году другая группа продемонстрировала, что определенные звуки могут заставить систему голосовых команд Google Now открыть определенный веб-адрес, и предположила, что это может «послужить трамплином для дальнейших атак (например, открытие веб-страницы, на которой размещено вредоносное ПО). ". ^[270]

При « отравлении данных » ложные данные постоянно вводятся в обучающий набор системы машинного обучения, чтобы помешать ей достичь мастерства. ^[270]

Этика сбора данных

Большинство систем глубокого обучения полагаются на данные обучения и проверки, которые генерируются и/или аннотируются людьми. ^{[272] В}философии СМИ утверждается , что для этой цели регулярно используется не только низкооплачиваемая работа с кликами (например, на Amazon Mechanical Turk ), но и неявные формы человеческой микроработы , которые часто не признаются как таковые. ^[273] Философ Райнер Мюльхофф выделяет пять типов «машинного захвата» микроработы человека для генерации обучающих данных: (1) геймификация (встраивание аннотаций или вычислительных задач в ход игры), (2) «перехват и отслеживание». (например, CAPTCHA для распознавания изображений или отслеживания кликов на страницах результатов поиска Google ), (3) использование социальных мотивов (например, пометка лиц на Facebook для получения маркированных изображений лиц), (4) интеллектуальный анализ информации (например, путем использования количественной самооценки). устройства, такие как трекеры активности ) и (5) Clickwork . ^[273]

Мюльхофф утверждает, что в большинстве коммерческих приложений глубокого обучения для конечных пользователей, таких как система распознавания лиц Facebook , потребность в обучающих данных не прекращается после обучения ИНС. Скорее, существует постоянный спрос на данные проверки, созданные человеком, для постоянной калибровки и обновления ИНС. С этой целью Facebook представил функцию: как только пользователь автоматически распознается на изображении, он получает уведомление. Они могут выбрать, хотят ли они, чтобы их публично отмечали на изображении, или сказать Facebook, что на изображении не они. ^[274] Этот пользовательский интерфейс представляет собой механизм генерации «постоянного потока проверочных данных» ^[273] для дальнейшего обучения сети в режиме реального времени. Как утверждает Мюльхофф, участие пользователей-людей для создания данных обучения и проверки настолько типично для большинства коммерческих приложений глубокого обучения для конечных пользователей, что такие системы можно назвать «искусственным интеллектом, управляемым человеком». ^[273]

Смотрите также

дальнейшее чтение

Гудфеллоу, Ян ; Бенджио, Йошуа ; Курвиль, Аарон (2016). Глубокое обучение. МТИ Пресс. ISBN 978-0-26203561-3. Архивировано из оригинала 16 апреля 2016 г. Проверено 9 мая 2021 г. , вводный учебник.{{cite book}}: CS1 maint: postscript (link)