Юрген Шмидхубер (родился 17 января 1963 года) [1] — немецкий ученый-компьютерщик , известный своими работами в области искусственного интеллекта , в частности искусственных нейронных сетей . Он является научным директором Института исследований искусственного интеллекта Далле Молле в Швейцарии . [2] Он также является директором Инициативы по искусственному интеллекту и профессором программы компьютерных наук в отделе компьютерных, электрических, математических наук и инженерии (CEMSE) Университета науки и технологий имени короля Абдаллы (KAUST) в Саудовской Аравии . [3]
Он наиболее известен своей основополагающей и широко цитируемой [4] работой по долговременной краткосрочной памяти (LSTM), типу архитектуры нейронных сетей, который впоследствии стал доминирующим методом для различных задач обработки естественного языка в исследовательских и коммерческих приложениях. в 2010-е годы. Он также представил принципы метаобучения , генеративно-состязательных сетей [5] [6] [7] и линейных преобразователей [ 8] [9] [7] — все они широко распространены в современном искусственном интеллекте.
Шмидхубер закончил бакалавриат (1987 г.) и докторантуру (1991 г.) в Мюнхенском техническом университете в Мюнхене , Германия. [1] Его научными руководителями были Вильфрид Брауэр и Клаус Шультен . [10] Он преподавал там с 2004 по 2009 год. С 2009, [11] по 2021 год он был профессором искусственного интеллекта в Итальянском университете Швейцарии в Лугано , Швейцария. [1]
С 1995 года он занимал должность директора Института исследований искусственного интеллекта Далле Молле (IDSIA), швейцарской лаборатории искусственного интеллекта. [1]
В 2014 году Шмидхубер основал компанию Nnaisense для работы над коммерческим применением искусственного интеллекта в таких областях, как финансы, тяжелая промышленность и беспилотные автомобили . Зепп Хохрайтер , Яан Таллинн и Маркус Хуттер являются консультантами компании. [2] В 2016 году объем продаж составил менее 11 миллионов долларов США; однако Шмидхубер заявляет, что в настоящее время упор делается на исследования, а не на доходы. Nnaisense привлекла свой первый раунд капитального финансирования в январе 2017 года. Общая цель Шмидхубера — создать универсальный ИИ путем последовательного обучения одного ИИ решению множества узких задач. [12]
В 1980-х годах обратное распространение ошибки не подходило для глубокого обучения с длинными путями присвоения кредитов в искусственных нейронных сетях . Чтобы преодолеть эту проблему, Шмидхубер (1991) предложил иерархию рекуррентных нейронных сетей (RNN), предварительно обучаемых по одному уровню за раз посредством самоконтролируемого обучения . [13] Он использует прогнозирующее кодирование для изучения внутренних представлений в нескольких самоорганизующихся временных масштабах. Это может существенно облегчить последующее глубокое обучение. Иерархию RNN можно свернуть в единую RNN путем разделения сети блоков более высокого уровня в сеть автоматизатора более низкого уровня . [13] [14] В 1993 году чанкёр решил задачу глубокого обучения, глубина которой превысила 1000. [15]
В 1991 году Шмидхубер опубликовал состязательные нейронные сети , которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети является проигрышем другой сети. [5] [16] [6] [7] Первая сеть представляет собой генеративную модель , которая моделирует распределение вероятностей по шаблонам выходных данных. Вторая сеть учится с помощью градиентного спуска предсказывать реакцию окружающей среды на эти закономерности. Это называлось «искусственным любопытством». В 2014 году этот принцип использовался в генеративно-состязательной сети , где реакция окружающей среды равна 1 или 0 в зависимости от того, находится ли выход первой сети в заданном наборе. Это можно использовать для создания реалистичных дипфейков . [7]
Шмидхубер руководил дипломной работой своего ученика Зеппа Хохрайтера в 1991 году [17] и назвал ее «одним из самых важных документов в истории машинного обучения». [14] Он не только протестировал компрессор нейронной истории, [13] , но также проанализировал и решил проблему исчезающего градиента . Это привело к появлению метода глубокого обучения, называемого долгой краткосрочной памятью (LSTM), типа рекуррентной нейронной сети . Название LSTM было введено в техническом отчете (1995 г.), что привело к появлению самой цитируемой публикации LSTM (1997 г.), соавторами которой являются Хохрайтер и Шмидхубер. [18] Стандартная архитектура LSTM, которая используется практически во всех современных приложениях, была представлена в 2000 году Феликсом Герсом , Шмидхубером и Фредом Камминсом. [19] Сегодняшний «ванильный LSTM», использующий обратное распространение ошибки во времени , был опубликован совместно с его учеником Алексом Грейвсом в 2005 году, [20] [21] и его алгоритмом обучения коннекционистской временной классификации (CTC) [22] в 2006 году. завершить распознавание речи с помощью LSTM. К 2010-м годам LSTM стал доминирующим методом для различных задач обработки естественного языка, включая распознавание речи и машинный перевод , и был широко реализован в коммерческих технологиях, таких как Google Translate и Siri . [23] LSTM стала самой цитируемой нейронной сетью 20-го века. [14] LSTM был назван «возможно, самым коммерческим достижением ИИ». [23]
В 2015 году Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали принципы LSTM для создания сети Highway — нейронной сети прямого распространения с сотнями слоев, гораздо более глубокой, чем предыдущие сети. [7] [24] [25] 7 месяцев спустя конкурс ImageNet 2015 был выигран с вариантом сети Highway с открытыми воротами или без ворот, названным Остаточной нейронной сетью . [26] Эта нейронная сеть стала самой цитируемой в 21 веке. [14]
С 2018 года преобразователи обогнали LSTM в качестве доминирующей архитектуры нейронных сетей в обработке естественного языка [27] благодаря большим языковым моделям, таким как ChatGPT . Еще в 1992 году Шмидхубер опубликовал альтернативу рекуррентным нейронным сетям [8] , которая сейчас называется Трансформатором с линеаризованным самообслуживанием [7] [9] [28] [14] (за исключением оператора нормализации). Она изучает внутренние прожекторы внимания : [29] медленная нейронная сеть прямого распространения учится путем градиентного спуска управлять быстрыми весами другой нейронной сети через внешние продукты самогенерируемых шаблонов активации ОТ и ДО (которые теперь называются ключом и значением для себя) . -внимание ). [9] Это быстрое отображение внимания к весам применяется к шаблону запроса.
В 2011 году команда Шмидхубера в IDSIA вместе с его постдоком Дэном Сиресаном также добилась значительного ускорения работы сверточных нейронных сетей (CNN) на быстрых параллельных компьютерах, называемых графическими процессорами . Более ранняя версия CNN на GPU, написанная Chellapilla et al. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. [30] Глубокая CNN Дэна Чиресана и др. (2011) в IDSIA уже были в 60 раз быстрее [31] и достигли первого сверхчеловеческого результата на конкурсе компьютерного зрения в августе 2011 года. [32] В период с 15 мая 2011 года по 10 сентября 2012 года их быстрые и глубокие CNN выиграли не менее четырех имиджевые конкурсы. [33] [34] Они также значительно улучшили лучшую производительность в литературе для нескольких баз данных изображений. [35] Этот подход стал центральным в области компьютерного зрения . [34] Он основан на конструкции CNN, представленной гораздо ранее Яном ЛеКуном и др. (1989) [36] , которые применили алгоритм обратного распространения ошибки к варианту оригинальной архитектуры CNN Кунихико Фукусимы , называемой неокогнитрон , [37] позже модифицированной методом Дж. Венга, названным max-pooling . [38] [34]
Шмидхубер спорно утверждал, что ему и другим исследователям было отказано в адекватном признании за их вклад в область глубокого обучения , в пользу Джеффри Хинтона , Йошуа Бенджио и Янна ЛеКуна , которые разделили Премию Тьюринга 2018 года за свою работу в области глубокого обучения. [2] [23] [39] В 2015 году он написал «резкую» статью, в которой утверждал, что Хинтон, Бенджио и Лекун «часто цитируют друг друга», но «не отдают должное пионерам в этой области». [39] В заявлении для New York Times Янн ЛеКун написал, что «Юрген маниакально одержим признанием и продолжает требовать признания, которого он не заслуживает, во многих, многих вещах... Это заставляет его систематически вставать в конце». каждого разговора и требовать признания того, что только что было представлено, как правило, необоснованно». [2] Шмидхубер ответил, что ЛеКун сделал это «без всякого обоснования, не приведя ни одного примера» [40] и опубликовал подробности многочисленных споров о приоритетах с Хинтоном, Бенджио и ЛеКуном. [41] [42]
Термин «шмидхуберед» в шутку использовался в сообществе ИИ для описания привычки Шмидхубера публично оспаривать оригинальность работ других исследователей. Некоторые представители сообщества ИИ рассматривают эту практику как «обряд посвящения» для молодых исследователей. Некоторые предполагают, что значительные достижения Шмидхубера были недооценены из-за его конфронтационного характера. [43] [23]
Шмидхубер получил Премию Гельмгольца Международного общества нейронных сетей в 2013 году [44] и премию пионера нейронных сетей Общества вычислительной разведки IEEE в 2016 году [45] за «новаторский вклад в глубокое обучение и нейронные сети». [1] Он является членом Европейской академии наук и искусств . [46] [11]
Его называют «отцом (современного) искусственного интеллекта» или чего-то подобного, [7] [2] [47] [48] [49] [50] [51] [52] [53] [54] [ 55] ] [23] , а также «отец глубокого обучения». [56] [49] Сам Шмидхубер, однако, назвал Алексея Григорьевича Ивахненко «отцом глубокого обучения» [57] и отдал должное многим еще более ранним пионерам ИИ. [14]
Шмидхубер утверждает, что «в 95% всех случаев исследования ИИ на самом деле связаны с нашим старым девизом: сделать человеческую жизнь дольше, здоровее и проще». [53] Он признает, что «те же инструменты, которые сейчас используются для улучшения жизни, могут быть использованы злоумышленниками», но подчеркивает, что «они также могут быть использованы против злодеев». [52]
Он не верит, что ИИ представляет собой «новое качество экзистенциальной угрозы», и его больше беспокоят старые ядерные боеголовки, которые могут «уничтожить человеческую цивилизацию за два часа без всякого ИИ». [7] «Большая ядерная боеголовка не нуждается в причудливом распознавании лиц, чтобы убить человека. Нет, она просто уничтожает целый город с 10 миллионами жителей». [7]
С 1970-х годов Шмидхубер хотел создать «умные машины, которые могли бы обучаться и совершенствоваться самостоятельно и стать умнее его при жизни». [7] Он различает два типа ИИ: инструменты ИИ, управляемые людьми, в частности, для улучшения здравоохранения, и более интересные ИИ, которые «ставят свои собственные цели», изобретают собственные эксперименты и учатся на их основе, как любопытные ученые. Он работал над обоими типами на протяжении десятилетий [7] и предсказал, что увеличенные версии ученых ИИ в конечном итоге «пойдут туда, где находится большая часть физических ресурсов, чтобы создавать все больше и больше ИИ». В течение «несколько десятков миллиардов лет любопытные самосовершенствующиеся ИИ колонизируют видимый космос таким образом, что это невозможно для людей. Те, кто этого не сделает, не окажут никакого влияния». [7] Он сказал: «Не думайте о людях как о венце творения. Вместо этого рассматривайте человеческую цивилизацию как часть гораздо более грандиозной схемы, важный шаг (но не последний) на пути Вселенной с самого начала». от простых начальных условий к все более и более непостижимой сложности. Теперь кажется, что он готов сделать следующий шаг, шаг, сравнимый с изобретением самой жизни более 3,5 миллиардов лет назад». [7]
Он решительно поддерживает движение за открытый исходный код и считает, что оно «бросит вызов любому доминированию крупных технологий, которое может существовать в данный момент», еще и потому, что ИИ становится в 100 раз дешевле каждое десятилетие. [7]