Искусственная нейронная сеть

Искусственные нейронные сети ( ИНС , также сокращенно до нейронных сетей (НС) или нейронных сетей ) — это ветвь моделей машинного обучения , которые построены с использованием принципов нейронной организации, открытых коннекционизмом в биологических нейронных сетях, составляющих мозг животных . ^[1]^[2]

ИНС состоит из связанных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны биологического мозга. Они соединены ребрами , моделирующими синапсы биологического мозга. Искусственный нейрон получает сигналы от связанных нейронов, затем обрабатывает их и отправляет сигнал другим подключенным нейронам. «Сигнал» — это действительное число , а выход каждого нейрона вычисляется некоторой нелинейной функцией суммы его входов, называемой функцией активации . Нейроны и ребра обычно имеют вес , который корректируется по мере обучения. Вес увеличивает или уменьшает силу сигнала при соединении.

Обычно нейроны объединяются в слои. Разные слои могут выполнять разные преобразования на своих входах. Сигналы перемещаются от первого слоя ( входной уровень ) к последнему уровню ( выходной уровень ), возможно, проходя через несколько промежуточных слоев ( скрытые уровни ). Сеть обычно называется глубокой нейронной сетью, если она имеет как минимум два скрытых слоя. ^[3]

Искусственные нейронные сети используются для прогнозного моделирования , адаптивного управления и других приложений, где их можно обучать с помощью набора данных. Их также используют для решения задач в области искусственного интеллекта . Сети могут учиться на опыте и делать выводы из сложного и, казалось бы, несвязанного набора информации.

Обучение

Нейронные сети обычно обучаются посредством минимизации эмпирического риска . Этот метод основан на идее оптимизации параметров сети для минимизации разницы или эмпирического риска между прогнозируемыми выходными данными и фактическими целевыми значениями в данном наборе данных. ^[4] Для оценки параметров сети обычно используются градиентные методы, такие как обратное распространение ошибки . ^[4] На этапе обучения ИНС обучаются на помеченных обучающих данных, итеративно обновляя свои параметры, чтобы минимизировать определенную функцию потерь . ^[5] Этот метод позволяет сети обобщать невидимые данные.

История

Исторически цифровые компьютеры произошли от модели фон Неймана и работают посредством выполнения явных инструкций посредством доступа к памяти несколькими процессорами. С другой стороны, происхождение нейронных сетей основано на попытках смоделировать обработку информации в биологических системах. В отличие от модели фон Неймана, нейронные сети не разделяют память и обработку.

Самый простой вид нейронной сети прямого распространения (FNN) — это линейная сеть, состоящая из одного слоя выходных узлов; входные данные подаются непосредственно на выходы через ряд весов. Сумма произведений весов и входных данных рассчитывается в каждом узле. Среднеквадратические ошибки между этими рассчитанными выходными данными и заданными целевыми значениями сводятся к минимуму за счет корректировки весов. Этот метод известен уже более двух столетий как метод наименьших квадратов или линейная регрессия . Лежандр (1805 г.) и Гаусс (1795 г.) использовали его как средство нахождения хорошей грубой линейной аппроксимации набора точек для предсказания движения планет. ^[7]^[8]^[9]^[10]^[11]

Вильгельм Ленц и Эрнст Изинг создали и проанализировали модель Изинга (1925) ^[12] , которая по сути представляет собой необучающуюся искусственную рекуррентную нейронную сеть (RNN), состоящую из нейроноподобных пороговых элементов. ^[10] В 1972 году Шуничи Амари описал адаптивную версию этой архитектуры, ^[13]^[10] которая была популяризирована Джоном Хопфилдом в 1982 году ^[14] и теперь называется сетью Хопфилда .

Уоррен Маккалок и Уолтер Питтс ^[15] (1943) также рассматривали необучающуюся вычислительную модель для нейронных сетей. ^[16]

В конце 1940-х годов Д.О. Хебб ^[17] создал гипотезу обучения , основанную на механизме нейронной пластичности , которая стала известна как обучение Хебба . Хеббианское обучение считается «типичным» правилом обучения без присмотра , а его более поздние варианты были ранними моделями долгосрочного потенцирования . Эти идеи начали применяться к вычислительным моделям в 1948 году с « неорганизованными машинами » Тьюринга. Фарли и Уэсли Кларк ^[18] были первыми, кто смоделировал сеть Хебба в 1954 году в Массачусетском технологическом институте. Они использовали вычислительные машины, которые тогда назывались «калькуляторами». Другие вычислительные машины с нейронными сетями были созданы Рочестером, Холландом, Хабитом и Дудой ^[19] в 1956 году. В 1958 году психолог Фрэнк Розенблатт изобрел перцептрон , первую реализованную искусственную нейронную сеть, ^[20]^[21]^[22]^{[23] ] финансируется}Управлением военно-морских исследований США . ^[24]

Изобретение перцептрона вызвало общественный интерес к исследованиям в области искусственных нейронных сетей, что заставило правительство США резко увеличить финансирование исследований в области глубокого обучения. Это привело к «золотому веку искусственного интеллекта», чему способствовали оптимистические заявления ученых-компьютерщиков относительно способности перцептронов имитировать человеческий интеллект. ^[25] Например, в 1957 году Герберт Саймон сказал: ^[25]

У меня нет цели удивить или шокировать вас, но самый простой способ, которым я могу подвести итог, — это сказать, что сейчас в мире существуют машины, которые думают, учатся и творят. Более того, их способность делать эти вещи будет быстро возрастать до тех пор, пока — в обозримом будущем — диапазон проблем, с которыми они могут справиться, не станет таким же обширным, как и диапазон, к которому применяется человеческий разум.

Однако это было не так, поскольку исследования в Соединенных Штатах застопорились после работы Мински и Паперта (1969), ^[26] которые обнаружили, что базовые перцептроны неспособны обрабатывать схему «исключительное-или» и что компьютерам не хватает мощности для этого. обучайте полезные нейронные сети. Это, наряду с другими факторами, такими как отчет Лайтхилла 1973 года Джеймса Лайтхилла , в котором говорится, что исследования в области искусственного интеллекта «не дали того серьезного эффекта, который тогда был обещан», прекращение финансирования исследований в области ИИ во всех университетах США, кроме двух. Великобритании и во многих крупных учреждениях по всему миру. ^[27] Это положило начало эпохе, получившей название « Зима ИИ» , когда исследования в области коннекционизма сократились из-за уменьшения государственного финансирования и повышенного внимания к символическому искусственному интеллекту в США и других западных странах. ^[28]^[27]

Однако в эпоху AI Winter исследования за пределами США продолжались, особенно в Восточной Европе. К моменту выхода книги Мински и Паперта о перцептронах методы обучения многослойных перцептронов (MLP) уже были известны. Первый многослойный перцептрон глубокого обучения (MLP) был опубликован Алексеем Григорьевичем Ивахненко и Валентином Лапой в 1965 году как « Групповой метод обработки данных ». ^[29]^[30]^[31] Первый MLP глубокого обучения , обученный методом стохастического градиентного спуска ^[32], был опубликован в 1967 году Шуничи Амари . ^[33]^[34] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойная MLP с двумя изменяемыми слоями изучила полезные внутренние представления для классификации нелинейно разделимых классов шаблонов. ^[34]

Самоорганизующиеся карты (SOM) были описаны Теуво Кохоненом в 1982 году. ^[35]^[36] SOM — это нейрофизиологически вдохновленные ^[37] нейронные сети, которые обучаются низкоразмерным представлениям многомерных данных, сохраняя при этом топологическую структуру данных. Они обучаются с использованием конкурсного обучения . ^[35]

Архитектура сверточной нейронной сети (CNN) со сверточными слоями и слоями понижающей дискретизации была представлена Кунихико Фукусимой в 1980 году . ^[38] Он назвал ее неокогнитроном . В 1969 году он также представил функцию активации ReLU (выпрямленная линейная единица) . ^[39]^[10] Выпрямитель стал самой популярной функцией активации для CNN и глубоких нейронных сетей в целом. ^[40] CNN стали важным инструментом компьютерного зрения .

Ключом к более поздним достижениям в исследованиях искусственных нейронных сетей стал алгоритм обратного распространения ошибки — эффективное применение цепного правила Лейбница (1673) ^[41] к сетям дифференцируемых узлов. ^[10] Он также известен как обратный режим автоматического дифференцирования или обратного накопления , согласно Сеппо Линнаинмаа (1970). ^[42]^[43]^[44]^[45]^[10] Термин «обратное распространение ошибки» был введен в 1962 году Фрэнком Розенблаттом , ^[46]^[10] но у него не было реализации этой процедуры, хотя Генри Дж. Келли ^[47] и Брайсон ^[48] имели непрерывные предшественники обратного распространения ошибки на основе динамического программирования ^[29]^[49]^[50]^[51] уже в 1960–61 годах в контексте теории управления . ^[10] В 1973 году Дрейфус использовал обратное распространение ошибки для адаптации параметров контроллеров пропорционально градиентам ошибок. ^[52] В 1982 году Пол Вербос применил обратное распространение ошибки к MLP способом, который стал стандартным. ^[53]^[49] В 1986 году Румельхарт , Хинтон и Уильямс показали, что метод обратного распространения ошибки научился интересным внутренним представлениям слов в виде векторов признаков при обучении прогнозированию следующего слова в последовательности. ^[54]

В конце 1970-х — начале 1980-х годов ненадолго возник интерес к теоретическому исследованию модели Изинга Вильгельма Ленца (1920) и Эрнста Изинга (1925) ^[12] применительно к топологиям дерева Кэли и большим нейронным сетям . В 1981 году модель Изинга была точно решена Питером Бартом для общего случая замкнутых деревьев Кэли (с петлями) с произвольным коэффициентом ветвления ^[55] и было обнаружено, что она демонстрирует необычное поведение фазового перехода в ее локальной вершине и дальнем участке. - корреляция сайтов. ^[56]^[57]

Нейронная сеть с задержкой по времени (TDNN) Алекса Вайбеля (1987) объединила свертки, распределение веса и обратное распространение ошибки . ^[58]^[59] В 1988 году Вэй Чжан и др. применил обратное распространение ошибки к CNN (упрощенный неокогнитрон со сверточными взаимосвязями между слоями признаков изображения и последним полностью связным слоем) для распознавания алфавита. ^[60]^[61] В 1989 году Янн Лекун и др. обучил CNN распознавать рукописные почтовые индексы в почте. ^[62] В 1992 году Хуан Венг и др. представили максимальное объединение CNN. для обеспечения инвариантности при наименьшем сдвиге и устойчивости к деформации для облегчения распознавания трехмерных объектов . ^[63]^[64]^[65] LeNet-5 (1998), 7-уровневая CNN Янна ЛеКуна и др., ^[66] которая классифицирует цифры, применялась несколькими банками для распознавания рукописных чисел на чеках, оцифрованных в Изображения размером 32х32 пикселя.

Начиная с 1988 года, ^[67]^[68] использование нейронных сетей изменило область предсказания структуры белков , в частности, когда первые каскадные сети обучались на профилях (матрицах), полученных путем множественного выравнивания последовательностей . ^[69]

В 1980-х годах обратное распространение ошибки не очень хорошо работало для глубоких FNN и RNN. Чтобы преодолеть эту проблему, Юрген Шмидхубер (1992) предложил иерархию RNN, предварительно обучаемых по одному уровню за раз посредством самостоятельного обучения . ^[70] Он использует прогнозирующее кодирование для изучения внутренних представлений в нескольких самоорганизующихся временных масштабах. Это может существенно облегчить последующее глубокое обучение. Иерархию RNN можно свернуть в единую RNN путем разделения сети блоков более высокого уровня в сеть автоматизатора более низкого уровня . ^[70]^[10] В 1993 году чанкёр решил задачу глубокого обучения, глубина которой превысила 1000. ^[71]

В 1992 году Юрген Шмидхубер также опубликовал альтернативу RNN ^[72] , которая теперь называется линейным преобразователем или преобразователем с линеаризованным самообслуживанием ^[73]^[74]^[10] (за исключением оператора нормализации). Она изучает внутренние прожекторы внимания : ^[75] медленная нейронная сеть прямого распространения учится путем градиентного спуска управлять быстрыми весами другой нейронной сети через внешние продукты самогенерируемых шаблонов активации ОТ и ДО (которые теперь называются ключом и значением для себя) . -внимание ). ^[73] Это быстрое отображение внимания к весам применяется к шаблону запроса.

Современный Трансформер был представлен Ашишем Васвани и др. в своей статье 2017 года «Внимание — это все, что вам нужно». ^[76] Он сочетает в себе это с оператором softmax и матрицей проекции. ^[10] Трансформаторы все чаще становятся предпочтительной моделью для обработки естественного языка . ^[77] Его используют многие современные модели больших языков, такие как ChatGPT , GPT-4 и BERT . Трансформаторы также все чаще используются в компьютерном зрении . ^[78]

В 1991 году Юрген Шмидхубер также опубликовал состязательные нейронные сети , которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети является проигрышем другой сети. ^[79]^[80]^[81] Первая сеть представляет собой генеративную модель , которая моделирует распределение вероятностей по шаблонам выходных данных. Вторая сеть учится с помощью градиентного спуска предсказывать реакцию окружающей среды на эти закономерности. Это называлось «искусственным любопытством».

В 2014 году этот принцип был использован в генеративно-состязательной сети (GAN) Яном Гудфеллоу и др. ^[82] Здесь реакция окружающей среды равна 1 или 0 в зависимости от того, находится ли выход первой сети в данном наборе. Это можно использовать для создания реалистичных дипфейков . ^[83] Превосходное качество изображения достигается с помощью StyleGAN (2018) от Nvidia ^[84], основанного на Progressive GAN Теро Карраса, Тимо Айла, Самули Лайне и Яакко Лехтинена. ^[85] Здесь генератор GAN растет от малого к большому по пирамидальной схеме.

Дипломную работу Зеппа Хохрайтера (1991) ^{[86] его научный руководитель}Юрген Шмидхубер назвал «одним из важнейших документов в истории машинного обучения» . ^[10] Хохрейтер идентифицировал и проанализировал проблему исчезающего градиента ^[86]^[87] и предложил рекуррентные остаточные связи для ее решения. Это привело к созданию метода глубокого обучения под названием « длинная краткосрочная память» (LSTM), опубликованного в журнале Neural Computation (1997). ^[88]Рекуррентные нейронные сети LSTM могут изучать задачи «очень глубокого обучения» ^[89] с длинными путями присвоения кредитов, которые требуют воспоминаний о событиях, которые произошли за тысячи дискретных шагов времени ранее. «Ванильный LSTM» с затвором забывания был представлен в 1999 году Феликсом Герсом , Шмидхубером и Фредом Камминсом. ^[90] LSTM стала самой цитируемой нейронной сетью 20-го века. ^[10] В 2015 году Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали принцип LSTM для создания сети Highway — нейронной сети прямого распространения с сотнями слоев, гораздо более глубокой, чем предыдущие сети. ^[91]^[92] 7 месяцев спустя, Каймин Хэ, Сянъюй Чжан; Шаоцин Рен и Цзянь Сунь выиграли конкурс ImageNet 2015, предложив вариант сети шоссе с открытыми воротами или без ворот под названием Остаточная нейронная сеть . ^[93] Эта нейронная сеть стала самой цитируемой в 21 веке. ^[10]

Развитие сверхкрупномасштабной интеграции металл-оксид-полупроводник (МОП) (СБИС) в форме дополнительной технологии МОП (КМОП) позволило увеличить количество МОП-транзисторов в цифровой электронике . Это обеспечило большую вычислительную мощность для разработки практических искусственных нейронных сетей в 1980-х годах. ^[94]

Первые успехи нейронных сетей включали предсказание фондового рынка, а в 1995 году (в основном) беспилотный автомобиль. ^[а]^[95]

Джеффри Хинтон и др. (2006) предложили изучать представление высокого уровня с использованием последовательных слоев бинарных или вещественнозначных скрытых переменных с помощью ограниченной машины Больцмана ^[96] для моделирования каждого слоя. В 2012 году Нг и Дин создали сеть, которая научилась распознавать понятия более высокого уровня, такие как кошки, только при просмотре немаркированных изображений. ^[97] Предварительное обучение без присмотра и увеличение вычислительной мощности графических процессоров и распределенных вычислений позволили использовать более крупные сети, особенно для задач распознавания изображений и визуальных эффектов, которые стали известны как « глубокое обучение ». ^[5]

Варианты алгоритма обратного распространения ошибки, а также неконтролируемые методы Джеффа Хинтона и его коллег из Университета Торонто , могут использоваться для обучения глубоких, сильно нелинейных нейронных архитектур, ^[98] аналогичных Неокогнитрону 1980 года Кунихико Фукусимы , ^{[99 ]} и «стандартная архитектура зрения», ^[100] вдохновленная простыми и сложными клетками, выявленными Дэвидом Х. Хьюбелом и Торстеном Визелем в первичной зрительной коре .

Вычислительные устройства были созданы на КМОП как для биофизического моделирования, так и для нейроморфных вычислений . Более поздние усилия показывают перспективу создания наноустройств для очень крупномасштабного анализа главных компонентов и свертки . ^[101] В случае успеха эти усилия могут открыть новую эру нейронных вычислений , которая является шагом за пределы цифровых вычислений, ^[102] потому что они зависят от обучения , а не от программирования , и потому что они по своей сути являются аналоговыми , а не цифровыми , даже несмотря на то, что первые экземпляры на самом деле может быть с цифровыми устройствами CMOS.

Чиресан и его коллеги (2010) ^[103] показали, что, несмотря на исчезающую проблему градиента , графические процессоры делают возможным обратное распространение ошибки для многослойных нейронных сетей с прямой связью. ^[104] В период с 2009 по 2012 год ИНС начали выигрывать призы в конкурсах по распознаванию изображений, приближаясь к человеческому уровню в выполнении различных задач, первоначально в распознавании образов и распознавании рукописного текста . ^[105]^[106] Например, двунаправленная и многомерная длинная кратковременная память (LSTM) ^[107]^[108] Graves et al. выиграл три конкурса по распознаванию рукописного ввода в 2009 году, не имея никаких предварительных знаний о трех языках, которые предстоит выучить. ^[107]^[108]

Чиресан и его коллеги создали первые распознаватели образов для достижения конкурентоспособных/сверхчеловеческих показателей ^[109] на таких тестах, как распознавание дорожных знаков (IJCNN 2012).

Радиальная базисная функция и вейвлет-сети были представлены в 2013 году. Можно показать, что они обладают наилучшими аппроксимационными свойствами и применяются в приложениях идентификации и классификации нелинейных систем . ^[110]

Рамензанпур и др. в 2020 году показал, что аналитические и вычислительные методы, основанные на статистической физике неупорядоченных систем, можно распространить на крупномасштабные задачи, включая машинное обучение, например, для анализа весового пространства глубоких нейронных сетей . ^[111]

Модели

Нейрон и миелинизированный аксон с потоком сигналов от входов дендритов к выходам терминалей аксона.

ИНС возникли как попытка использовать архитектуру человеческого мозга для выполнения задач, с которыми традиционные алгоритмы не имели большого успеха. Вскоре они переориентировались на улучшение эмпирических результатов, отказавшись от попыток оставаться верными своим биологическим предшественникам. ИНС обладают способностью обучаться и моделировать нелинейности и сложные взаимосвязи. Это достигается за счет соединения нейронов по различным схемам, что позволяет выходным сигналам одних нейронов становиться входными данными для других. Сеть образует ориентированный взвешенный граф . ^[112]

Искусственная нейронная сеть состоит из смоделированных нейронов. Каждый нейрон связан с другими узлами посредством связей, подобных биологической связи аксон-синапс-дендрит. Все узлы, соединенные ссылками, принимают некоторые данные и используют их для выполнения определенных операций и задач с данными. Каждое звено имеет вес, определяющий силу влияния одного узла на другой, ^[113] позволяя весам выбирать сигнал между нейронами.

Искусственные нейроны

ИНС состоят из искусственных нейронов , которые концептуально произошли от биологических нейронов . Каждый искусственный нейрон имеет входы и выдает один выходной сигнал, который можно отправить нескольким другим нейронам. ^[114] Входные данные могут быть значениями признаков выборки внешних данных, таких как изображения или документы, или они могут быть выходными данными других нейронов. Выходы конечных выходных нейронов нейронной сети выполняют такую задачу, как распознавание объекта на изображении.

Чтобы найти выход нейрона, мы берем взвешенную сумму всех входов, взвешенную по весам связей от входов к нейрону. Мы добавляем к этой сумме слагаемое смещения . ^[115] Эту взвешенную сумму иногда называют активацией . Эта взвешенная сумма затем передается через (обычно нелинейную) функцию активации для получения выходных данных. Исходными входными данными являются внешние данные, такие как изображения и документы. Конечные результаты выполняют задачу, например, распознавание объекта на изображении. ^[116]

Организация

Нейроны обычно организованы в несколько слоев, особенно при глубоком обучении . Нейроны одного слоя соединяются только с нейронами непосредственно предшествующего и непосредственно последующего слоев. Уровень, который получает внешние данные, является входным слоем . Слой, который дает конечный результат, является выходным слоем . Между ними находится ноль или более скрытых слоев . Также используются однослойные и многоуровневые сети. Между двумя слоями возможны несколько шаблонов соединения. Они могут быть «полностью связанными», когда каждый нейрон одного слоя соединяется с каждым нейроном следующего слоя. Они могут быть объединенными , когда группа нейронов в одном слое соединяется с одним нейроном в следующем слое, тем самым уменьшая количество нейронов в этом слое. ^[117] Нейроны только с такими связями образуют направленный ациклический граф и известны как сети прямого распространения . ^[118] Альтернативно, сети, которые обеспечивают соединения между нейронами в том же или предыдущих слоях, известны как рекуррентные сети . ^[119]

Гиперпараметр

Гиперпараметр — это постоянный параметр , значение которого устанавливается до начала процесса обучения. Значения параметров получаются путем обучения. Примеры гиперпараметров включают скорость обучения , количество скрытых слоев и размер пакета. ^[120] Значения некоторых гиперпараметров могут зависеть от значений других гиперпараметров. Например, размер некоторых слоев может зависеть от общего количества слоев.

Обучение

Обучение — это адаптация сети для лучшего выполнения задачи путем рассмотрения выборочных наблюдений. Обучение включает в себя корректировку весов (и дополнительных порогов) сети для повышения точности результата. Это достигается за счет минимизации наблюдаемых ошибок. Обучение считается завершенным, когда изучение дополнительных наблюдений не снижает коэффициент ошибок. Даже после обучения частота ошибок обычно не достигает 0. Если после обучения частота ошибок слишком высока, сеть обычно необходимо перепроектировать. Практически это делается путем определения функции стоимости , которая периодически оценивается во время обучения. Пока его производительность продолжает снижаться, обучение продолжается. Стоимость часто определяется как статистика , значение которой может быть только приблизительно оценено. Выходные данные на самом деле представляют собой числа, поэтому, когда ошибка мала, разница между выходными данными (почти наверняка кот) и правильным ответом (кошка) невелика. Обучение пытается уменьшить общую сумму различий между наблюдениями. Большинство моделей обучения можно рассматривать как прямое применение теории оптимизации и статистической оценки . ^[112]^[121]

Скорость обучения

Скорость обучения определяет размер корректирующих шагов, которые модель предпринимает для корректировки ошибок в каждом наблюдении. ^[122] Высокая скорость обучения сокращает время обучения, но с более низкой предельной точностью, в то время как более низкая скорость обучения занимает больше времени, но с потенциалом большей точности. Оптимизации, такие как Quickprop, в первую очередь направлены на ускорение минимизации ошибок, тогда как другие улучшения в основном направлены на повышение надежности. Чтобы избежать колебаний внутри сети, таких как чередование весов соединений, и улучшить скорость сходимости, в уточнениях используется адаптивная скорость обучения , которая увеличивается или уменьшается по мере необходимости. ^[123] Концепция импульса позволяет взвесить баланс между градиентом и предыдущим изменением, так что корректировка веса зависит в некоторой степени от предыдущего изменения. Импульс, близкий к 0, подчеркивает градиент, а значение, близкое к 1, подчеркивает последнее изменение.

Функция стоимости

Хотя можно определить функцию стоимости ad hoc , часто выбор определяется желаемыми свойствами функции (такими как выпуклость ) или тем, что она вытекает из модели (например, в вероятностной модели апостериорная вероятность модели может использоваться как обратная функция). расходы).

Обратное распространение ошибки

Обратное распространение ошибки — это метод, используемый для корректировки весов соединений для компенсации каждой ошибки, обнаруженной во время обучения. Сумма ошибки эффективно распределяется между соединениями. Технически обратное распространение вычисляет градиент (производную) функции стоимости , связанной с данным состоянием, по отношению к весам. Обновления веса могут быть выполнены с помощью стохастического градиентного спуска или других методов, таких как машины экстремального обучения , ^[124] сети «без опоры», ^[125] обучение без обратного отслеживания, ^[126] «невесомые» сети, ^[127]^{[128 ] ]} и неконнекционистские нейронные сети . ^{[ нужна цитата ]}

Парадигмы обучения

Машинное обучение обычно разделяют на три основные парадигмы обучения: обучение с учителем , ^[129] обучение без учителя ^[130] и обучение с подкреплением . ^[131] Каждый соответствует определенной учебной задаче.

Обучение под присмотром

Обучение с учителем использует набор парных входов и желаемых результатов. Задача обучения состоит в том, чтобы получить желаемый результат для каждого входа. В этом случае функция затрат связана с устранением неверных вычетов. ^[132] Обычно используемая стоимость — это среднеквадратическая ошибка , которая пытается минимизировать среднеквадратичную ошибку между выходом сети и желаемым выходом. Задачи, подходящие для обучения с учителем, — это распознавание образов (также известное как классификация) и регрессия (также известная как аппроксимация функций). Обучение с учителем также применимо к последовательным данным (например, для распознавания рукописного текста, речи и жестов ). Это можно рассматривать как обучение с «учителем» в виде функции, обеспечивающей непрерывную обратную связь о качестве полученных к настоящему моменту решений.

Обучение без присмотра

При обучении без учителя входные данные передаются вместе с функцией стоимости, некоторой функцией данных и выходными данными сети. Функция стоимости зависит от задачи (области модели) и любых априорных предположений (неявных свойств модели, ее параметров и наблюдаемых переменных). В качестве тривиального примера рассмотрим модель, где – константа и стоимость . Минимизация этой стоимости дает значение, равное среднему значению данных. Функция стоимости может быть гораздо более сложной. Его форма зависит от приложения: например, при сжатии он может быть связан с взаимной информацией между и , тогда как при статистическом моделировании он может быть связан с апостериорной вероятностью модели с учетом данных (обратите внимание, что в обоих этих примерах , эти количества будут максимизированы, а не минимизированы). Задачи, подпадающие под парадигму обучения без учителя, относятся к задачам общей оценки ; приложения включают кластеризацию , оценку статистических распределений , сжатие и фильтрацию . $\textstyle x$ $\textstyle f(x)=a$ $\textstyle a$ $\textstyle C=E[(x-f(x))^{2}]$ $\textstyle a$ $\textstyle x$ $\textstyle f(x)$

Обучение с подкреплением

В таких приложениях, как видеоигры, актер выполняет ряд действий, после каждого из которых получает в целом непредсказуемый ответ от окружающей среды. Цель состоит в том, чтобы выиграть игру, т. е. получить наиболее положительные (с наименьшими затратами) ответы. Целью обучения с подкреплением является взвешивание сети (разработка политики) для выполнения действий, которые минимизируют долгосрочные (ожидаемые совокупные) затраты. В каждый момент времени агент выполняет действие, а среда генерирует наблюдение и мгновенную стоимость в соответствии с некоторыми (обычно неизвестными) правилами. Правила и долгосрочные затраты обычно можно только оценить. В любой момент агент решает, следует ли исследовать новые действия, чтобы выявить связанные с ними затраты, или использовать предыдущее обучение, чтобы действовать быстрее.

Формально среда моделируется как марковский процесс принятия решений (MDP) с состояниями и действиями . Поскольку переходы состояний неизвестны, вместо них используются распределения вероятностей: мгновенное распределение стоимости , распределение наблюдений и распределение переходов , в то время как политика определяется как условное распределение по действиям с учетом наблюдений. В совокупности они определяют цепь Маркова (MC). Цель состоит в том, чтобы найти самый дешевый MC. $\textstyle {s_{1},...,s_{n}}\in S$ $\textstyle {a_{1},...,a_{m}}\in A$ $\textstyle P(c_{t}|s_{t})$ $\textstyle P(x_{t}|s_{t})$ $\textstyle P(s_{t+1}|s_{t},a_{t})$

ИНС служат компонентом обучения в таких приложениях. ^[133]^[134] Динамическое программирование в сочетании с ИНС (обеспечивающее нейродинамическое программирование) ^[135] применялось к таким проблемам, как определение маршрута транспортных средств , ^[136] видеоигры, управление природными ресурсами ^[137]^[138] и медицина [133 ^{]. 139]} из-за способности ИНС компенсировать потери точности даже при уменьшении плотности сетки дискретизации для численной аппроксимации решения задач управления. Задачи, подпадающие под парадигму обучения с подкреплением, — это задачи управления, игры и другие задачи последовательного принятия решений.

Самообучение

Самообучение в нейронных сетях было представлено в 1982 году вместе с нейронной сетью, способной к самообучению, названной перекрестной адаптивной матрицей (CAA). ^[140] Это система только с одним входом, ситуацией s, и только одним выходом, действием (или поведением) a. Он не имеет ни внешних рекомендаций, ни внешнего подкрепления из окружающей среды. CAA перекрестно вычисляет как решения о действиях, так и эмоции (чувства) в отношении возникших ситуаций. Система управляется взаимодействием познания и эмоций. ^[141] Учитывая матрицу памяти W =||w(a,s)||, алгоритм самообучения перекрестной панели на каждой итерации выполняет следующие вычисления:

 В ситуации s выполните действие a; Получать последствия ситуации; Вычислить эмоции от нахождения в следственной ситуации v(s'); Обновить память перекрестия w'(a,s) = w(a,s) + v(s').

Значение обратного распространения (вторичное подкрепление) — это эмоция по отношению к последствиям ситуации. ВГА существует в двух средах: одна - поведенческая среда, в которой он ведет себя, и другая - генетическая среда, откуда он первоначально и только один раз получает первоначальные эмоции о том, с какими ситуациями придется столкнуться в поведенческой среде. Получив геномный вектор (вектор вида) из генетической среды, ВГА научится целенаправленному поведению в поведенческой среде, содержащей как желательные, так и нежелательные ситуации. ^[142]

Нейроэволюция

Нейроэволюция может создавать топологии и веса нейронных сетей с использованием эволюционных вычислений . Он конкурирует со сложными подходами ^{градиентного}^{спуска .}Одним из преимуществ нейроэволюции является то, что она менее склонна заходить в «тупики». ^[143]

Стохастическая нейронная сеть

Стохастические нейронные сети , возникшие на основе моделей Шеррингтона-Киркпатрика, представляют собой тип искусственных нейронных сетей, построенных путем введения в сеть случайных изменений либо путем присвоения искусственным нейронам сети стохастических передаточных функций, либо путем присвоения им стохастических весов. Это делает их полезными инструментами для решения задач оптимизации , поскольку случайные колебания помогают сети избежать локальных минимумов . ^[144] Стохастические нейронные сети, обученные с использованием байесовского подхода, известны как байесовские нейронные сети . ^[145]

Другой

В байесовской системе распределение по множеству разрешенных моделей выбирается для минимизации затрат. Эволюционные методы , ^[146] программирование экспрессии генов , ^[147] моделирование отжига , ^[148] максимизация ожидания , непараметрические методы и оптимизация роя частиц ^[149] — это другие алгоритмы обучения. Конвергентная рекурсия — это алгоритм обучения нейронных сетей контроллера артикуляции модели мозжечка (CMAC). ^[150]^[151]

Режимы

Доступны два режима обучения: стохастический и пакетный. При стохастическом обучении каждый ввод создает корректировку веса. При пакетном обучении веса корректируются на основе пакета входных данных, накапливая ошибки по всему пакету. Стохастическое обучение вносит в процесс «шум», используя локальный градиент, рассчитанный на основе одной точки данных; это снижает вероятность того, что сеть застрянет в локальных минимумах. Однако пакетное обучение обычно обеспечивает более быстрый и стабильный спуск к локальному минимуму, поскольку каждое обновление выполняется в направлении средней ошибки пакета. Распространенным компромиссом является использование «мини-партий», небольших партий, в каждой партии образцы которых выбираются стохастически из всего набора данных.

Типы

ИНС превратились в широкое семейство методов, которые продвинули современный уровень техники во многих областях. Простейшие типы имеют один или несколько статических компонентов, включая количество модулей, количество слоев, веса модулей и топологию . Динамические типы позволяют одному или нескольким из них развиваться посредством обучения. Последнее намного сложнее, но может сократить период обучения и дать лучшие результаты. Некоторые типы позволяют/требуют обучения под «контролем» оператора, тогда как другие работают независимо. Некоторые типы работают исключительно аппаратно, тогда как другие являются чисто программными и работают на компьютерах общего назначения.

Некоторые из основных прорывов включают в себя:

Сверточные нейронные сети , доказавшие свою эффективность в обработке визуальных и других двумерных данных; ^[152]^[153] где длинная кратковременная память позволяет избежать проблемы исчезающего градиента ^[154] и может обрабатывать сигналы, которые имеют смесь низкочастотных и высокочастотных компонентов, что способствует распознаванию речи с большим словарным запасом, ^[155]^{[156] преобразование} текста в текст -синтез речи, ^[157]^[49]^[158] и фотореалистичные говорящие головы; ^[159]
Конкурентные сети, такие как генеративно-состязательные сети , в которых несколько сетей (разной структуры) конкурируют друг с другом в таких задачах, как победа в игре ^[160] или обман оппонента относительно подлинности входных данных. ^[82]

Проектирование сети

Использование искусственных нейронных сетей требует понимания их характеристик.

Выбор модели: зависит от представления данных и приложения. Параметры модели включают количество, тип и связность сетевых слоев, а также размер каждого и тип соединения (полное, пуловое и т. д.). Слишком сложные модели обучаются медленно.
Алгоритм обучения . Между алгоритмами обучения существует множество компромиссов. Практически любой алгоритм будет хорошо работать с правильными гиперпараметрами ^[161] для обучения на конкретном наборе данных. Однако выбор и настройка алгоритма обучения на невидимых данных требует значительного экспериментирования.
Устойчивость : если модель, функция стоимости и алгоритм обучения выбраны правильно, результирующая ИНС может стать устойчивой.

Поиск нейронной архитектуры (NAS) использует машинное обучение для автоматизации проектирования ИНС. Различные подходы к NAS позволяют создавать сети, которые не уступают системам, созданным вручную. Основной алгоритм поиска состоит в том, чтобы предложить модель-кандидат, сравнить ее с набором данных и использовать результаты в качестве обратной связи для обучения сети NAS. ^[162] Доступные системы включают AutoML и AutoKeras. ^[163] Библиотека scikit-learn предоставляет функции, помогающие построить глубокую сеть с нуля. Затем мы можем реализовать глубокую сеть с помощью TensorFlow или Keras .

Гиперпараметры также должны быть определены как часть проекта (они не изучаются), определяя такие вопросы, как количество нейронов в каждом слое, скорость обучения, шаг, шаг, глубина, рецептивное поле и заполнение (для CNN) и т. д. ^{[ 164]}

Фрагмент кода Python предоставляет обзор функции обучения, которая использует набор обучающих данных, количество модулей скрытого слоя, скорость обучения и количество итераций в качестве параметров:

def  train ( X ,  y ,  n_hidden ,  Learning_rate ,  n_iter ): м ,  n_input  =  X. _ форма # 1. случайная инициализация весов и смещений w1  =  np . случайный . randn ( n_input ,  n_hidden ) б1  =  НП . нули (( 1 ,  n_hidden )) w2  =  np . случайный . randn ( n_hidden ,  1 ) б2  =  НП . нули (( 1 ,  1 )) # 2. на каждой итерации загружать все слои последними значениями веса и смещения. для  i  в  диапазоне ( n_iter  +  1 ): z2  =  np . точка ( X ,  w1 )  +  b1 a2  =  сигмовидная ( z2 ) z3  =  np . точка ( a2 ,  w2 )  +  b2 а3  =  z3 dz3  =  а3  -  у dw2  =  np . точка ( а2 . Т ,  dz3 ) дб2  =  НП . сумма ( dz3 ,  ось = 0 ,  keepdims = True ) dz2  =  np . точка ( dz3 ,  w2 . T )  *  sigmoid_derivative ( z2 ) dw1  =  np . точка ( X . T ,  dz2 ) db1  =  np . сумма ( dz2 ,  ось = 0 ) # 3. обновить веса и смещения с помощью градиентов w1  —=  скорость обучения  *  dw1  /  m w2  —=  скорость обучения  *  dw2  /  м b1  —=  скорость обучения  *  db1  /  m b2  —=  скорость обучения  *  db2  /  m если  я  %  1000  ==  0 : print ( "Эпоха" ,  i ,  "потеря:" ,  np . среднее ( np . квадрат ( dz3 ))) модель  =  { "w1" :  w1 ,  "b1" :  b1 ,  "w2" :  w2 ,  "b2" :  b2 } возвратная  модель

^{[ нужна цитата ]}

Приложения

Благодаря своей способности воспроизводить и моделировать нелинейные процессы искусственные нейронные сети нашли применение во многих дисциплинах. К ним относятся:

Аппроксимация функции , ^[165] или регрессионный анализ , ^[166] (включая прогнозирование временных рядов , аппроксимацию пригодности , ^[167] и моделирование)
Обработка данных ^[168] (включая фильтрацию, кластеризацию, слепое разделение источников , ^[169] и сжатие)
Идентификация нелинейных систем ^[110] и управление (включая управление транспортными средствами, прогнозирование траектории, ^[170] адаптивное управление , управление процессами и управление природными ресурсами )
Распознавание образов (включая радиолокационные системы, идентификацию лиц , классификацию сигналов, ^[171] обнаружение новизны , 3D-реконструкцию , ^[172] распознавание объектов и последовательное принятие решений ^[173] )
Распознавание последовательностей (включая распознавание жестов , речи , рукописного и печатного текста ^[174] )
Анализ данных датчиков ^[175] (включая анализ изображений )
Робототехника (в том числе управляющие манипуляторы и протезы )
Интеллектуальный анализ данных (включая обнаружение знаний в базах данных )
Финансы ^[176] (например, прогнозные модели для конкретных финансовых долгосрочных прогнозов и искусственные финансовые рынки )
Квантовая химия ^[177]
Общая игра ^[178]
Генеративный ИИ ^[179]
Визуализация данных
Машинный перевод
Фильтрация социальных сетей ^[180]
Фильтрация спама в электронной почте
Медицинский диагноз

ИНС использовались для диагностики нескольких типов рака ^[181]^[182] и для различения высокоинвазивных линий раковых клеток от менее инвазивных линий, используя только информацию о форме клеток. ^[183]^[184]

ИНС использовались для ускорения анализа надежности инфраструктур, подверженных стихийным бедствиям ^[185]^[186] , а также для прогнозирования осадок фундаментов. ^[187] Для смягчения последствий наводнений также может быть полезно использовать ИНС для моделирования дождевого стока. ^[188] ИНС также использовались для построения моделей «черного ящика» в геонауках : гидрологии , ^[189]^[190] моделировании океана и прибрежной инженерии , ^[191]^[192] и геоморфологии . ^[193] ИНС используются в сфере кибербезопасности с целью отличить законную деятельность от злонамеренной. Например, машинное обучение использовалось для классификации вредоносного ПО для Android, ^[194] для идентификации доменов, принадлежащих злоумышленникам, и для обнаружения URL-адресов, представляющих угрозу безопасности. ^[195] В настоящее время проводятся исследования систем ИНС, предназначенных для тестирования на проникновение, обнаружения бот-сетей, ^[196] мошенничества с кредитными картами ^[197] и сетевых вторжений.

ИНС были предложены в качестве инструмента для решения уравнений в частных производных в физике ^[198]^[199]^[200] и моделирования свойств открытых квантовых систем многих тел . ^[201]^[202]^[203]^[204] В исследованиях мозга ИНС изучали кратковременное поведение отдельных нейронов , ^[205] динамика нейронных цепей возникает в результате взаимодействия между отдельными нейронами и то, как поведение может возникать из абстрактных нейронных модулей, которые представляют собой полные подсистемы. В исследованиях рассматривалась долгосрочная и краткосрочная пластичность нейронных систем и их связь с обучением и памятью от отдельного нейрона до системного уровня.

По картинкам можно создать профиль интересов пользователя, используя искусственные нейронные сети, обученные распознаванию объектов. ^[206]

Теоретические свойства

Вычислительная мощность

Многослойный перцептрон является универсальным аппроксиматором функции , что доказано теоремой об универсальной аппроксимации . Однако доказательство не является конструктивным в отношении количества необходимых нейронов, топологии сети, весов и параметров обучения.

Особая рекуррентная архитектура с рациональными весами (в отличие от вещественных весов с полной точностью) обладает мощью универсальной машины Тьюринга ^[207] , использующей конечное число нейронов и стандартные линейные связи. Кроме того, использование иррациональных значений весов приводит к созданию машины с супермощностью Тьюринга . ^[208]^[209]^{[ не удалось проверить ]}

Емкость

Свойство модели «емкость» соответствует ее способности моделировать любую заданную функцию. Это связано с объемом информации, которая может храниться в сети, и с понятием сложности. Сообществу известны два понятия емкости. Информационная емкость и размерность венчурного капитала. Информационная емкость перцептрона интенсивно обсуждается в книге сэра Дэвида Маккея ^[210] , которая обобщает работу Томаса Ковера. ^[211] Емкость сети стандартных нейронов (не сверточных) можно определить с помощью четырех правил ^[212] , которые вытекают из понимания нейрона как электрического элемента. Информационная емкость охватывает функции, моделируемые сетью, если на входе имеются любые данные. Второе понятие — это размер венчурного капитала . VC Dimension использует принципы теории меры и находит максимальную мощность при наилучших возможных обстоятельствах. Это если ввести входные данные в определенном виде. Как отмечено в ^[210] , размерность VC для произвольных входных данных равна половине информационной емкости персептрона. Размер VC для произвольных точек иногда называют объемом памяти. ^[213]

Конвергенция

Модели могут не всегда сходиться к единому решению, во-первых, потому, что могут существовать локальные минимумы, в зависимости от функции стоимости и модели. Во-вторых, используемый метод оптимизации может не гарантировать сходимость, когда он начинается далеко от любого локального минимума. В-третьих, при достаточно больших данных или параметрах некоторые методы становятся непрактичными.

Еще одна проблема, о которой стоит упомянуть, заключается в том, что обучение может пересечь некоторую седловую точку , что может привести к сближению в неправильном направлении.

Поведение конвергенции определенных типов архитектур ИНС более понятно, чем других. Когда ширина сети приближается к бесконечности, ИНС хорошо описывается расширением Тейлора первого порядка на протяжении всего обучения и, таким образом, наследует поведение сходимости аффинных моделей . ^[214]^[215] Другой пример: когда параметры малы, замечено, что ИНС часто соответствуют целевым функциям от низких до высоких частот. Такое поведение называется спектральным смещением или частотным принципом нейронных сетей. ^[216]^[217]^[218]^[219] Это явление противоположно поведению некоторых хорошо изученных итерационных численных схем, таких как метод Якоби . Было замечено, что более глубокие нейронные сети более склонны к низкочастотным функциям. ^[220]

Обобщение и статистика

Приложения, целью которых является создание системы, которая хорошо обобщает невидимые примеры, сталкиваются с возможностью переобучения. Это возникает в запутанных или переопределенных системах, когда пропускная способность сети значительно превышает необходимые свободные параметры. Два подхода касаются перетренированности. Первый — использовать перекрестную проверку и подобные методы для проверки наличия переобучения и выбора гиперпараметров для минимизации ошибки обобщения.

Второй — использовать некоторую форму регуляризации . Эта концепция возникает в вероятностной (байесовской) структуре, где регуляризация может быть выполнена путем выбора большей априорной вероятности среди более простых моделей; но также и в статистической теории обучения, где целью является минимизация двух величин: «эмпирического риска» и «структурного риска», который примерно соответствует ошибке в обучающем наборе и прогнозируемой ошибке в невидимых данных из-за переобучения.

Контролируемые нейронные сети, использующие функцию стоимости среднеквадратической ошибки (MSE), могут использовать формальные статистические методы для определения достоверности обученной модели. MSE в наборе проверки можно использовать в качестве оценки дисперсии. Это значение затем можно использовать для расчета доверительного интервала выходных данных сети, предполагая нормальное распределение . Проведенный таким образом доверительный анализ является статистически достоверным до тех пор, пока распределение выходных вероятностей остается прежним и сеть не изменяется.

Присвоив функцию активации softmax , обобщение логистической функции , на выходном слое нейронной сети (или компоненту softmax в сети, основанной на компонентах) для категориальных целевых переменных, выходные данные можно интерпретировать как апостериорные вероятности. Это полезно при классификации, поскольку дает меру достоверности классификаций.

Функция активации softmax:

y_{i}={\frac {e^{x_{i}}}{\sum _{j=1}^{c}e^{x_{j}}}}

Критика

Обучение

Распространенная критика нейронных сетей, особенно в робототехнике, заключается в том, что им требуется слишком много обучающих выборок для реальной работы. ^[221] Любая обучающаяся машина нуждается в достаточно репрезентативных примерах, чтобы уловить основную структуру, которая позволяет ей обобщать новые случаи. Потенциальные решения включают случайное перетасовывание обучающих примеров с использованием алгоритма числовой оптимизации, который не делает слишком больших шагов при изменении сетевых подключений по примеру, группировку примеров в так называемые мини-пакеты и/или введение рекурсивного алгоритма наименьших квадратов для CMAC . . ^[150] Дин Померло использует нейронную сеть для обучения роботизированного транспортного средства езде по разным типам дорог (однополосные, многополосные, грунтовые и т. д.), и большая часть его исследований посвящена экстраполяции множества сценариев обучения из единый опыт обучения и сохранение разнообразия прошлых тренировок, чтобы система не перетренировалась (если, например, ей предлагается серия поворотов направо, она не должна учиться всегда поворачивать направо). ^[222]

Теория

Основное утверждение ^{[ нужна ссылка ]} на ИНС заключается в том, что они воплощают в себе новые и мощные общие принципы обработки информации. Эти принципы нечетко определены. Часто утверждают ^{[ кем? ]} , что они возникают из самой сети. Это позволяет описать простую статистическую ассоциацию (основную функцию искусственных нейронных сетей) как обучение или распознавание. В 1997 году Александр Дьюдни , бывший обозреватель журнала Scientific American , заметил, что в результате искусственные нейронные сети приобретают «качество «что-то ради ничего», которое придает особую ауру лени и явное отсутствие любопытства по поводу того, насколько хороши эти сети». вычислительные системы есть. Никакая человеческая рука (или разум) не вмешивается; решения находятся как по волшебству; и никто, кажется, ничему не научился». ^[223] Одним из ответов Дьюдни является то, что нейронные сети успешно используются для решения многих сложных и разнообразных задач, начиная от автономного управления самолетом ^[224] и заканчивая обнаружением мошенничества с кредитными картами и освоением игры в го .

Писатель-технолог Роджер Бриджмен прокомментировал:

Нейронные сети, например, находятся на скамье подсудимых не только потому, что их разрекламировали до небес (а что нет?), но и потому, что вы можете создать успешную сеть, не понимая, как она работает: набор чисел, фиксирующих ее поведение, по всей вероятности, будет «непрозрачной, нечитаемой таблицей… бесполезной как научный ресурс».
Несмотря на свое решительное заявление о том, что наука — это не технология, Дьюдни, похоже, выставляет нейронные сети к позорному столбу как плохую науку, тогда как большинство из тех, кто их разрабатывает, просто пытаются быть хорошими инженерами. Нечитаемая таблица, которую может прочитать полезная машина, все равно стоит иметь. ^[225]

Хотя это правда, что анализировать то, что было изучено искусственной нейронной сетью, сложно, сделать это гораздо проще, чем анализировать то, что было изучено биологической нейронной сетью. Более того, недавний акцент на объяснимости ИИ способствовал развитию методов, особенно основанных на механизмах внимания , для визуализации и объяснения изученных нейронных сетей. Более того, исследователи, занимающиеся изучением алгоритмов обучения нейронных сетей, постепенно раскрывают общие принципы, которые позволяют обучающимся машинам быть успешными. Например, Бенджио и ЛеКун (2007) написали статью о локальном и нелокальном обучении, а также о поверхностной и глубокой архитектуре. ^[226]

Биологический мозг использует как поверхностные, так и глубокие цепи, как сообщает анатомия мозга ^[227] , демонстрируя широкий спектр инвариантности. Венг ^[228] утверждал, что мозг самостоятельно подключается в основном в соответствии со статистикой сигналов, и поэтому последовательный каскад не может уловить все основные статистические зависимости.

Аппаратное обеспечение

Большие и эффективные нейронные сети требуют значительных вычислительных ресурсов. ^[229] Хотя в мозгу есть аппаратное обеспечение, предназначенное для обработки сигналов через граф нейронов, моделирование даже упрощенного нейрона на архитектуре фон Неймана может потребовать огромных объемов памяти и хранилища. Более того, разработчику часто приходится передавать сигналы через многие из этих соединений и связанных с ними нейронов, что требует огромной мощности процессора и времени.

Шмидхубер отметил, что возрождение нейронных сетей в двадцать первом веке во многом связано с достижениями в области аппаратного обеспечения: с 1991 по 2015 год вычислительная мощность, особенно с помощью GPGPU (на графических процессорах ), увеличилась примерно в миллион раз, в результате чего стандартный алгоритм обратного распространения ошибки возможен для обучающих сетей, которые находятся на несколько уровней глубже, чем раньше. ^[29] Использование ускорителей, таких как FPGA и графические процессоры, может сократить время обучения с месяцев до дней. ^[229]

Нейроморфная инженерия или физическая нейронная сеть напрямую решают аппаратные трудности, создавая чипы, не относящиеся к фон Нейману, для непосредственной реализации нейронных сетей в схемах. Другой тип чипа, оптимизированный для обработки нейронных сетей, называется тензорным процессором или TPU. ^[230]

Практические контрпримеры

Анализировать то, что узнала ИНС, гораздо проще, чем анализировать то, что узнала биологическая нейронная сеть. Более того, исследователи, изучающие алгоритмы обучения нейронных сетей, постепенно раскрывают общие принципы, которые позволяют обучающимся машинам быть успешными. Например, локальное и нелокальное обучение и поверхностная и глубокая архитектура. ^[231]

Гибридные подходы

Сторонники гибридных моделей (объединяющих нейронные сети и символические подходы) говорят, что такая смесь может лучше отразить механизмы человеческого разума. ^[232]^[233]

Смещение набора данных

Нейронные сети зависят от качества данных, на которых они обучаются, поэтому данные низкого качества с несбалансированной репрезентативностью могут привести к обучению модели и закреплению социальных предубеждений. ^[234]^[235] Эти унаследованные предубеждения становятся особенно критичными, когда ИНС интегрируются в реальные сценарии, где обучающие данные могут быть несбалансированными из-за нехватки данных для конкретной расы, пола или другого признака. ^[234] Этот дисбаланс может привести к тому, что модель будет иметь неадекватное представление и понимание недостаточно представленных групп, что приведет к дискриминационным результатам, которые усугубят социальное неравенство, особенно в таких приложениях, как распознавание лиц , процессы найма и правоохранительная деятельность . ^[235]^[236] Например, в 2018 году Amazon пришлось отказаться от инструмента подбора персонала, поскольку в этой модели предпочтение отдавалось мужчинам, а не женщинам на должностях в области разработки программного обеспечения из-за большего числа работников-мужчин в этой области. ^[236] Программа будет наказывать любое резюме со словом «женщина» или названием любого женского колледжа. Однако использование синтетических данных может помочь уменьшить предвзятость набора данных и повысить представленность в наборах данных. ^[237]

Галерея

Однослойная искусственная нейронная сеть прямого распространения. Стрелки, исходящие от, опущены для ясности. Эта сеть имеет p входов и q выходов. В этой системе значение q-го выхода рассчитывается как $\scriptstyle x_{2}$ $y_{q}$ $\scriptstyle y_{q}=K*(\sum _{i}(x_{i}*w_{iq})-b_{q}).$
Двухслойная искусственная нейронная сеть прямого распространения
Искусственная нейронная сеть
Граф зависимости ИНС
Однослойная искусственная нейронная сеть прямого распространения с 4 входами, 6 скрытыми узлами и 2 выходами. Учитывая состояние положения и направление, он выводит значения управления на основе колеса.
Двухслойная искусственная нейронная сеть прямого распространения с 8 входами, 2х8 скрытыми узлами и 2 выходами. Учитывая состояние положения, направление и другие значения окружающей среды, он выводит управляющие значения на основе подруливающего устройства.
Параллельная конвейерная структура нейронной сети CMAC. Этот алгоритм обучения может сходиться за один шаг.

Последние достижения и будущие направления

Искусственные нейронные сети (ИНС) являются ключевым элементом в области машинного обучения, напоминающим структуру и функции человеческого мозга. ИНС претерпели значительные улучшения, особенно в их способности моделировать сложные системы, обрабатывать большие наборы данных и адаптироваться к различным типам приложений. Их эволюция за последние несколько десятилетий была отмечена заметными методологическими разработками и широким спектром приложений в таких областях, как обработка изображений, распознавание речи, обработка естественного языка, финансы и медицина.

Обработка изображений

В области обработки изображений ИНС добились значительных успехов. Они используются в таких задачах, как классификация изображений, распознавание объектов и сегментация изображений. Например, глубокие сверточные нейронные сети (CNN) сыграли важную роль в распознавании рукописных цифр, обеспечив современную производительность. ^[238] Это демонстрирует способность ИНС эффективно обрабатывать и интерпретировать сложную визуальную информацию, что приводит к прогрессу в самых разных областях: от автоматического наблюдения до медицинской визуализации. ^[238]

Распознавание речи

ИНС произвели революцию в технологии распознавания речи. Моделируя речевые сигналы, они используются для таких задач, как идентификация говорящего и преобразование речи в текст. Архитектура глубоких нейронных сетей внесла значительные улучшения в распознавание непрерывной речи с большим словарным запасом, превосходя традиционные методы. ^[238]^[239] Эти достижения способствовали разработке более точных и эффективных систем с голосовым управлением, улучшающих пользовательские интерфейсы в технологических продуктах.

Обработка естественного языка

При обработке естественного языка ИНС жизненно важны для таких задач, как классификация текста, анализ настроений и машинный перевод. Они позволили разработать модели, которые могут точно переводить между языками, понимать контекст и тональность текстовых данных, а также классифицировать текст на основе содержания. ^[238]^[239] Это имеет глубокие последствия для автоматизированного обслуживания клиентов, модерации контента и технологий понимания языка.

Системы контроля

В области систем управления ИНС применяются для моделирования динамических систем для таких задач, как идентификация системы, проектирование управления и оптимизация. Например, алгоритм обратного распространения ошибки использовался для обучения многослойных нейронных сетей прямого распространения, которые играют важную роль в приложениях идентификации и управления системами. Это подчеркивает универсальность ИНС в адаптации к сложным динамическим средам, что имеет решающее значение в автоматизации и робототехнике.

Финансы

Искусственные нейронные сети (ИНС) оказали значительное влияние на финансовый сектор, особенно в области прогнозирования фондового рынка и кредитного скоринга. Эти мощные системы искусственного интеллекта могут обрабатывать огромные объемы финансовых данных, распознавать сложные закономерности и прогнозировать тенденции фондового рынка, помогая инвесторам и риск-менеджерам принимать обоснованные решения. ^[238] В кредитном скоринге ИНС предлагают основанную на данных персонализированную оценку кредитоспособности, повышая точность прогнозирования дефолта и автоматизируя процесс кредитования. ^[239] Хотя ИНС предлагают множество преимуществ, они также требуют высококачественных данных и тщательной настройки, а их природа «черного ящика» может создавать проблемы при интерпретации. Тем не менее, продолжающиеся достижения позволяют предположить, что ИНС будут продолжать играть ключевую роль в формировании будущего финансов, предлагая ценную информацию и совершенствуя стратегии управления рисками.

Лекарство

Искусственные нейронные сети (ИНС) произвели революцию в области медицины благодаря своей способности обрабатывать и анализировать огромные наборы медицинских данных. Они сыграли важную роль в повышении точности диагностики, особенно при интерпретации сложных медицинских изображений для раннего выявления заболеваний, а также в прогнозировании результатов лечения пациентов для индивидуального планирования лечения. ^[239] При открытии лекарств ИНС ускоряют идентификацию потенциальных кандидатов на лекарства и прогнозируют их эффективность и безопасность, что значительно сокращает время и затраты на разработку. ^[238] Кроме того, их применение в персонализированной медицине и анализе данных здравоохранения ведет к более индивидуальной терапии и эффективному управлению уходом за пациентами. ^[239] Несмотря на эти достижения, остаются такие проблемы, как конфиденциальность данных и интерпретируемость моделей, и продолжаются исследования, направленные на решение этих проблем и расширение сферы применения ИНС в медицине.

Создание контента

ИНС, такие как генеративно-состязательные сети ( GAN ) и преобразователи , также используются для создания контента во многих отраслях. ^[240] Это связано с тем, что модели глубокого обучения способны изучать стиль художника или музыканта на основе огромных наборов данных и создавать совершенно новые произведения искусства и музыкальные композиции. Например, DALL-E — это глубокая нейронная сеть, обученная на 650 миллионах пар изображений и текстов в Интернете, которая может создавать произведения искусства на основе текста, введенного пользователем. ^[241] В области музыки трансформеры используются для создания оригинальной музыки для рекламных роликов и документальных фильмов с помощью таких компаний, как AIVA и Jukedeck . ^[242] В маркетинговой индустрии генеративные модели используются для создания персонализированной рекламы для потребителей. ^[240] Кроме того, крупные кинокомпании сотрудничают с технологическими компаниями для анализа финансового успеха фильма, например, партнерство между Warner Bros и технологической компанией Cinelytic, основанной в 2020 году. ^[243] Кроме того, нейронные сети нашли применение в видеоиграх. создание, в котором неигровые персонажи (NPC) могут принимать решения на основе всех персонажей, находящихся в данный момент в игре. ^[244]

Смотрите также

Внешние ссылки

Послушайте эту статью ( 31 минута )

Этот аудиофайл был создан на основе редакции этой статьи от 27 ноября 2011 года и не отражает последующие изменения.

Краткое введение в нейронные сети (Д. Кризель) — иллюстрированная двуязычная рукопись об искусственных нейронных сетях; Темы на данный момент: перцептроны, обратное распространение ошибки, радиальные базисные функции, рекуррентные нейронные сети, самоорганизующиеся карты, сети Хопфилда.
Обзор нейронных сетей в материаловедении
Учебное пособие по искусственным нейронным сетям на трех языках (Мадридский политехнический университет)
Еще одно знакомство с ИНС
Новое поколение нейронных сетей – Google Tech Talks
Производительность нейронных сетей
Нейронные сети и информация
Сандерсон, Грант (5 октября 2017 г.). «Но что такое нейронная сеть?». 3Синий1Коричневый . Архивировано из оригинала 7 ноября 2021 года — на YouTube .

Примечания

↑ Для управления мероприятием « Без рук по всей Америке » 1995 года потребовалось «всего несколько человек».

Библиография

Бхадешиа HKDH (1999). «Нейронные сети в материаловедении» (PDF) . ISIJ International . 39 (10): 966–979. doi : 10.2355/isijinternational.39.966.
Бишоп, Кристофер М. (1995). Нейронные сети для распознавания образов . Кларендон Пресс. ISBN 978-0-19-853849-3. ОСЛК 33101074.
Боргельт, Кристиан (2003). Neuro-Fuzzy-Systeme: von den Grundlagen künstlicher Neuronaler Netze zur Kopplung mit Fuzzy-Systemen . Посмотретьег. ISBN 978-3-528-25265-6. ОСЛК 76538146.
Цыбенко, Г.В. (2006). «Приближение суперпозициями сигмоидальной функции». Ван Шуппен, Ян Х. (ред.). Математика управления, сигналов и систем . Спрингер Интернэшнл. стр. 303–314.PDF
Дьюдни, АК (1997). Да, у нас нет нейтронов: поучительный экскурс в перипетии плохой науки . Нью-Йорк: Уайли. ISBN 978-0-471-10806-1. ОСЛК 35558945.
Дуда, Ричард О.; Харт, Питер Эллиот; Сторк, Дэвид Г. (2001). Классификация узоров (2-е изд.). Уайли. ISBN 978-0-471-05669-0. ОСЛК 41347061.
Эгмонт-Петерсен, М.; де Риддер, Д.; Гендельс, Х. (2002). «Обработка изображений нейронными сетями – обзор». Распознавание образов . 35 (10): 2279–2301. CiteSeerX 10.1.1.21.5444 . дои : 10.1016/S0031-3203(01)00178-9.
Фальман, С.; Лебьер, К. (1991). «Архитектура обучения с каскадной корреляцией» (PDF) . Архивировано из оригинала (PDF) 3 мая 2013 года . Проверено 28 августа 2006 г.
- создан для Национального научного фонда , номер контракта EET-8716324, и Агентства перспективных исследовательских проектов Министерства обороны (DOD), приказ ARPA № 4976 в соответствии с контрактом F33615-87-C-1499.
Герни, Кевин (1997). Введение в нейронные сети . УКЛ Пресс. ISBN 978-1-85728-673-1. ОСЛК 37875698.
Хайкин, Саймон С. (1999). Нейронные сети: комплексная основа . Прентис Холл. ISBN 978-0-13-273350-2. ОСЛК 38908586.
Герц, Дж.; Палмер, Ричард Г.; Крог, Андерс С. (1991). Введение в теорию нейронных вычислений . Аддисон-Уэсли. ISBN 978-0-201-51560-2. ОСЛК 21522159.
Теория информации, логический вывод и алгоритмы обучения . Издательство Кембриджского университета. 25 сентября 2003 г. Бибкод : 2003itil.book.....М. ISBN 978-0-521-64298-9. ОСЛК 52377690.
Крузе, Рудольф; Боргельт, Кристиан; Клавонн, Ф.; Мовес, Кристиан; Штайнбрехер, Матиас; Хелд, Паскаль (2013). Вычислительный интеллект: методологическое введение . Спрингер. ISBN 978-1-4471-5012-1. ОКЛК 837524179.
Лоуренс, Жанетт (1994). Введение в нейронные сети: проектирование, теория и приложения . Калифорнийское научное программное обеспечение. ISBN 978-1-883157-00-5. ОСЛК 32179420.
Мастерс, Тимоти (1994). Обработка сигналов и изображений с помощью нейронных сетей: справочник по C++ . Дж. Уайли. ISBN 978-0-471-04963-0. ОКЛК 29877717.
Маурер, Харальд (2021). Когнитивная наука: механизмы интегративной синхронизации в когнитивных нейроархитектурах современного коннекционизма . ЦРК Пресс. дои : 10.1201/9781351043526. ISBN 978-1-351-04352-6. S2CID 242963768.
Рипли, Брайан Д. (2007). Распознавание образов и нейронные сети. Издательство Кембриджского университета. ISBN 978-0-521-71770-0.
Сигельманн, ХТ; Зонтаг, Эдуардо Д. (1994). «Аналоговые вычисления с помощью нейронных сетей». Теоретическая информатика . 131 (2): 331–360. дои : 10.1016/0304-3975(94)90178-3 . S2CID 2456483.
Смит, Мюррей (1993). Нейронные сети для статистического моделирования . Ван Ностранд Рейнхольд. ISBN 978-0-442-01310-3. ОСЛК 27145760.
Вассерман, Филип Д. (1993). Передовые методы нейронных вычислений . Ван Ностранд Рейнхольд. ISBN 978-0-442-00461-3. ОСЛК 27429729.
Уилсон, Хэлси (2018). Искусственный интеллект . Издательство Грей Хаус. ISBN 978-1-68217-867-6.

Искусственная нейронная сеть

Обучение

История

Модели

Искусственные нейроны

Организация

Гиперпараметр

Обучение

Скорость обучения

Функция стоимости

Обратное распространение ошибки

Парадигмы обучения

Обучение под присмотром

Обучение без присмотра

Обучение с подкреплением

Самообучение

Нейроэволюция

Стохастическая нейронная сеть

Другой

Режимы

Типы

Проектирование сети

Приложения

Теоретические свойства

Вычислительная мощность

Емкость

Конвергенция

Обобщение и статистика

Критика

Обучение

Теория

Аппаратное обеспечение

Практические контрпримеры

Гибридные подходы

Смещение набора данных

Галерея

Последние достижения и будущие направления

Обработка изображений

Распознавание речи

Обработка естественного языка

Системы контроля

Финансы

Лекарство

Создание контента

Смотрите также

Внешние ссылки

Примечания

Рекомендации

Библиография