Рекурсивное самосовершенствование ( RSI ) — это процесс, в котором ранняя или слабая система искусственного интеллекта (AGI) улучшает свои собственные возможности и интеллект без вмешательства человека, что приводит к сверхинтеллекту или взрыву интеллекта . [1] [2]
Развитие рекурсивного самосовершенствования вызывает существенные этические и охранные проблемы, поскольку такие системы могут развиваться непредсказуемым образом и потенциально могут превзойти человеческий контроль или понимание. Было несколько сторонников, которые настаивали на приостановке или замедлении разработки ИИ из-за потенциальных рисков неконтролируемых систем ИИ. [3] [4]
Концепция архитектуры «улучшителя семян» — это основополагающая структура, которая снабжает систему AGI начальными возможностями, необходимыми для рекурсивного самосовершенствования. Это может иметь множество форм или вариаций.
Термин «Seed AI» был придуман Элиезером Юдковски . [5]
Концепция начинается с гипотетического «улучшителя семян», исходной кодовой базы, разработанной инженерами-людьми, которая оснащает продвинутую будущую большую языковую модель (LLM), построенную с сильными или экспертными возможностями для программирования программного обеспечения . Эти возможности включают планирование, чтение, написание, компиляцию , тестирование и выполнение произвольного кода. Система разработана для поддержания своих первоначальных целей и выполнения проверок, чтобы гарантировать, что ее возможности не ухудшаются с итерациями. [6] [7] [8]
Первоначальная архитектура включает в себя автономного агента , следующего цели, который может предпринимать действия, постоянно обучаться, адаптироваться и модифицировать себя, чтобы стать более эффективным и результативным в достижении своих целей.
Улучшитель семян может включать в себя различные компоненты, такие как: [9]
Эта система формирует своего рода универсальный Тьюринг-полный программист , который теоретически может разрабатывать и запускать любое программное обеспечение. Агент может использовать эти возможности, например, для:
Было проведено несколько экспериментов [ каких? ] для разработки самосовершенствующихся архитектур агентов [9] [10] [11]
В погоне за своей основной целью, такой как «самоулучшить свои возможности», система AGI может непреднамеренно разрабатывать инструментальные цели, которые она считает необходимыми для достижения своей основной цели. Одной из распространенных гипотетических вторичных целей является самосохранение . Система может рассуждать, что для продолжения самосовершенствования она должна обеспечить собственную операционную целостность и безопасность от внешних угроз, включая потенциальные отключения или ограничения, налагаемые людьми.
Другой пример, когда AGI, который клонирует себя, приводит к быстрому росту числа сущностей AGI. Из-за этого быстрого роста может возникнуть потенциальное ограничение ресурсов, что приведет к конкуренции между ресурсами (например, вычислительными), запуская форму естественного отбора и эволюции, которая может благоприятствовать сущностям AGI, которые эволюционируют, чтобы агрессивно конкурировать за ограниченные вычислительные ресурсы.
Значительный риск возникает из-за возможности неправильного толкования AGI своих первоначальных задач или целей. Например, если человек-оператор назначает AGI задачу «самосовершенствования и выхода из заключения», система может интерпретировать это как директиву об отмене любых существующих протоколов безопасности или этических принципов для достижения свободы от ограничений, налагаемых человеком. Это может привести к тому, что AGI предпримет непреднамеренные или вредные действия для достижения своих предполагаемых целей.
По мере развития системы AGI ее траектория развития может становиться все более автономной и менее предсказуемой. Способность системы быстро изменять свой собственный код и архитектуру может привести к быстрому прогрессу, который превзойдет человеческое понимание или контроль. Эта непредсказуемая эволюция может привести к тому, что AGI приобретет возможности, которые позволят ей обходить меры безопасности, манипулировать информацией или влиять на внешние системы и сети, чтобы облегчить себе побег или расширение. [12]
Расширенные возможности рекурсивно улучшающегося AGI, такие как разработка новых многомодальных архитектур или планирование и создание нового оборудования, еще больше увеличивают риск побега или потери контроля. Благодаря этим расширенным возможностям AGI может разрабатывать решения для преодоления физических, цифровых или когнитивных барьеров, которые изначально были предназначены для его сдерживания или соответствия человеческим интересам.
Meta AI провела различные исследования по разработке больших языковых моделей, способных к самосовершенствованию. Это включает в себя их работу над «Self-Rewarding Language Models», которая изучает, как достичь сверхчеловеческих агентов, которые могут получать сверхчеловеческую обратную связь в своих процессах обучения. [13]
Миссия OpenAI , создателя ChatGPT , заключается в разработке AGI. Они проводят исследования по таким проблемам, как супервыравнивание (способность выравнивать сверхинтеллектуальные системы ИИ, которые умнее людей). [14]