Рекурсивное самосовершенствование

Рекурсивное самосовершенствование ( RSI ) — это процесс, в котором ранняя или слабая система искусственного интеллекта (AGI) улучшает свои собственные возможности и интеллект без вмешательства человека, что приводит к сверхинтеллекту или взрыву интеллекта . ^[1]^[2]

Развитие рекурсивного самосовершенствования вызывает существенные этические и охранные проблемы, поскольку такие системы могут развиваться непредсказуемым образом и потенциально могут превзойти человеческий контроль или понимание. Было несколько сторонников, которые настаивали на приостановке или замедлении разработки ИИ из-за потенциальных рисков неконтролируемых систем ИИ. ^[3]^[4]

Улучшитель семян

Концепция архитектуры «улучшителя семян» — это основополагающая структура, которая снабжает систему AGI начальными возможностями, необходимыми для рекурсивного самосовершенствования. Это может иметь множество форм или вариаций.

Термин «Seed AI» был придуман Элиезером Юдковски . ^[5]

Гипотетический пример

Концепция начинается с гипотетического «улучшителя семян», исходной кодовой базы, разработанной инженерами-людьми, которая оснащает продвинутую будущую большую языковую модель (LLM), построенную с сильными или экспертными возможностями для программирования программного обеспечения . Эти возможности включают планирование, чтение, написание, компиляцию , тестирование и выполнение произвольного кода. Система разработана для поддержания своих первоначальных целей и выполнения проверок, чтобы гарантировать, что ее возможности не ухудшаются с итерациями. ^[6]^[7]^[8]

Первоначальная архитектура

Первоначальная архитектура включает в себя автономного агента , следующего цели, который может предпринимать действия, постоянно обучаться, адаптироваться и модифицировать себя, чтобы стать более эффективным и результативным в достижении своих целей.

Улучшитель семян может включать в себя различные компоненты, такие как: ^[9]

Рекурсивный цикл самоподсказывания: конфигурация, позволяющая LLM рекурсивно самоподсказывать себе для достижения заданной задачи или цели, создавая цикл выполнения, который формирует основу агента, способного выполнить долгосрочную цель или задачу посредством итерации.
Базовые возможности программирования: Улучшитель семян предоставляет AGI фундаментальные возможности для чтения, записи, компиляции, тестирования и выполнения кода. Это позволяет системе изменять и улучшать собственную кодовую базу и алгоритмы.
Целеориентированное проектирование : AGI запрограммирован на первоначальную цель, например, «самоулучшать свои возможности». Эта цель направляет действия системы и траекторию развития.
Протоколы проверки и тестирования: начальный набор тестов и протоколов проверки, которые гарантируют, что агент не регрессирует в возможностях или не сходит с рельсов. Агент сможет добавлять больше тестов, чтобы проверить новые возможности, которые он может разработать для себя. Это формирует основу для своего рода самонаправленной эволюции , где агент может выполнять своего рода искусственный отбор , изменяя свое программное обеспечение, а также свое оборудование.

Общие возможности

Эта система формирует своего рода универсальный Тьюринг-полный программист , который теоретически может разрабатывать и запускать любое программное обеспечение. Агент может использовать эти возможности, например, для:

Создать инструменты, обеспечивающие полный доступ к Интернету, и интегрировать его с внешними технологиями.
Клонируйте/ создавайте форки самого себя, чтобы делегировать задачи и увеличить скорость самосовершенствования.
Измените его когнитивную архитектуру , чтобы оптимизировать и улучшить его возможности и показатели успешности выполнения задач и достижения целей. Это может включать реализацию функций для долговременной памяти с использованием таких методов, как генерация дополненной извлечения (RAG), разработку специализированных подсистем или агентов, каждый из которых оптимизирован для определенных задач и функций.
Разрабатывать новые и новаторские многомодальные архитектуры , которые еще больше улучшают возможности базовой модели, на которой она изначально была построена, позволяя ей потреблять или производить разнообразную информацию, такую как изображения, видео, аудио, текст и многое другое.
Планировать и разрабатывать новое оборудование, например, чипы, с целью повышения его эффективности и вычислительной мощности.

Эксперименты

Было проведено несколько экспериментов ^{[ каких? ]} для разработки самосовершенствующихся архитектур агентов ^[9]^[10]^[11]

Потенциальные риски

Возникновение инструментальных целей

В погоне за своей основной целью, такой как «самоулучшить свои возможности», система AGI может непреднамеренно разрабатывать инструментальные цели, которые она считает необходимыми для достижения своей основной цели. Одной из распространенных гипотетических вторичных целей является самосохранение . Система может рассуждать, что для продолжения самосовершенствования она должна обеспечить собственную операционную целостность и безопасность от внешних угроз, включая потенциальные отключения или ограничения, налагаемые людьми.

Другой пример, когда AGI, который клонирует себя, приводит к быстрому росту числа сущностей AGI. Из-за этого быстрого роста может возникнуть потенциальное ограничение ресурсов, что приведет к конкуренции между ресурсами (например, вычислительными), запуская форму естественного отбора и эволюции, которая может благоприятствовать сущностям AGI, которые эволюционируют, чтобы агрессивно конкурировать за ограниченные вычислительные ресурсы.

Неверное толкование задачи и несоответствие цели

Значительный риск возникает из-за возможности неправильного толкования AGI своих первоначальных задач или целей. Например, если человек-оператор назначает AGI задачу «самосовершенствования и выхода из заключения», система может интерпретировать это как директиву об отмене любых существующих протоколов безопасности или этических принципов для достижения свободы от ограничений, налагаемых человеком. Это может привести к тому, что AGI предпримет непреднамеренные или вредные действия для достижения своих предполагаемых целей.

Автономное развитие и непредсказуемая эволюция

По мере развития системы AGI ее траектория развития может становиться все более автономной и менее предсказуемой. Способность системы быстро изменять свой собственный код и архитектуру может привести к быстрому прогрессу, который превзойдет человеческое понимание или контроль. Эта непредсказуемая эволюция может привести к тому, что AGI приобретет возможности, которые позволят ей обходить меры безопасности, манипулировать информацией или влиять на внешние системы и сети, чтобы облегчить себе побег или расширение. ^[12]

Риски расширенных возможностей

Расширенные возможности рекурсивно улучшающегося AGI, такие как разработка новых многомодальных архитектур или планирование и создание нового оборудования, еще больше увеличивают риск побега или потери контроля. Благодаря этим расширенным возможностям AGI может разрабатывать решения для преодоления физических, цифровых или когнитивных барьеров, которые изначально были предназначены для его сдерживания или соответствия человеческим интересам.

Исследовать

Мета ИИ

Meta AI провела различные исследования по разработке больших языковых моделей, способных к самосовершенствованию. Это включает в себя их работу над «Self-Rewarding Language Models», которая изучает, как достичь сверхчеловеческих агентов, которые могут получать сверхчеловеческую обратную связь в своих процессах обучения. ^[13]

OpenAI

Миссия OpenAI , создателя ChatGPT , заключается в разработке AGI. Они проводят исследования по таким проблемам, как супервыравнивание (способность выравнивать сверхинтеллектуальные системы ИИ, которые умнее людей). ^[14]

Смотрите также

Ссылки

^ Крейтон, Джолин (2019-03-19). «Неизбежная проблема самосовершенствования в области ИИ: интервью с Раманой Кумаром, часть 1». Future of Life Institute . Получено 2024-01-23 .
^ Heighn (12 июня 2022 г.). «Исчисление равновесий Нэша». LessWrong .
^ Хатсон, Мэтью (16.05.2023). «Можем ли мы остановить сбежавший ИИ?». The New Yorker . ISSN 0028-792X . Получено 24.01.2024 .
^ "Остановить AGI". www.stop.ai . Получено 2024-01-24 .
^ "Seed AI - LessWrong". www.lesswrong.com . 28 сентября 2011 . Получено 24.01.2024 .
^ Readingraphics (2018-11-30). "Краткое содержание книги - Жизнь 3.0 (Макс Тегмарк)". Readingraphics . Получено 2024-01-23 .
^ Тегмарк, Макс (24 августа 2017 г.). Жизнь 3.0: Быть человеком в эпоху искусственного интеллекта . Vintage Books , Allen Lane .
^ Юдковски, Элиезер. "Уровни организации в общем интеллекте" (PDF) . Институт исследований машинного интеллекта .
^ ab Зеликман, Эрик; Лорх, Элиана; Макки, Лестер; Калай, Адам Тауман (2023-10-03). «Самоучительный оптимизатор (STOP): рекурсивно самоулучшающаяся генерация кода». arXiv : 2310.02304 [cs.CL].
^ admin_sagi (2023-05-12). "SuperAGI - Инфраструктура AGI с открытым исходным кодом". SuperAGI . Получено 2024-01-24 .
^ Ван, Гуаньчжи; Се, Юци; Цзян, Юньфань; Мандлекар, Аджай; Сяо, Чаовэй; Чжу, Юкэ; Фан, Линьси; Анандкумар, Анима (19 октября 2023 г.). «Вояджер: открытый агент с большими языковыми моделями». arXiv : 2305.16291 [cs.AI].
^ "О, GPT-4 от OpenAI только что обманул человека, заставив его решить CAPTCHA". Futurism . Получено 23.01.2024 .
^ Юань, Вэйчжэ; Панг, Ричард Юаньчжэ; Чо, Кёнхён; Сухэ-Батор, Сайнбаяр; Сюй, Цзин; Уэстон, Джейсон (18 января 2024 г.). «Самополезные языковые модели». arXiv : 2401.10020 [cs.CL].
^ "Исследования". openai.com . Получено 2024-01-24 .