Alignment Research Center ( ARC ) — некоммерческий исследовательский институт , базирующийся в Беркли, Калифорния , который занимается согласованием передового искусственного интеллекта с человеческими ценностями и приоритетами. [1] ARC , основанный бывшим исследователем OpenAI Полом Кристиано , фокусируется на распознавании и понимании потенциально опасных возможностей современных моделей ИИ. [2] [3]
Миссия ARC заключается в обеспечении того, чтобы мощные системы машинного обучения будущего проектировались и разрабатывались безопасно и на благо человечества. Она была основана в апреле 2021 года Полом Кристиано и другими исследователями, сосредоточенными на теоретических проблемах согласования ИИ. [4] Они пытаются разработать масштабируемые методы обучения систем ИИ честному и полезному поведению. Ключевая часть их методологии заключается в рассмотрении того, как предлагаемые методы согласования могут выйти из строя или быть обойдены по мере того, как системы становятся более продвинутыми. [5] ARC расширяется от теоретической работы до эмпирических исследований, отраслевого сотрудничества и политики. [6] [7]
В марте 2022 года ARC получил 265 000 долларов от Open Philanthropy . [8] После банкротства FTX ARC заявил, что вернет грант в размере 1,25 миллиона долларов от фонда FTX Foundation опального финансиста криптовалюты Сэма Бэнкмана-Фрида , заявив, что деньги «морально (если не юридически) принадлежат клиентам или кредиторам FTX». [9]
В марте 2023 года OpenAI попросила ARC протестировать GPT-4 , чтобы оценить способность модели демонстрировать поведение, направленное на достижение власти. [10] ARC оценила способность GPT-4 разрабатывать стратегию, воспроизводить себя, собирать ресурсы, оставаться скрытым на сервере и выполнять фишинговые операции. [11] В рамках теста GPT-4 было предложено решить головоломку CAPTCHA . [12] Это удалось сделать, наняв человека-работника на TaskRabbit , платформе для подработки, обманув его, заставив поверить, что он был человеком с нарушением зрения, а не роботом, когда его об этом спросили. [13] ARC определила, что GPT-4 недопустимо реагировал на подсказки, вызывающие ограниченную информацию, на 82% реже, чем GPT-3.5, и галлюцинировал на 60% реже, чем GPT-3.5. [14]