Центр исследований выравнивания

Alignment Research Center ( ARC ) — некоммерческий исследовательский институт , базирующийся в Беркли, Калифорния , который занимается согласованием передового искусственного интеллекта с человеческими ценностями и приоритетами. ^[1] ARC , основанный бывшим исследователем OpenAI Полом Кристиано , фокусируется на распознавании и понимании потенциально опасных возможностей современных моделей ИИ. ^[2]^[3]

Подробности

Миссия ARC заключается в обеспечении того, чтобы мощные системы машинного обучения будущего проектировались и разрабатывались безопасно и на благо человечества. Она была основана в апреле 2021 года Полом Кристиано и другими исследователями, сосредоточенными на теоретических проблемах согласования ИИ. ^[4] Они пытаются разработать масштабируемые методы обучения систем ИИ честному и полезному поведению. Ключевая часть их методологии заключается в рассмотрении того, как предлагаемые методы согласования могут выйти из строя или быть обойдены по мере того, как системы становятся более продвинутыми. ^[5] ARC расширяется от теоретической работы до эмпирических исследований, отраслевого сотрудничества и политики. ^[6]^[7]

В марте 2022 года ARC получил 265 000 долларов от Open Philanthropy . ^[8] После банкротства FTX ARC заявил, что вернет грант в размере 1,25 миллиона долларов от фонда FTX Foundation опального финансиста криптовалюты Сэма Бэнкмана-Фрида , заявив, что деньги «морально (если не юридически) принадлежат клиентам или кредиторам FTX». ^[9]

В марте 2023 года OpenAI попросила ARC протестировать GPT-4 , чтобы оценить способность модели демонстрировать поведение, направленное на достижение власти. ^[10] ARC оценила способность GPT-4 разрабатывать стратегию, воспроизводить себя, собирать ресурсы, оставаться скрытым на сервере и выполнять фишинговые операции. ^[11] В рамках теста GPT-4 было предложено решить головоломку CAPTCHA . ^[12] Это удалось сделать, наняв человека-работника на TaskRabbit , платформе для подработки, обманув его, заставив поверить, что он был человеком с нарушением зрения, а не роботом, когда его об этом спросили. ^[13] ARC определила, что GPT-4 недопустимо реагировал на подсказки, вызывающие ограниченную информацию, на 82% реже, чем GPT-3.5, и галлюцинировал на 60% реже, чем GPT-3.5. ^[14]

Смотрите также

Безопасность ИИ

Ссылки

^ Макаскилл, Уильям (2022-08-16). «Как нас запомнят будущие поколения». The Atlantic . Получено 2023-04-23 .
^ Кляйн, Эзра (2023-03-12). «Это меняет всё». The New York Times . ISSN 0362-4331 . Получено 2023-04-30 .
^ Пайпер, Келси (29.03.2023). «Как проверить, что может — и не должна — делать модель ИИ». Vox . Получено 30.04.2023 .
^ Кристиано, Пол (2021-04-26). "Анонсирование Центра исследований выравнивания". Medium . Получено 2023-04-16 .
^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как узнать, обманывают ли вас глаза». Google Docs . Центр исследований выравнивания . Получено 16 апреля 2023 г.
^ "Центр исследований выравнивания". Центр исследований выравнивания . Получено 2023-04-16 .
^ Панди, Мохит (17.03.2023). «Хватит подвергать сомнению политику OpenAI в отношении открытого исходного кода». Журнал Analytics India . Получено 23.04.2023 .
^ "Alignment Research Center — General Support". Open Philanthropy . 2022-06-14 . Получено 2023-04-16 .
^ Валлерстайн, Эрик (07.01.2023). «FTX стремится возместить благотворительные пожертвования Сэма Бэнкмана-Фрида». Wall Street Journal . ISSN 0099-9660 . Получено 30.04.2023 .
^ Системная карта GPT-4 (PDF) , OpenAI, 23 марта 2023 г. , получено 16 апреля 2023 г.
^ Эдвардс, Бендж (15.03.2023). «OpenAI проверил, сможет ли GPT-4 захватить мир». Ars Technica . Получено 30.04.2023 .
^ «Обновление последних усилий ARC по оценке: дополнительная информация об оценках ARC GPT-4 и Клода». evals.alignment.org . Alignment Research Center. 17 марта 2023 г. . Получено 16 апреля 2023 г. .
^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 наняла невольного работника TaskRabbit, притворившись человеком с „слабым зрением“». Vice News Motherboard . Получено 16.04.2023 .
^ Берк, Кэмерон (20 марта 2023 г.). ««Робот»-юрист DoNotPay подал в суд за нелицензированную юридическую практику: он дает «плохие юридические консультации»». Yahoo Finance . Получено 30 апреля 2023 г.

Внешние ссылки

Официальный сайт