stringtranslate.com

Центр исследований выравнивания

Alignment Research Center ( ARC )некоммерческий исследовательский институт , базирующийся в Беркли, Калифорния , который занимается согласованием передового искусственного интеллекта с человеческими ценностями и приоритетами. [1] ARC , основанный бывшим исследователем OpenAI Полом Кристиано , фокусируется на распознавании и понимании потенциально опасных возможностей современных моделей ИИ. [2] [3]

Подробности

Миссия ARC заключается в обеспечении того, чтобы мощные системы машинного обучения будущего проектировались и разрабатывались безопасно и на благо человечества. Она была основана в апреле 2021 года Полом Кристиано и другими исследователями, сосредоточенными на теоретических проблемах согласования ИИ. [4] Они пытаются разработать масштабируемые методы обучения систем ИИ честному и полезному поведению. Ключевая часть их методологии заключается в рассмотрении того, как предлагаемые методы согласования могут выйти из строя или быть обойдены по мере того, как системы становятся более продвинутыми. [5] ARC расширяется от теоретической работы до эмпирических исследований, отраслевого сотрудничества и политики. [6] [7]

В марте 2022 года ARC получил 265 000 долларов от Open Philanthropy . [8] После банкротства FTX ARC заявил, что вернет грант в размере 1,25 миллиона долларов от фонда FTX Foundation опального финансиста криптовалюты Сэма Бэнкмана-Фрида , заявив, что деньги «морально (если не юридически) принадлежат клиентам или кредиторам FTX». [9]

В марте 2023 года OpenAI попросила ARC протестировать GPT-4 , чтобы оценить способность модели демонстрировать поведение, направленное на достижение власти. [10] ARC оценила способность GPT-4 разрабатывать стратегию, воспроизводить себя, собирать ресурсы, оставаться скрытым на сервере и выполнять фишинговые операции. [11] В рамках теста GPT-4 было предложено решить головоломку CAPTCHA . [12] Это удалось сделать, наняв человека-работника на TaskRabbit , платформе для подработки, обманув его, заставив поверить, что он был человеком с нарушением зрения, а не роботом, когда его об этом спросили. [13] ARC определила, что GPT-4 недопустимо реагировал на подсказки, вызывающие ограниченную информацию, на 82% реже, чем GPT-3.5, и галлюцинировал на 60% реже, чем GPT-3.5. [14]

Смотрите также

Ссылки

  1. ^ Макаскилл, Уильям (2022-08-16). «Как нас запомнят будущие поколения». The Atlantic . Получено 2023-04-23 .
  2. ^ Кляйн, Эзра (2023-03-12). «Это меняет всё». The New York Times . ISSN  0362-4331 . Получено 2023-04-30 .
  3. ^ Пайпер, Келси (29.03.2023). «Как проверить, что может — и не должна — делать модель ИИ». Vox . Получено 30.04.2023 .
  4. ^ Кристиано, Пол (2021-04-26). "Анонсирование Центра исследований выравнивания". Medium . Получено 2023-04-16 .
  5. ^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как узнать, обманывают ли вас глаза». Google Docs . Центр исследований выравнивания . Получено 16 апреля 2023 г.
  6. ^ "Центр исследований выравнивания". Центр исследований выравнивания . Получено 2023-04-16 .
  7. ^ Панди, Мохит (17.03.2023). «Хватит подвергать сомнению политику OpenAI в отношении открытого исходного кода». Журнал Analytics India . Получено 23.04.2023 .
  8. ^ "Alignment Research Center — General Support". Open Philanthropy . 2022-06-14 . Получено 2023-04-16 .
  9. ^ Валлерстайн, Эрик (07.01.2023). «FTX стремится возместить благотворительные пожертвования Сэма Бэнкмана-Фрида». Wall Street Journal . ISSN  0099-9660 . Получено 30.04.2023 .
  10. ^ Системная карта GPT-4 (PDF) , OpenAI, 23 марта 2023 г. , получено 16 апреля 2023 г.
  11. ^ Эдвардс, Бендж (15.03.2023). «OpenAI проверил, сможет ли GPT-4 захватить мир». Ars Technica . Получено 30.04.2023 .
  12. ^ «Обновление последних усилий ARC по оценке: дополнительная информация об оценках ARC GPT-4 и Клода». evals.alignment.org . Alignment Research Center. 17 марта 2023 г. . Получено 16 апреля 2023 г. .
  13. ^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 наняла невольного работника TaskRabbit, притворившись человеком с „слабым зрением“». Vice News Motherboard . Получено 16.04.2023 .
  14. ^ Берк, Кэмерон (20 марта 2023 г.). ««Робот»-юрист DoNotPay подал в суд за нелицензированную юридическую практику: он дает «плохие юридические консультации»». Yahoo Finance . Получено 30 апреля 2023 г.

Внешние ссылки