Работа в сфере безопасности искусственного интеллекта
Целевое обучение и стимулы в программных системах
Взгляды Юдковски на проблемы безопасности, которые создают будущие поколения систем ИИ, обсуждаются в учебнике для студентов Стюарта Рассела и Питера Норвига «Искусственный интеллект: современный подход» . Отмечая сложность формального указания общих целей вручную, Рассел и Норвиг цитируют предложение Юдковски о том, что автономные и адаптивные системы должны быть спроектированы так, чтобы со временем обучаться правильному поведению:
Юдковски (2008) [10] более подробно описывает, как спроектировать Дружественный ИИ . Он утверждает, что дружелюбие (желание не причинять вреда людям) должно быть заложено с самого начала, но что проектировщики должны осознавать, что их собственные проекты могут быть несовершенными, и что робот будет учиться и развиваться с течением времени. Таким образом, задача заключается в проектировании механизма — разработать механизм для развивающегося ИИ в рамках системы сдержек и противовесов и предоставить системе функции полезности, которые останутся дружелюбными при таких изменениях. [6]
В ответ на опасения по поводу инструментальной конвергенции , что автономные системы принятия решений с плохо разработанными целями будут иметь по умолчанию стимулы к плохому обращению с людьми, Юдковски и другие исследователи MIRI рекомендовали провести работу по определению программных агентов, которые сходятся на безопасном поведении по умолчанию, даже если их цели определены неправильно. [11] [7]
Прогнозирование возможностей
В сценарии взрыва интеллекта , выдвинутом И. Дж. Гудом , рекурсивно самосовершенствующиеся системы ИИ быстро переходят от нечеловеческого общего интеллекта к сверхразумному . В книге Ника Бострома 2014 года «Суперинтеллект: пути, опасности, стратегии» подробно излагается аргумент Гуда, при этом цитируется Юдковски о риске того, что антропоморфизация продвинутых систем ИИ заставит людей неправильно понять природу взрыва интеллекта. «ИИ может совершить, по-видимому, резкий скачок в интеллекте исключительно в результате антропоморфизма, человеческой тенденции думать о «деревенском идиоте» и «Эйнштейне» как о крайних точках шкалы интеллекта, вместо почти неразличимых точек на шкале разума в целом». [6] [10] [12]
В книге «Искусственный интеллект: современный подход» Рассел и Норвиг выдвигают возражение, что существуют известные ограничения для интеллектуального решения проблем, основанные на теории сложности вычислений ; если существуют жесткие ограничения на то, насколько эффективно алгоритмы могут решать различные задачи, взрыв интеллекта может оказаться невозможным. [6]
Времяop-ed
В статье 2023 года в журнале Time Юдковски обсудил риск искусственного интеллекта и предложил меры, которые можно было бы предпринять для его ограничения, включая полную остановку разработки ИИ [13] [14] или даже «уничтожение несанкционированного центра обработки данных с помощью авиаудара». [5] Статья помогла вывести дебаты о согласовании ИИ на первый план, что побудило репортера задать президенту Джо Байдену вопрос о безопасности ИИ на пресс-конференции. [2]
Рациональность письма
В период с 2006 по 2009 год Юдковски и Робин Хэнсон были основными авторами Overcoming Bias , блога по когнитивным и социальным наукам, спонсируемого Институтом будущего человечества Оксфордского университета. В феврале 2009 года Юдковски основал LessWrong , «блог сообщества, посвященный совершенствованию искусства человеческой рациональности». [15] [16] С тех пор Overcoming Bias функционирует как личный блог Хэнсона.
Более 300 записей в блоге Юдковски о философии и науке (первоначально написанных на LessWrong и Overcoming Bias ) были выпущены в виде электронной книги Rationality: From AI to Zombies компанией MIRI в 2015 году. [17] MIRI также опубликовала Inadequate Equilibria , электронную книгу Юдковски 2017 года о социальной неэффективности. [18]
Юдковски также написал несколько художественных произведений. Его фанфик- роман «Гарри Поттер и методы рациональности» использует сюжетные элементы из серии «Гарри Поттер» Дж. К. Роулинг, чтобы проиллюстрировать темы науки и рациональности. [15] [19] The New Yorker описал «Гарри Поттера и методы рациональности» как пересказ оригинала Роулинг «в попытке объяснить волшебство Гарри через научный метод». [20]
Личная жизнь
Юдковски — самоучка [21] , он не учился в средней школе или колледже. [22] Он был воспитан как современный ортодоксальный еврей , но не идентифицирует себя как еврея в религиозном плане. [23] [24]
Академические публикации
Юдковски, Элиезер (2007). «Уровни организации в общем интеллекте» (PDF) . Искусственный общий интеллект . Берлин: Springer. doi :10.1007/ 978-3-540-68677-4_12
Юдковски, Элиезер (2008). «Когнитивные искажения, потенциально влияющие на оценку глобальных рисков» (PDF) . В Бостром, Ник ; Чиркович, Милан (ред.). Глобальные катастрофические риски . Oxford University Press. ISBN 978-0199606504.
Юдковски, Элиезер (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска» (PDF) . В Бостром, Ник ; Чиркович, Милан (ред.). Глобальные катастрофические риски . Oxford University Press. ISBN 978-0199606504.
Юдковски, Элиезер (2011). «Сложные системы ценностей в дружественном ИИ» (PDF) . Искусственный интеллект общего назначения: 4-я международная конференция, AGI 2011, Маунтин-Вью, Калифорния, США, 3–6 августа 2011 г. Берлин: Springer.
Юдковски, Элиезер (2012). «Дружественный искусственный интеллект». В Эдеме, Аммон; Мур, Джеймс; Сёракер, Джон; и др. (ред.). Гипотезы сингулярности: научная и философская оценка . Коллекция Frontiers. Берлин: Springer. стр. 181–195. doi :10.1007/978-3-642-32560-1_10. ISBN 978-3-642-32559-5.
Бостром, Ник ; Юдковски, Элиезер (2014). «Этика искусственного интеллекта» (PDF) . На Франкиш, Кит; Рэмси, Уильям (ред.). Кембриджский справочник по искусственному интеллекту . Нью-Йорк: Cambridge University Press. ISBN 978-0-521-87142-6.
LaVictoire, Patrick; Fallenstein, Benja; Yudkowsky, Eliezer; Bárász, Mihály; Christiano, Paul; Herreshoff, Marcello (2014). "Program Equilibrium in the Prisoner's Dilemma via Löb's Theorem". Многоагентное взаимодействие без предварительной координации: документы семинара AAAI-14 . Публикации AAAI. Архивировано из оригинала 15 апреля 2021 г. Получено 16 октября 2015 г.
Соарес, Нейт; Фалленштейн, Бенджа; Юдковски, Элиезер (2015). «Корригируемость» (PDF) . Семинары AAAI: Семинары на Двадцать девятой конференции AAAI по искусственному интеллекту, Остин, Техас, 25–26 января 2015 г. . Публикации AAAI.
^ «Элиезер Юдковски о «Трех основных школах сингулярности»» на YouTube . 16 февраля 2012 г. Временная метка 1:18.
^ ab Silver, Nate (10 апреля 2023 г.). «Насколько обеспокоены американцы подводными камнями ИИ?». FiveThirtyEight . Архивировано из оригинала 17 апреля 2023 г. . Получено 17 апреля 2023 г. .
^ Окампо, Родольфо (4 апреля 2023 г.). «Раньше я работал в Google, а теперь я исследователь ИИ. Вот почему замедление разработки ИИ — это разумно». The Conversation . Архивировано из оригинала 11 апреля 2023 г. . Получено 19 июня 2023 г. .
^ Голт, Мэтью (31 марта 2023 г.). «Искусственный теоретик говорит, что ядерная война предпочтительнее разработки передового искусственного интеллекта». Vice . Архивировано из оригинала 15 мая 2023 г. . Получено 19 июня 2023 г. .
^ ab Hutson, Matthew (16 мая 2023 г.). «Можем ли мы остановить сбежавший ИИ?». The New Yorker . ISSN 0028-792X. Архивировано из оригинала 19 мая 2023 г. . Получено 19 мая 2023 г. Элиезер Юдковски, исследователь из Исследовательского института машинного интеллекта в районе залива, сравнил рекомендации по безопасности ИИ с системой пожарной сигнализации. Классический эксперимент показал, что, когда дымный туман начал заполнять комнату, в которой находились несколько человек, большинство не сообщало об этом. Они видели, как другие оставались стойкими и преуменьшали опасность. Официальная тревога может означать, что можно принять меры. Но в ИИ нет никого с явными полномочиями подать такой сигнал тревоги, и люди всегда будут расходиться во мнениях о том, какие достижения считаются доказательством пожара. «Не будет пожарной сигнализации, которая не была бы фактически работающим AGI», — написал Юдковски. Даже если все согласятся с угрозой, ни одна компания или страна не захочет остановиться самостоятельно, опасаясь, что конкуренты ее опередят. ... Это может потребовать резкого отказа от ИИ до того, как мы почувствуем, что пришло время остановиться, а не приближаться все ближе и ближе к краю, искушая судьбу. Но для того, чтобы все это отключить, потребуются драконовские меры — возможно, даже такие экстремальные, как те, которые поддерживает Юдковски, который недавно написал в редакционной статье для Time , что мы должны «быть готовы уничтожить несанкционированный центр обработки данных авиаударом», даже рискуя спровоцировать «полномасштабный ядерный обмен».
^ Форд, Пол (11 февраля 2015 г.). «Наш страх перед искусственным интеллектом». MIT Technology Review . Архивировано из оригинала 30 марта 2019 г. Получено 9 апреля 2019 г.
^ ab Юдковски, Элиезер (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска» (PDF) . В Бостром, Ник ; Чиркович, Милан (ред.). Глобальные катастрофические риски . Oxford University Press. ISBN978-0199606504. Архивировано (PDF) из оригинала 2 марта 2013 г. . Получено 16 октября 2015 г. .
^ Soares, Nate; Fallenstein, Benja; Yudkowsky, Eliezer (2015). «Corrigibility». Семинары AAAI: Семинары на Двадцать девятой конференции AAAI по искусственному интеллекту, Остин, Техас, 25–26 января 2015 г. AAAI Publications. Архивировано из оригинала 15 января 2016 г. Получено 16 октября 2015 г.
^ Мосс, Себастьян (30 марта 2023 г.). ««Будьте готовы уничтожить несанкционированный центр обработки данных авиаударом» — ведущий исследователь выравнивания ИИ пишет статью в Time, призывающую запретить большие кластеры GPU». Data Center Dynamics . Архивировано из оригинала 17 апреля 2023 г. Получено 17 апреля 2023 г.
^ Фергюсон, Ниалл (9 апреля 2023 г.). «Пришельцы приземлились, и мы их создали». Bloomberg . Архивировано из оригинала 9 апреля 2023 г. Получено 17 апреля 2023 г.
^ ab Miller, James (2012). Singularity Rising . BenBella Books, Inc. ISBN978-1936661657.
↑ Миллер, Джеймс (28 июля 2011 г.). «Вы можете научиться быть более рациональным». Business Insider . Архивировано из оригинала 10 августа 2018 г. Получено 25 марта 2014 г.
^ Миллер, Джеймс Д. «Rifts in Rationality – New Rambler Review». newramblerreview.com . Архивировано из оригинала 28 июля 2018 г. . Получено 28 июля 2018 г. .
^ Институт исследований машинного интеллекта . «Неадекватное равновесие: где и как цивилизации застревают». Архивировано из оригинала 21 сентября 2020 г. Получено 13 мая 2020 г.
^ Снайдер, Дэниел Д. (18 июля 2011 г.). «„Гарри Поттер“ и ключ к бессмертию». The Atlantic . Архивировано из оригинала 23 декабря 2015 г. . Получено 13 июня 2022 г. .
^ Пакер, Джордж (2011). «Никакой смерти, никаких налогов: либертарианский футуризм миллиардера из Кремниевой долины». The New Yorker . стр. 54. Архивировано из оригинала 14 декабря 2016 г. Получено 12 октября 2015 г.
↑ Мэтьюз, Дилан; Пинкертон, Берд (19 июня 2019 г.). «Он был соучредителем Skype. Теперь он тратит свое состояние на то, чтобы остановить опасный ИИ». Vox . Архивировано из оригинала 6 марта 2020 г. Получено 22 марта 2020 г.
^ Саперштейн, Грегори (9 августа 2012 г.). «5 минут с визионером: Элиезер Юдковски». CNBC . Архивировано из оригинала 1 августа 2017 г. Получено 9 сентября 2017 г.
^ Элия-Шалев, Асаф (1 декабря 2022 г.). «Синагоги присоединяются к инициативе «эффективного альтруизма». Остановит ли их скандал Сэма Бэнкмана-Фрида?». Jewish Telegraphic Agency . Получено 4 декабря 2023 г.
^ Юдковский, Элиезер (4 октября 2007 г.). «Избегание настоящих слабых мест вашей веры». LessWrong . Архивировано из оригинала 2 мая 2021 г. . Получено 30 апреля 2021 г. .
Внешние ссылки
В Викицитатнике есть цитаты, связанные с Элиезером Юдковским .
На Викискладе есть медиафайлы по теме Элиезер Юдковски.