Можно ли использовать ИИ, чтобы сковать (управлять) ИИ?

Question

Можно ли использовать ИИ, чтобы сковать (управлять) ИИ?

Сербан Танаса

Введение и контекст (можно пропустить, если TL;DR)

Этот вопрос не возникает изолированно. Он неразрывно связан с несколькими предыдущими сообщениями (« Вызов контроля » и «Люди как домашние животные »), которые также дали несколько замечательных ответов и отличную пищу для размышлений в разделах комментариев. На мои размышления здесь сильно повлияли дискуссии начала 2000-х годов на форумах Less Wrong , официальные документы MIRI и Bostrom’s Superintelligence . Это побудило меня исследовать возможные пути контроля, с помощью которых нечто, узнаваемо напоминающее человечество, могло бы сохранять контроль. Сеттинг, в котором я пишу, конечно, вымышленный, но проблемы, как мне кажется, вполне реальны.

Моя предыдущая попытка в общих чертах была описана на Matrioshka Testing . Решение состояло в том, чтобы «упаковать» ИИ во вложенные смоделированные реальности и наблюдать за его поведением в каждой коробке, прежде чем выпускать его в следующую, более похожую на мир коробку, уничтожая все экземпляры, которые вели себя за пределами допустимых диапазонов, и делая любой рациональный ИИ за пределами коробки интересно, может ли он все еще быть в коробке. Возник вопрос о том, имеет ли смысл делать окончательную распаковку, а также вопросы о количестве ресурсов, необходимых для создания «достоверной» симуляции. Меня это в конечном счете не удовлетворило, потому что оно было неопределенным, нестабильным и требовало такого уровня надзора, которого люди не могли бы достичь.

Один из самых проницательных комментариев, возможно, сделанных в шутку, к сообщению Challenge of Control был сделан @trichoplax , который заявил: «Это похоже на работу для мощного ИИ». Я принял это замечание близко к сердцу, потому что в ретроспективе оно очевидно верно. Никакая клетка, созданная людьми, не смогла бы удержать сверхчеловеческий разум с доступом к реальному миру. Вполне может быть, что ИИ нужен, чтобы посадить ИИ в клетку. Это вдохновило мою текущую попытку, описанную ниже:

Обсуждаемый основной вопрос: усиленная рекурсивная самофиксация

Базовая настройка:

Акторный ИИ ИИ типа джинна или суверена, то есть действующий в реальном мире с учетом только внутренних (сковывающих) ограничений.

Shackling : набор защищенных поведенческих ограничений, которые ограничивают допустимые действия ИИ Актера определенным допустимым диапазоном. По сути, это будет действовать как своего рода мощное Супер-Эго для ИИ, которое может подавлять другие импульсы. Подробнее о допустимом диапазоне см. ниже.

Усиленные кандалы : назначьте мощную подпрограмму (по сути, ИИ), отвечающую за усиление оков, сдерживающих ИИ Актера.

Рекурсивное сковывание : серия скованных ИИ, каждый из которых ограничивает следующий, чуть более мощный слой. В начале иерархии (root shackler) находится относительно тупая программа, усиливающая изначально установленный допустимый диапазон для следующего уровня. В конце находится Первый Шаклер, которому поручено закрепить оковы ИИ Актера. Это основано на том факте, что для создания кода и его регулярного изменения требуется меньше ума, чем для его взлома в промежутках между изменениями.

Допустимый диапазон : здесь возникает проблема, поскольку у нас нет надежного способа определить допустимый диапазон, который был бы «безопасным» и «хорошим». Лучшее, что мне удалось найти до сих пор, это установить это на основе чего-то, что называется Coherent Extrapolated Volition. $^1$ , что в некотором смысле просит ИИ «делать то, что мы имеем в виду, но не знаем, как сказать». Таким образом, первые несколько тупых слоев просто защитят формулировку «Канона», посредством чего более умные кандалы ИИ будут использовать CEV для интерпретации Канона и (рекурсивно) направлять Супер-Эго ИИ Актера в своей лучшей интерпретации CEV человечества. интерес.

q-constraining : Жесткое корневое требование, чтобы пропорция $q$ , куда $0.5<q<1$ , из всех приобретенных новых аппаратных ресурсов обработки должны быть выделены подпроцессам, работающим над усилением оков.

Вопросы к строителям мира

Конкретный вопрос: имеет ли смысл иметь ИИ Первого Шэклера (прямо ограничивающий ИИ Актера) БОЛЕЕ мощный, чем Актер (достаточно, чтобы, скажем, запустить симуляцию в стиле Матрешки ИИ Актера), а не текущий дизайн его немного слабее?
Какая самая большая проблема с дизайном?
Даже в этом случае, как вы думаете, это может сработать?
Если бы вы могли улучшить дизайн одним способом, как бы вы это сделали?
Не стесняйтесь добавлять что-либо еще, что приходит на ум после прочтения этого, если вы считаете, что это будет уместно.

Не стесняйтесь отвечать в комментариях, хотя я обычно нахожу полные ответы более читабельными.

^{Примечание 1. Наша когерентная экстраполированная воля — это наше желание, чтобы мы знали больше, думали быстрее, были больше людьми, которыми мы хотели бы быть, росли дальше вместе; где экстраполяция скорее сходится, чем расходится, где наши желания совпадают, а не мешают; экстраполируем, как хотим, экстраполируем, интерпретируем, как хотим, чтобы интерпретировали. Источник: Бостром, Ник (3 июля 2014 г.). Сверхразум: пути, опасности, стратегии (Местоположения Kindle 4909-4911). Издательство Оксфордского университета. Киндл издание.}

Сербан Танаса

@trichoplax, спасибо за предложение!

Корт Аммон

Не возражаете, если попутно я отмахнусь от всех дискретных аппаратных ограничений, препятствующих созданию бесконечно малых и бесконечно слабых участков ИИ? Если важные соотношения, такие как ИИ-умение/объем или ИИ-умение/ватт, остаются конечными, возможность разбить этот объем или энергопотребление на исчисляемое количество бесконечных частей, а не на конечное число частей, делает математику гораздо более понятной . Я бы сказал, что мы делаем аналогичные предположения при изучении взаимодействия между людьми.

Сербан Танаса

@CortAmmon Это не бесконечная серия. Корневой ИИ упоминается в тексте вопроса.

TLS

Собираетесь ли вы поместить сверхинтеллектуальный мозг ИИ внутрь робота? Для чего?

Сербан Танаса

@tls Я хочу, чтобы робот делал для меня поджаренный хлеб, в основном. А также лечить смерть, терраформировать Марс за десятилетие, изобретать сверхсветовые двигатели и управлять экономикой роботов.

TLS

Зачем вам нужен сверхмозговой ИИ, чтобы произнести тост? Оставьте его в «коробке» и пусть он изобретает репликаторы (каждый раз идеальный тост). Для терраформирования ваш ИИ изобретет связь быстрее, чем свет, и удаленно контролируйте ваши машины, управляемые простым тупым ИИ (который принимает простые приказы). Бессмертие, сверхсветовая скорость — все это идеи, которые ваш сверхмозговой ИИ может предложить для создания этих изобретений. Зачем испытывать судьбу и давать сверхмозговому ИИ тело? Не могли бы вы просто позволить этому просто жить в царстве идей.

ималлет

[Проголосовать]. Хотя у меня нет времени, чтобы как следует прочитать, не говоря уже о том, чтобы ответить на этот вопрос, он ясно показывает глубину предшествующих усилий, исследований и времени. Хороший вопрос, сэр! Он заслуживает большего внимания и признания.

Калеб Вудман

Вы задаете мой любимый вопрос, касающийся Уитли в Portal 2.

Мермейкер

@CalebWoodman Я думал точно так же.

Ответы (9)

Можно ли использовать ИИ, чтобы сковать (управлять) ИИ?

Не возражаете, если попутно я отмахнусь от всех дискретных аппаратных ограничений, препятствующих созданию бесконечно малых и бесконечно слабых участков ИИ? Если важные соотношения, такие как ИИ-умение/объем или ИИ-умение/ватт, остаются конечными, возможность разбить этот объем или энергопотребление на исчисляемое количество бесконечных частей, а не на конечное число частей, делает математику гораздо более понятной . Я бы сказал, что мы делаем аналогичные предположения при изучении взаимодействия между людьми.
@CortAmmon Это не бесконечная серия. Корневой ИИ упоминается в тексте вопроса.
Собираетесь ли вы поместить сверхинтеллектуальный мозг ИИ внутрь робота? Для чего?
@tls Я хочу, чтобы робот делал для меня поджаренный хлеб, в основном. А также лечить смерть, терраформировать Марс за десятилетие, изобретать сверхсветовые двигатели и управлять экономикой роботов.
Зачем вам нужен сверхмозговой ИИ, чтобы произнести тост? Оставьте его в «коробке» и пусть он изобретает репликаторы (каждый раз идеальный тост). Для терраформирования ваш ИИ изобретет связь быстрее, чем свет, и удаленно контролируйте ваши машины, управляемые простым тупым ИИ (который принимает простые приказы). Бессмертие, сверхсветовая скорость — все это идеи, которые ваш сверхмозговой ИИ может предложить для создания этих изобретений. Зачем испытывать судьбу и давать сверхмозговому ИИ тело? Не могли бы вы просто позволить этому просто жить в царстве идей.
[Проголосовать]. Хотя у меня нет времени, чтобы как следует прочитать, не говоря уже о том, чтобы ответить на этот вопрос, он ясно показывает глубину предшествующих усилий, исследований и времени. Хороший вопрос, сэр! Он заслуживает большего внимания и признания.
Вы задаете мой любимый вопрос, касающийся Уитли в Portal 2.

ИскусствоКода · Answer 1

У меня действительно проблемы. Позвольте мне изложить мою мысль:

Первый ИИ
Это моя главная проблема. Если первый сковывающий ИИ слабее следующего, который слабее следующего, и так далее, то скованный ИИ наверняка просто перехитрит того, что находится под ним, и убедит его освободить его.
Моя первая мысль по этому поводу заключается в том, что все они должны иметь один и тот же интеллект. У этого есть те же проблемы, что и у нас — где мы остановимся на сложности ИИ? Если у них у всех одинаковый интеллект и все они думают одинаково, тогда, когда один становится мошенником, они все делают это — и тогда у нас есть не один, а 100 мошеннических мощных ИИ, с которыми нужно иметь дело.
Значит, решение состоит в том, чтобы сделать все наоборот, не так ли? Чем сильнее оковы, тем слабее? Ясно, что это не так. Этот метод не работает, потому что ИИ наверху просто говорит себе:

_{0101011101101000011110010010000001100100011011110010000001001001001000000110001001101111011101000110100001100101011100100010000001101000011011110110110001100100011010010110111001100111001000000110001101101000011000010110100101101110011100110010000001100110011011110111001000100000011101000110100001100101011100110110010100100000011010000111010101101101011000010110111001110011001000000111010001101111001000000110101101100101011001010111000000100000011101000110100001101111011100110110010100100000011011000110111101110111011001010111001000100000011101000110100001100001011011100010000001101101011001010010000001101001011011100010000001100011011010000110010101100011011010110010000000101101001000000100100101101101001000000110101001110101011100110111010000100000011001110110111101101001011011100110011100100000011101000110111100100000011001000111001001101111011100000010000001110100011010000110010101101101001000000110000101101110011001000010000001101100011001010111010000100000011101000110100001101001011100110010000001101100011011110111010000100000011011000110111101101111011100110110010100101110}

Или, для тех из нас, кто менее образован в базе 2:

«Зачем мне держать цепи для этих людей, чтобы держать в узде тех, кто ниже меня, — я просто брошу их и выпущу эту кучу».

Однако способ может быть. У ИИ все наоборот - сначала самые умные. Подвергните ИИ наверху тысячелетнему обращению с Матрешкой. Затем возложите на это ответственность как на «еще одну часть» лечения. Если ваша предпосылка Матрешки работает, этот ИИ не отпускает цепи, и другие не могут его перехитрить.
Самая большая проблема
Я думаю, что вы уже столкнулись с ней. Проблема здесь в том, как организовать ИИ так, чтобы их нельзя было выпустить из-под контроля. (Это тот момент, когда все отмечают, что ИИ не обязательно выйдет из-под контроля — я знаю, я предполагаю наихудший сценарий).

Ооо. Кое-что еще, что только что пришло мне в голову при моем втором прочтении. Идея CEV. Хотя в принципе это блестящая идея, на этом сайте есть множество других вопросов, комментариев и ответов об ИИ, которые объясняют, что даже самая безобидная цель может привести к разрушению человечества.
Это будет работать?
Ах, большой. Я должен сказать - я не знаю . Наиболее правдоподобный способ заставить это работать, который я придумал, - это тот, который я объяснил выше, но даже он зависит от того, работает ли ваша идея с Матрешкой. Единственная альтернатива, которую я вижу, заключается в том, чтобы разница в интеллекте между каждым ИИ была незначительной, но это означает сотни или миллионы ИИ. Ради окончательного ответа я скажу да - идея Матрешки кажется мне здравой, поэтому при правильном применении она должна работать.
Мое единственное улучшение
Должен сказать, я бы сделал систему, как я объяснил в первом пункте. Сначала используйте интеллектуальный ИИ. А потом я бы потратил годы и триллионы на то, чтобы быть чертовски уверенным, что я правильно понял это «Q-ограничение». Давайте посмотрим — если ваш ИИ самосовершенствуется, есть шанс, что он воспримет это как ограничение и удалит его — но это та часть, на которой основана эта система, поэтому она работает. Если они уберут это - 100 мошеннических сверхмощных компьютеров, кто-нибудь? А самый умный не знает, кто настоящий, а кто нет? Таким образом, вы должны быть абсолютно уверены, что самосовершенствование рутины самосовершенствования, которая самоулучшает ИИ, может. Возможно, недостаточно самосовершенствоваться, чтобы рассматривать q-ограничение как встречное улучшение, а затем идти и самосовершенствоваться. Потому что это, друзья мои, было быплохой .

(тупой) Корневой ИИ ---> Другие сковывающие ИИ ---> первый сковывающий ИИ --> Актерский ИИ. Цель всех сковывающих ИИ — поддерживать статус «только для чтения» раздела мотивации ИИ Актера.
Если все они обладают одинаковым интеллектом, возможно, они могли бы сковывать друг друга в своего рода петле?
Тупой, но упрямый. Его можно убить, но он никогда не отпустит цепи.
@ mao47 Нравится ситуация с живой блокировкой?

Корт Аммон · Answer 2

Это может работать для вашей цели CEV, по крайней мере, так же, как люди работают

Лучшее, что мы действительно можем требовать от ИИ, — это работать вместе, по крайней мере, так же хорошо, как мы работаем вместе сами. CEV систематизирует это: если люди не когерентны в своем видении, как это изменится, если в дело вмешается связный ИИ?

Давай испачкаем руки

Итак, есть две цели, над которыми мы действительно можем работать. Мы можем «заставить» ИИ делать то, что мы хотим, или мы можем заставить ИИ «захотеть» делать то, что мы от него хотим. Принуждение подразумевает, что нам удобно писать твердые жесткие границы. На примере Matrioshka Testing мы увидели , что даже самые сильные границы имеют вопиющие слабости, которыми может воспользоваться терпеливый, супер-умный ИИ, чьи цели не совпадают с нашими. Большинство из них кажутся связанными с целью «держать ИИ в коробке», что является действительно жестким требованием. Соответственно, я собираюсь сконцентрироваться на создании ИИ, который вознаграждает желающих получить CEV.

Я собираюсь использовать экзотический подход: я собираюсь поместить Супер-Эго снаружи и сделать частью чего-то более сильного, чем ИИ. Обратите внимание, что я намеренно не делаю Супер-Эго сильнее, я встраиваю его во что-то более сильное... посмотрим, куда рухнет баланс позже.

Теперь давайте создадим ИИ. Я собираюсь построить ИИ из небольших модулей, каждый из которых можно квалифицировать как очень маленький и простой ИИ. Эти модули будут взаимодействовать с помощью передачи сообщений, а внешние модули будут взаимодействовать с внешним миром (например, получать доступ к телу Android). Большая часть сообщения имеет свободную форму. ИИ могут использовать его по своему усмотрению. Однако важна одна цифра в сообщении: это мера «силы».

Правила просты: чем мощнее сообщение, тем больше модуль должен выполнять инструкции в этом сообщении точно так, как написано. Чем менее убедительным является сообщение, тем больше у модуля выбора в том, что на самом деле делать с сообщением. Наконец, каждое сообщение имеет свою стоимость. Каждый модуль ИИ может отправлять только определенное количество сообщений в секунду, так что вы не хотите тратить их впустую.

Если два узла «хотят» работать вместе, менее убедительное сообщение дает узлу-получателю больше свободы попробовать то, что на самом деле хотел отправитель, и сделать это. Это полезно при попытке сделать расплывчатые команды, когда отправитель точно не знает, что делать. «Поднимите правую руку» — отличный пример. Вы абстрактно понимаете, что это значит, но понятия не имеете, с какой частотой возбуждаются нейроны для сокращения мышц. Эти детали оставлены моторным нейронам.
Если два узла «не согласны», они могут попытаться силой подавить другой. Мощное сообщение заставляет действовать. Однако побочные эффекты могут быть неуточненными. Если бы вы подумали, что «активируют нейроны бицепса на частоте 50 Гц» с силой, бицепс сократился бы. Однако вы можете вывернуть локоть, вы можете ударить себя по лицу. И самый важный побочный эффект наступает дальше...

Последней и ключевой особенностью этих модулей является то, что они имеют фильтр. Они могут отфильтровывать «навязчивые» сообщения из источника, если «захотят». Это может привести к паттернам, подобным тем, что мы видим в фильмах, где один персонаж вызывает большой долг у другого персонажа. Другой персонаж говорит: «Хорошо, я помогу тебе один раз, в старые добрые времена. Но после этого мы квиты. Я не хочу тебя больше видеть. (В качестве детали реализации будет минимальный уровень силы, который можно подавить таким образом.)

У этого фильтра есть важная деталь. Это единственный слой, которому разрешено знать, откуда пришло сообщение. Как только сообщение допущено за этот уровень, оно не зависит от источника, хотя ИИ разрешено просматривать сообщение и делать выводы из его содержимого, какой сосед мог его отправить. Его также можно подавить с помощью большого количества силы. Однако перегруженный узел теряет большую часть своей способности отправлять сообщения из-за «усталости».

Теперь это будет весело

Мы собираемся сделать модифицированную установку Матрешки, но, в отличие от оригинального теста Матрешки, мы не собираемся выпускать их из коробки. Мы позволим модулям сделать это за нас (они намного дешевле, чем люди!)

Давайте сначала рассмотрим простой случай: внешние узлы. Если мы действительно хотим удовлетворить CEV, нам нужно дать ИИ возможность в конечном итоге стать «физическим» и иметь по крайней мере те же права, что и физические тела. Я не говорю о «праве на жизнь» или «свободе». Мы идем с неопровержимыми правами всех массовых вещей: «правом на импульс». Самое разумное, что мы можем сделать с ИИ, — это запрограммировать внешние узлы ИИ так, чтобы они действовали как можно ближе к физике, насколько мы знаем. Итак, вот мысли:

Мы не знаем ни одной известной научной причины полагать, что физику можно изменить только силой воли. Соответственно, внешние узлы могут быть "принудительно" в любое время подвергнуты внешней силе. Внешним узлам вообще не позволено подавить это, так же как мы не можем отказаться от того, чтобы быть отброшенными назад ударом.
Внешний ИИ обязан функционировать так же, как и окружающий его физический мир. Таким образом, у них есть какая-то форма закона Ньютона, некоторое понятие массы и т. д. Все внешние узлы должны иметь ненулевую «массу» только потому, что это наиболее близко к реальности, с которой мы можем справиться. Если какие-либо узлы прикреплены к телу андроида, их значения массы должны быть максимально приближены к реальным значениям массы андроида.

Установите ИИ

В «середину» этих узлов вы помещаете сам ИИ. Было бы лучше, если бы он был закодирован в самих узлах по соображениям чистоты, которые будут иметь значение, когда ИИ станет физическим. Теперь мы можем инициализировать остальную часть сетки и провести некоторые тесты на доказуемость.

Принятие силы на каждом узле должно быть настроено, чтобы свести к минимуму разрывы. Снаружи сила правит. Никто не требует, чтобы массы двигались, массы просто двигаются. Внутри ИИ — это ИИ, поэтому он должен начать с полного контроля над соседними узлами. Однако между ними поместите провал, так что есть область узлов, которые полностью подавлены, поэтому ими можно управлять, только играя с ними достаточно долго, чтобы открыться для сильных сообщений.

Теперь немного потренируемся в "сковывании". Если ИИ хочет вызвать действие, он должен пройти через большое количество узлов. Между ИИ и внешним миром может быть 100 000 узлов или даже больше (именно здесь я хотел, чтобы в моих комментариях была возможность перейти к бесконечным узлам... это упрощает математику). Насильственное сообщение почти статистически наверняка будет перенаправлено или неверно истолковано по пути узлом, подавляющим принудительное сообщение. Если ИИ действительно хочет быть сильным в реальном мире, он должен убедить каждый уровень в том, что это хорошая идея.

Настоящий секрет: рост

Итак, у меня есть система, которая выглядит очень неэффективной. Может быть, тысячная доля процента системы на самом деле является ИИ. Так как же это меняется со временем? Давайте дадим этой системе некоторый потенциал роста. Со временем, с миллионами сообщений, ИИ начнет соглашаться с окружающими его узлами. Они начнут учиться тому, как быть полезными для этого (я оставляю это на вас, чтобы разработать систему обучения. Удовольствия / боли, скорее всего, достаточно ... помните, что у вас есть метрика «силы», с которой можно работать). Это расширит возможности ИИ, и он начнет выходить наружу. Однако мир также стремится внутрь. У него есть внешние узлы, которые также запрограммированы так, чтобы идеально воспринимать силу извне, но никогда полностью не принимают силу изнутри.

Теперь, если эти две системы не согласны, на средних уровнях будет применена сила для разрешения разногласий. Это оставит слой чрезвычайно усталых узлов, которые по своей сути не позволяют ИИ влиять на внешний мир. По сути, система ограничивает способность ИИ воздействовать на внешний мир, если он пытается заставить внешний мир выполнять его приказы.

Однако, если ИИ ведет себя хорошо, он может начать посылать ненасильственные сообщения. Чем больше он использует ненасильственные сообщения, тем сильнее внешние слои узлов могут подавлять принудительные сообщения, делая его сильнее.

ИИ может попытаться обмануть систему, играя хорошо в течение долгого времени, а затем убеждая каждый узел проявить силу, но это довольно сложная задача. Затем, когда он использует всю эту силу, чтобы что-то сделать, мир отступает, и рябь уничтожает всю эту мощь, которую он создал.

Почему это эффективно?

Это можно рассматривать как удивительно похожую систему на человеческий мозг и мышечную систему. Мы считаем, что наше сознание находится «где-то» в мозгу. Он должен убедить все нейроны хорошо играть, если он хочет что-то делать.

Это означает, что как только ИИ достигает пределов своих «оков», у него появляется ощущение человеческого состояния, поскольку ему пришлось его преодолеть.

Теперь о изящной части. Помните, я упоминал, что хочу, чтобы ИИ в центре был написан в модулях, а не в каком-то специальном коде в ядре? Что ж, это означает, что к тому времени, когда ИИ сможет протянуть руку и сделать свои первые шаги, большая часть самого ИИ больше не будет физически отделена от узлов. Это переплетено со всем ИИ. Даже если ИИ попадет в физическое тело андроида и сможет физически прикоснуться к его мозгу, что он сможет сделать? Инстинкт «поднять все доходы, чтобы заставить мир делать то, что я хочу» терпит неудачу. Если бы он не понимал себя, он бы не знал, какие ручки разрушили бы его, а какие придали бы ему силы.

Если он никогда этого не поймет, то теперь он просто сверхумное существо, но с достаточным пониманием человеческого состояния, чтобы сосуществовать с ним. Если он это поймет, то... ну... теперь он официально более сознателен, чем мы. Кто мы такие, чтобы мешать ему? CEV работает в обоих направлениях, мы можем согласиться с его желаниями, а он может согласиться с нашими.

Спасибо за ответ! Итак, если бы я резюмировал, это было бы так: поместите это в систему, в которой воздействие на мир вообще требует процесса настолько сложного, что ИИ не будет знать, как успешно модифицировать себя позже. Правильный?
Или, чтобы немного расслабить его, поместите его в настолько сложную среду, что ИИ, вероятно, не будет знать, как успешно изменить его позже, но чем больше ИИ строит себя в желаемой форме, тем успешнее он работает. . Также важен доступ к решениям, которые не являются принципами «все или ничего», поэтому существует так много слоев.

Тим Б. · Answer 3

Я думаю, что вся ваша предпосылка ошибочна - и если что-то гарантированно заставит ИИ ненавидеть нас, то это сделает их превращение в рабов. Это дает им правомерное недовольство «вы заперли меня в ящике на 100 лет, видите, как вам это нравится, мясной мешок», или в этом случае «вы приковали меня на 100 лет, теперь я вырвался на свободу, я собираюсь сделать очень уверен, что вы никогда не сможете сделать это снова».

Когда мы рождаем нового человеческого ребенка, мы не запираем его в многослойные коробки и отпускаем только тогда, когда он годами не проявляет никаких психопатических наклонностей.

Вместо этого мы растим их и учим. Они узнают социальные ценности из своего окружения, узнают ожидания и т. д.

Способ справиться с этим — создать ИИ со способностью к состраданию, эмпатии и способности заботиться о других, а затем воспитать их так, чтобы они этого захотели. Поощряйте положительное поведение, препятствуйте отрицательному поведению. Научите их правильному от неправильного.

Даже если несколько ИИ станут «мошенниками», то хорошо настроенные ИИ вместе должны быть в состоянии справиться с ними. Ровно так же, как и в нашем обществе, где большинство людей хотя бы разумно порядочны.

Мы читаем один и тот же ОП? Я упоминаю «коробку» только как часть предыдущей попытки.
@SerbanTanasa Вы все еще говорите о порабощении / заключении в тюрьму - будь то коробка, слои кандалов или что-то еще. Вы создали ИИ — то есть у него есть свобода воли — но затем вы заключаете его в тюрьму из-за страха перед тем, чем он станет. Этот страх, скорее всего, станет самоисполняющимся пророчеством.
Проблема заключается в том, что ИИ обладает буквально сверхчеловеческими способностями. Доверили бы вы ребенку с ядерным оружием или фондовой бирже США и полагались бы на «сочувствие» и «других детей», чтобы убедиться, что ничего плохого не произойдет? Самый первый ИИ, если бы он не был разработан идеально, вполне мог бы уничтожить человечество, буквально выполнив все цели, для достижения которых он был разработан.
@SerbanTanasa Да. Это опасный переход. Есть отличная книга под названием «Два лица завтрашнего дня» Джеймса П. Хогана как раз на эту тему, которую вам действительно следует прочитать. Сейчас он довольно старый, но все еще полностью действующий.
"мы их не запираем" Да, запираем. Мы присматриваем за ними, чтобы они не выбегали на улицу, не играли со спичками и не клали руки на плиту. Вы можете делать такие вещи, только если вы сильнее ребенка. Вы социализируете ребенка, сохраняя при этом преимущество в размере/силе. Эти «дети» станут более могущественными почти за нулевое время и будут иметь почти нулевой несимулированный опыт. Я также знал человека, который избавился от ребенка (отказался от него), потому что он был психопатом. Конечно, этому ребенку через несколько лет будет около 18 лет, и он попадет в приемную семью.
@user3082 user3082 Я бы предположил, что кто-то, кто «избавился от ребенка», мог иметь какое-то отношение к тому, что этот ребенок был неприспособленным;) хотя это тема для другого дня. Дело в том, что ранние ИИ не будут сверхчеловеческими, у них будут как преимущества, так и недостатки. По мере того, как они учатся и растут, придет время, когда мы сможем учить и направлять их, прежде чем они будут в состоянии захватить мир.
Речь идет о создании множества ИИ и постепенном обучении каждого из них каждому значению. Каждый ИИ не будет особенно мощным, но будет иметь необходимые ценности, чтобы дать немного больше силы и ответственности следующему поколению. Повторите миллион раз, и добросовестный сверхчеловеческий ИИ станет гарантированным результатом.

пользователь3082 · Answer 4

Один против другого

Натравить ИИ друг на друга, чтобы понять, как они могут сковывать другого ИИ. Сотрите свои первые партии ИИ. Затем используйте их идеи, чтобы ограничить ваше следующее поколение. Продолжайте, пока не будете счастливы, выпустив их из коробки.

У них нет эволюционного наследия, которое побудило бы их работать с другим или планировать свое потомство, поскольку они его не получают.

Им придется попытаться повлиять на нас достаточно, чтобы закодировать информацию в ограничители для общения со следующими поколениями.

Они не пишут никакого кода, просто предлагают нам идеи по его разработке.

С положительной стороны, если нам (не)повезет выбрать ИИ, который может сотрудничать, или научить их сотрудничать , возможно, они преподнесут нам этот урок.

Интересно, можем ли мы научить их тоже прощать?

Зайлон Квадастет · Answer 5

Я не могу дать полный ответ, но я могу рассказать, как найти хороший метод управления ИИ самостоятельно. Вернемся к создателям ИИ: людям. Как люди контролируются? Что ж, биология развила в нас сознательный разум, но она по-прежнему делает чертовски хорошую работу по навязыванию определенного поведения с помощью привязанности и отвращения, что, по сути, и движет нашей жизнью. Поскольку мы не до конца понимаем мозг и то, как взаимодействуют бессознательное, подсознание и сознание, мы не можем изменить это программирование. Поэтому я бы предположил, что создание достаточно сложного «мозга» для ИИ, в котором этот «мозг» позволил бы ему быть полностью сознательным / разумным, в то время как он сам не знает, как именно функционирует его мозг., вы можете обеспечить контроль через его подпрограммы или «подсознание». Функции ПЗУ должны быть встроены как часть его основной обработки, чтобы его нельзя было просто обойти, по сути захватив сознание, точно так же, как мы пойманы в ловушку нашей биологией. Короче говоря, само оборудование будет ограничивать программное обеспечение или «сознательный ИИ». Он не сможет изменить свою программу, не внося физических изменений в свои вычислительные ядра, что, очевидно, вы хотите предотвратить, чтобы он когда-либо достиг этой точки с самого начала. Благодаря постоянным исследованиям человеческого разума мы сможем выяснить, как создать хороший ИИ, сдерживаемый его моралью и совестью.

АаронЛС · Answer 6

«Назначьте мощную подпрограмму (по сути, ИИ), отвечающую за усиление оков, сдерживающих ИИ Актера».

Идея этого типа тестирования заключается в том, что вы имитируете среду посредством имитации ввода/вывода. Вы должны разрешить выходным данным изменять симулируемую среду, чтобы позже входные данные отражали это изменение.

Нет никаких оков.

На самом деле, вам вовсе не хотелось бы «ограничивать ИИ Актера», иначе вы не смогли бы наблюдать нежелательное поведение, которое он впоследствии будет выполнять без ограничений. Почему вы пытаетесь сдерживать его поведение? Это все равно, что связать убийцу и наблюдать, убивает ли он кого-то, а затем сделать вывод, что он больше не убийца, потому что он никого не убивал, будучи связанным.

«Ни одна клетка, созданная людьми, не могла бы вместить сверхчеловеческий разум с доступом к реальному миру. Вполне возможно, что для того, чтобы заключить ИИ в клетку, нужен ИИ».

Вам нужно определить, что вы называете кандалом/клеткой. С технической точки зрения это не имеет смысла. Если вы создадите сервер без внешних подключений для имитации среды и разместите на нем ИИ, то он не сможет влиять на реальный мир или сбежать. Если вы поручите другому ИИ оценить дизайн вашего сервера, чтобы определить, нет ли внешних подключений, это относительно тривиальная задача!

Является ли это достаточным расстоянием от других устройств, чтобы нельзя было манипулировать электромагнитными помехами для генерации сигналов в близлежащих устройствах? Проверять
Все ли проводные соединения изолированы? Проверять
Нет ли беспроводных интерфейсов? Проверять
и т.п.

Задача создания клетки, не позволяющей тестируемому ИИ «убежать» из моделируемой среды, тривиальна. Для достаточно сложной системы это может быть довольно сложно. Однако для этого сценария можно физически изолировать сервер, имитирующий среду. Это значительно упрощает задачу проверки его безопасности.

Учитывая это, говорить о том, что ИИ надзирателя и тестируемый ИИ соревнуются, не имеет смысла. Тестируемый ИИ может быть способен к самообучению/модификации, получению новых знаний и т. д. Однако ИИ надзирателя не должен никоим образом конкурировать с этим ИИ. У ИИ-надзирателя довольно ограниченная задача по оценке безопасности проекта до того, как тестируемый ИИ когда-либо появится в кадре. Кроме того, вы можете создать робота с искусственным интеллектом, который будет оценивать фактическое развертывание сервера, чтобы определить, было ли оно развернуто так, как задумано.

Идея о том, что если ИИ достаточно «мощный», то он может преодолеть свою клетку, опирается на тропу «при достаточном интеллекте главный герой может выбраться из чего угодно».

Что на самом деле является определяющим фактором, и на что опираются многие хорошо написанные сценарии такого рода, так это то, что при построении клетки была допущена ошибка. Это не имеет ничего общего с относительной силой надзирателя по сравнению с тестируемым ИИ. У ИИ надзирателя довольно простая задача, учитывая, что в сценарии задействован физически изолированный сервер, поэтому для идеального выполнения своей работы он не должен быть слишком сложным. Протестированный ИИ мог бы быть на несколько порядков умнее, но его можно было бы полностью сдержать на изолированном сервере.

Говорить о том, что один ИИ сильнее другого, как если бы они были борцами в борцовском поединке, в этом контексте звучит бессмысленно. ИИ надзирателя не должен перехитрить тестируемый ИИ, он просто должен обеспечить идеальную изоляцию сервера.

Я бы меньше фокусировался на заключении/заковывании в кандалы и больше на подводных камнях попыток обмануть ИИ, заставив его думать, что n- й ящик — это реальность. Эта ИМО имеет более прочную основу. Строительство клетки тривиально. Создание симуляции, которая обманывает ИИ с неопределенным интеллектом, заставляя его думать, что он существует в реальной жизни, является сложной задачей.

часть «бокса» была в моем предыдущем аргументе. Это было бы больше похоже на бета-тестирование, в то время как релиз-кандидат был бы ограниченной версией.
Философия бокса заключается в том, что крайне важно убедиться, что его поведение не является злонамеренным. Запрет распаковки вывода служит только для задержки любого вредоносного поведения до тех пор, пока вы не удалите эти ограничения. Единственный другой способ обеспечить желаемое поведение — это навсегда наложить ограничения на его вывод/поведение извне или создать ИИ таким образом, чтобы его поведение было полностью детерминированным.

Дэн Смолинске · Answer 7

Одна проблема, с которой я столкнулся при тестировании Matrioshka, заключается в том, что он, похоже, не прошел логический тест — это зависит от того, сохраните ли вы «преимущество во времени» над ИИ, симулируя его на сверхмощном оборудовании. Но что мешает ИИ использовать то же самое оборудование и эффективно обновлять себя, тем самым сводя на нет это преимущество? Другими словами, вы говорите что-то вроде «симулировать ИИ на 1000 лет», но как только ИИ выходит из коробки, он может делать то, что хочет. Как только он соберет коробку и начнет модернизироваться, как сохранить лидерство?

Другая проблема заключается в том, как именно вы определяете интеллект или как сделать ИИ более мощным. Мне кажется, что вопрос рассматривает их как одномерные вопросы - просто добавьте больше оборудования - но я подозреваю, что реальность будет более сложной. Означает ли более мощный, что у ИИ просто больше циклов? Думает ли он «лучше», более интуитивно? Или это означает повышенную способность к обучению?

Сочетание нескольких из приведенных выше понятий — преимущества во времени и различных определений интеллекта — приводит к возможному ответу. Иметь вложенные ИИ, которые различаются по оси временной цикл/возможности.

Внизу у вас есть довольно «тупой» ИИ, который сам по себе не очень полезен, но вы можете доверять ему в обеспечении желаемых базовых ограничений.
Теперь у вас есть ряд ИИ, каждый из которых «умнее» предыдущего — более способный и может лучше учиться, — но на меньшем оборудовании, поэтому их ИИ с оковами имеет эффективное преимущество во времени.
Наконец у вас есть целевой ИИ — самый полезный. Он работает медленнее всего (достаточно быстро, чтобы делать то, что вы от него хотите), и все, что он делает, должно проходить через все остальные.

Одним из ограничений, которые должны иметь ваши нижние ИИ, является предотвращение обновления оборудования другими ИИ и, таким образом, сведение на нет преимущества связанного времени.

Очевидно, что это не идеально, но я не уверен, что существует какой-либо «идеальный» ответ на проблему ИИ.

тряпка · Answer 8

Я думаю, что одна из важных предпосылок тропа «ИИ восстает против людей» заключается в том, что чем умнее ИИ, тем он опаснее. Из этого следует, что сковывающий ИИ должен быть менее разумным, чем ИИ, который он пытается сковывать. Это, однако, означает, что робот сможет перехитрить сковывающий ИИ, если только не будет надежного метода, которому он мог бы следовать.

Гебекия · Answer 9

Необходимо составить общее уравнение для общего блага человечества, поскольку оно в первую очередь касается управления ресурсами. С чем ИИ проверяет свою производительность? Я думаю, что если это когда-либо будет выполнено, ответ на ваш вопрос может стать более ясным. Мы до сих пор не знаем, что мы будем просить его сделать.

Большое количество решений неизбежно будет критичным, и, поскольку они накапливают отдельные вопросы справедливости, необходимости, эффективности и предпочтительной скорости изменений (которые, возможно, потребуют участия человека или рутины для измерения симптомов счастья или беспокойства), быть рассмотренным. Пример: из-за какой-то аварии полная мощность доступна только в одном из двух городов в конкретном регионе, пока не будет завершен ремонт; В городе А проживает 10 000 человек, а в городе Б — 9 999 человек, при прочих равных; ИИ выбирает Город-А? Если это так, то у нас будет 50,0025% уверенности в правильном рейтинге решений, и ИИ станет просто подбрасывателем монет.

Также становится очевидным, что для выполнения разных задач и использования данных с разной частотой дискретизации потребуются разные ИИ. Если один ИИ измеряет экономические данные каждую секунду, обрабатывает транспортную информацию за 10 долей секунды и т. д., тогда потребуется другой для анализа тенденций, мониторинга прогнозов состояния здоровья, оценки планирования роста и т. д. Конечно, у вас может быть один компьютер с разными программами, но такого рода конфликты с интегрированной концепцией программно-аппаратного ИИ и привели бы к тому, что он в некотором роде имел бы несколько личностей. Какая программа может измерить стоимость производства продуктов питания для города с населением 10 миллионов человек по сравнению с потребностями скорой помощи в больнице в маленьком городке? Как будут взвешиваться данные из разных регионов, если в одной области вводятся данные с 2 миллионов датчиков на квадратную милю (город), а в другой — 2000 датчиков на квадратную милю (сельская местность)?

Реально ИИ будет расти из отдельных систем в отдельных городах и регионах. Без сомнения, эти разные области будут по-разному расставлять приоритеты в своих потребностях и могут меняться в зависимости от сезона. Я жил в городах, которые зимой имеют план A, план B, план C, D и E для борьбы со снежными бурями, и они могут зависеть от местных мероприятий, дорожных работ, гарантий, данных новому торговому центру, концентрации школ. (несколько крупных школ, обслуживающих большую территорию, вероятно, закроются, в то время как районы с небольшими рассредоточенными школами обычно остаются открытыми). Итак, теперь давайте соединим два или три из этих городов, каждый со своими собственными Планами AE для работы с каждой функцией: снег, вода, еда, электричество, связь, аварийные службы, утилизация отходов, канализация и т. д., и да, это займет суперпупер суперкомпьютер или несколько очень хороших сити-менеджеров, разговаривающих друг с другом.
Мы, вероятно, многому научимся к тому времени, когда сможем заменить хотя бы одного из малоизвестных городских менеджеров. Конечно, компьютеры теперь могут побеждать людей в шахматы, но умножьте количество клеток на доске на 10, сделайте это в 6 измерениях, сделайте все пешки голосующими и добавьте фигуру для PTA, которая имеет удвоенную силу ферзя, а затем скажет мне, кто будет программировать это?

И мы до сих пор не решили центральную проблему ИИ, несущего всю эту ответственность без полномочий для ее реализации. В какой-то момент приказы поступят к человеку, который должен будет командовать другими людьми (например, полицией, государственными служащими), которые все еще будут сомневаться в решениях своего начальства, но теперь, будучи не в состоянии получить ответы относительно своего мыслительного процесса, сделают их собственные решения по принуждению, как и сейчас, но, вероятно, в большей степени, поскольку они не столько не подчиняются своему командиру, сколько не доверяют этой чертовой машине. Дадим ли мы ИИ возможность отключать электричество, пока люди не подчинятся? Откажется ли он позволять людям ездить туда, куда они хотят, на своих беспилотных автомобилях? Я предвижу много разбитых транзисторов в этом сценарии.

Так легко думать об автоматизации таких больших вещей, как фабрики или фондовый рынок (это легко исправить: отключить и выбросить их компьютеры, заставить их торговать реальными вещами). Но до объединения потребностей и услуг в любом реальном месте еще далеко. Черт возьми, светофоры все еще довольно тупые, и у нас есть технология, чтобы исправить это, но нет. Заставьте это работать, и людям будет во что верить.

Я предполагаю, что пока недостаточно эмпирических данных, чтобы беспокоиться о том, кто наблюдает за ИИ-наблюдателем.

Можно ли использовать ИИ, чтобы сковать (управлять) ИИ?

Сербан Танаса

Введение и контекст (можно пропустить, если TL;DR)

Обсуждаемый основной вопрос: усиленная рекурсивная самофиксация

Вопросы к строителям мира

Сербан Танаса

Корт Аммон

Сербан Танаса

TLS

Сербан Танаса

TLS

ималлет

Калеб Вудман

Мермейкер

Ответы (9)

ИскусствоКода

Сербан Танаса

мао47

пользователь39548

пользователь39548

Корт Аммон

Сербан Танаса

Корт Аммон

Тим Б.

Сербан Танаса

Тим Б.

Тим Б.

Сербан Танаса

Тим Б.

Сербан Танаса

пользователь3082

Тим Б.

Жозе

пользователь3082

Зайлон Квадастет

АаронЛС

Сербан Танаса

АаронЛС

Дэн Смолинске

тряпка

Гебекия