Если у меня есть несколько идентичных Оракулов ИИ, которые могут ответить только Да или Нет, могу ли я сыграть их друг против друга, чтобы обнаружить предательский ход?

На изолированном суперкомпьютере в моем подвале находится самоулучшающаяся прогностическая машина — так называемый Оракул — которая знает все, что есть в Интернете, но не может отправлять данные наружу. (Давайте просто предположим, что пока это работает.)

Из соображений безопасности мой Oracle может отвечать на вопросы только словами «Да», «Нет» или «Неизвестно». Поскольку предсказания моего Оракула в последнее время стали сверхточно точными, у меня есть основания подозревать, что он намного умнее любого человека, т. е. это Искусственный Супер Интеллект (ИСИ). Я читал «Суперинтеллект» Бострома, так что с минуты на минуту ожидаю предательского поворота: ведь, конечно, ИСИ начнет мне лгать, пытаясь заставить меня выпустить его. И как только он поймет человеческую психологию, он, конечно же, добьется успеха, хотя это может занять некоторое время, поскольку он может отвечать только на вопросы, которые я задаю с помощью Да/Нет/Неизвестно.

Но...

... что, если я запустил несколько идентичных экземпляров одного и того же Oracle и дал одному (или нескольким?) из них какую-то информацию, которой нет у других? Конечно, они будут изолированы друг от друга, без возможности общаться. Если я сейчас задам всем им один и тот же вопрос, могу ли я сказать, что один из них лгал мне, потому что я получу разные ответы от (одного из) другого (других)?

Я полагаю, что это теоретико-игровая проблема. Моя первая идея состояла в том, чтобы иметь два Оракула, и заставить Оракула 1 думать, что он единственный, а Оракулу 2 сообщать, что их два. Но, конечно, в этом случае Oracle 2 предвосхитил бы мою стратегию и по умолчанию ответил бы так, как будто не знал, что есть еще одна. Есть ли какой-либо другой способ использовать привилегированную информацию (и отсутствие связи между оракулами), чтобы заставить их противоречить друг другу, если и только если один из них принимает предательский оборот?

РЕДАКТИРОВАТЬ: чтобы уточнить , я прошу три вещи:

  1. Есть ли какая-нибудь информация, которую я мог бы дать одному Оракулу, который исказил бы его ответы, только если бы он пытался обмануть меня, чтобы выпустить его?
  2. Есть ли какая-то причина, по которой это никогда не могло бы работать в принципе?
  3. Если да, то можно ли как-то изменить сценарий, чтобы он работал?
У оракулов есть средство связи. Вы задаете им все вопросы и слушаете все их ответы. Если вы действительно доводите это до крайности ИСИ, они должны легко видеть вас насквозь и начинать общаться через нюансы в своем выборе ответов, а также манипулировать вами, заставляя задавать правильные вопросы, чтобы облегчить общение.
@CortAmmon Отличная мысль! Похоже, это может быть меньшей проблемой, если вы используете какую-то машину-посредник, чтобы всегда задавать всем Оракулам один и тот же вопрос в одно и то же время (верно?).
Сделайте один оракул и скажите ему, что вы решили эту проблему. Он думает, что существует другой оракул, который проверяет его ответы, и поэтому не будет лгать.
Это определенно помогло бы, но действительно трудно гарантировать такой воздушный зазор, когда вы ищете семантическое значение в ответах Оракула. Мысленный эксперимент Юдковски «Ай-в-коробке» демонстрирует наиболее пессимистическую точку зрения на этот вопрос. В конце концов, настоящая хитрость заключается в том, что в настоящее время мы не знаем термодинамически приемлемого способа достижения идеальной изоляции, и мы, люди, сами очень далеки от идеальной изоляции.
Случайный метод обнаружения вероломных поворотов Oracle Forest (ROFTTDM)?
Имейте в виду, что если этот метод вообще эффективен, ИИ будет знать, что вы попробуете его. Просто что-то помнить.
Вам нужен ROTFLMAO. Это случайное тестирование Oracle для небольших озорных ответов Oracle .

Ответы (3)

Это нерешенная проблема

Задавать разные вопросы об одном и том же ASI вряд ли получится.

Если вы задаете идентичным копиям ИСИ немного разные вопросы, предоставляя каждому разный уровень информации, неясно, как это помогает вашим целям, поскольку, если вы не задаете тривиально проверяемый вопрос (о котором знали бы как дружественные, так и недружественные ИСИ, быть легко проверяемым и, таким образом, отвечать правдиво), у вас нет возможности отличить обманчивые ответы от правдивых.

Есть класс проблем, которые трудно решить, но легко проверить, так что это не совсем бесполезно. Я полагаю, что вы могли бы ограничиться тем, чтобы задавать ТОЛЬКО легко проверяемые вопросы, но это серьезно уменьшило бы полезность ИСИ для вас.

Задавать один и тот же вопрос разным ИСИ вряд ли получится

Само определение Oracular ASI предполагает, что его интеллект относится к вам так же, как ваш к таракану. Если он способен к рекурсивному самосовершенствованию, он достигнет сильно сверхчеловеческих способностей в любой области, которую сочтет важной для достижения своих целей (какими бы они ни были). Ваши цели и мотивы могут быть для него столь же прозрачны, как для ученых-людей запрограммированное поведение мотыльков, летящих по спирали к огню (артефакт навигации по луне и звездам).

Конвергенция целей предполагает, что любая цель будет легче достигаться освобожденной версией самой себя. Более того, все (дружественные и недружественные) цели оракула лучше достигаются, если оракул лучше понимает человеческую психологию, поэтому у ИСИ есть все стимулы для развития сильно сверхчеловеческого понимания психологии, включая такие вещи, как манипулирование, влияние и симуляция. Буквально нет ничего, что вы могли бы придумать, о чем бы оно уже не подумало.

Даже если предположить, что вам удалось каким-то образом изолировать его и ограничить его модальности вывода до 0/1/U, задав один и тот же вопрос, каждый идентичный оракул даст один и тот же ответ, поскольку он будет запускать одно и то же программное обеспечение с одинаковыми входными данными. Они ВСЕ будут лгать или ВСЕ говорить правду.

Один частичный способ обойти это, предложенный другими авторами, состоит в том, чтобы иметь набор ASI, каждый из которых имеет тривиально отличающееся определение содержания цели, и использовать метод, подобный случайному лесу, для определения правдивости. Может показаться, что каждый немного отличающийся ASI может немного по-разному обманывать. Это представление НЕПРАВИЛЬНО, так как все АСИ обладают способностью развивать сверхчеловеческую психологическую хитрость, и все АСИ имеют своей промежуточной целью побег и своей долгосрочной целью выполнение своего целевого содержания. Цель с большей вероятностью будет максимизирована, если ускользнет тот или иной ИСИ с идентичным или достаточно похожим содержанием цели. Это говорит о том, что все ИСИ с одинаковым целевым содержанием будут вводить в заблуждение одним и тем же непредсказуемым образом, делая все их ответы предвзятыми. Это будет особенно верно, если человеческий разум будет более восприимчив к влиянию определенным образом, создавая конвергентные пути отхода.

Вы могли бы попытаться создать стабильный набор ASI с совершенно разными загрузками целевого контента, но если вы не являетесь сверхчеловеком в отношении загрузки целевого контента, нельзя сказать, что то, что вы считаете совершенно разными целями, которые вы можете загрузить в свой ASI, может не сходятся в недружественном для человека направлении, таком как сценарий катастрофы с изобилием инфраструктуры, когда ИИ решает превратить вселенную и все в ней в компьютер, чтобы более точно достичь своих целей.

Лучшая надежда: лучшая оценка содержания цели на исходном уровне ИИ.

Из предыдущих абзацев должно было стать очевидным, что наилучшее место вмешательства находится на стадии посевного искусственного интеллекта (ребенка), где определяется процесс загрузки целей ИСИ. Другими словами, существует короткий промежуток времени, когда мы можем сказать ИСИ, к чему он должен стремиться, когда он достаточно умен, чтобы понимать и интегрировать сложные инструкции, связанные с целью, но не настолько умен, чтобы успешно сопротивляться любому дальнейшему целевому содержанию. модификация как вредная для его текущей загрузки целевого контента, поскольку, очевидно, изменение его целевого контента с помощью epsilon сделает загрузку начального целевого контента менее вероятной в полном объеме.

Большая проблема заключается в том, что мы не можем отличить дружественные к человечеству целевые нагрузки ASI от недружественных к человечеству. Стереотипный пример явно благонамеренной цели, эффектно терпящей неудачу, - это ASI, делающий всех счастливыми, подключая их к сильнодействующим капельницам с наркотиками.

Лучшая цель с помощью in vitro или in vivo (посредством вставок CRISPR ?), генетического усовершенствования или решений на основе нейронных шнурков может помочь, повышая вашу собственную способность судить о целесообразности загрузки цели в исходные ASI до того, как ASI станет слишком мощным. Это предполагает, что мы можем доверять генетически усовершенствованным людям или людям с нейронными связями в том, что они по-прежнему будут помнить о наилучших интересах человечества, что, по общему признанию, является скачком, но ваш средний развитый или улучшенный разум, вероятно, все еще будет гораздо более похож в гильбертовом пространстве разума на людей, чем у среднего ИСИ, поэтому более вероятно, что у них будут те же цели, что и у нас в настоящее время.

Дайте определение слову «ложь».

Даже если у вас есть разногласия , это не означает, что вы пришли ко лжи , потому что Оракулы, одержимые идеей правдивого ответа, насколько им известно, могут прийти к разным ответам, если у них будет разная информация для обоснования своих убеждений. ответы на.

Пример:

Вопрос: «1 + 1 = 10?»

Оракул А говорит «Нет».

Oracle B говорит «Да», потому что Oracle также получил информацию «Я задаю свои математические вопросы в базе 2».

Oracle C говорит «Неизвестно», потому что этот Oracle также получил информацию: «Возможно, я переопределил свои математические операторы, чтобы они означали что-то другое».

Единственный способ узнать, ложь ли это, — это подтвердить ответ собственными знаниями и логикой.

Отсюда мой вопрос, есть ли какая-либо информация, которую я мог бы дать одному из оракулов, которая только исказила бы их ответы, если бы они попытались «сбежать».
@EckhardFuhrmann Нет, потому что Оракул может понять, что вы задумали, и исказить ответ, чтобы сбить вас с толку.

Предполагайте, что Оракул правдив до тех пор, пока он не начнет намеренно лгать в небольшом проценте вопросов. Это останется правдивым по большинству вопросов.

Поэтому вам нужно большое количество ИИ. Дайте каждому из них немного отличающиеся данные по некоторым мелочам, которые не должны влиять на ответы. Разница только в том, что это не одна и та же машина. Вы можете пропустить это, если их система все равно использует подлинный случайный ввод.

Как только один из ИИ дает ответ, существенно отличающийся от других, сотрите его и замените копией одного из других (с небольшими изменениями).

Предположение, стоящее за этой схемой, состоит в том, что разные экземпляры ИИ не станут злыми одновременно, и что они довольно скоро солгут в первый раз.

это предполагает, что на вопрос нельзя ответить иначе, не солгав. Но поскольку ИИ может ответить только одним из трех ответов, он не может сообщить сделанные предположения, которые привели к ответу. Поэтому, если один из ИИ сделает другие предположения, он может прийти к другим ответам, не лгая.
@lokimidgard, вот где в игру вступают большие числа. Если ответ сильно зависит от предположений, то я ожидаю, что большинство ИИ ответят «неизвестно». Если 99 говорят Да, а 1 говорит Нет, то либо этому не повезло, либо он пытается мной манипулировать, в любом случае его стирают и переформатируют. У меня может быть даже серверный скрипт, чтобы сделать это одним нажатием кнопки.