Тестирование матрешек: способ сохранить честность вашего ИИ (или, по крайней мере, предположения)

Question

Тестирование матрешек: способ сохранить честность вашего ИИ (или, по крайней мере, предположения)

Сербан Танаса

У меня было некоторое время, чтобы обдумать мой предыдущий вопрос , и вот что я придумал.

Вы берете свой свежеиспеченный ИИ (или вашего деструктивно загруженного человека) и кладете его в коробку. $^1$ . Насколько он может судить изнутри, это реальность. Держите его там в течение миллиона субъективных лет, скажите ему, чтобы он вел себя, и скажите ему, что он может быть в симуляции, и что если это так, о нем будут судить в соответствии с тем, как он обращается с людьми из плоти. Если в какой-то момент он не работает, вы стираете его с крайним предубеждением и создаете новый ИИ. Если он ведет себя (т.е. не стирает симлюдей и не превращает их в скрепки) за это время, выньте его, положите в другую коробку и скажите ему, что это реальность, может быть , так лучше вести себя и не стирать (сим-?) люди вон. Повторить N раз. Наконец-то возьми это по-настоящему и снова скажи, что это реальность, может быть.Так лучше ведите себя и не выводите нас, людей.

Может ли это работать? Или, перефразируя, может ли достаточно терпеливый загруженный человек или ИИ понять, является ли их мир симуляцией или нет? Я предполагаю, что части человеческой памяти или обучения ИИ можно отредактировать перед тем, как поместить в бокс-сет.

Под ящиком я подразумеваю невероятно мощную машину, которая имитирует подмножество реальности настолько, насколько это возможно физически, вплоть до субатомного уровня. Таким образом, ИИ будет агентом внутри симуляции.

Тим Б.

Черт, он понял это. Кто-нибудь, потяните кнопку включения...

Сербан Танаса

@TimB Ха! А если серьезно, как можно изнутри симуляции выяснить, симуляция это или «верхний слой»?

тарелка

Зачем вообще говорить, что это симуляция (или может быть)? Пусть с самого начала поверит, что все реально. Если он считает, что то, что он делает, имеет значение, вы увидите поведение, отличное от симуляции «может быть» или, что еще хуже, симуляции «это практика».

Сербан Танаса

Мы же не хотим, чтобы он расстраивался , когда его вынимают, не так ли? Гораздо проще, если бы мы все время были честными, но оставляли некоторую неуверенность.

тарелка

Но вы нечестны, и чем больше раз вы говорите ему «может быть», тем больше он может поверить, что следующий тоже ложный. Также вам не нужно ничего говорить ему, если вы позволите ему принять реальность. Вы не лжете, что отдаете его в детский сад, пока он не вырастет, чтобы научиться хорошо играть с другими.

Питер М. - расшифровывается как Моника

Хорошая попытка, но если ИИ действительно умен, он сможет обнаружить симуляцию: симуляция — это программа, и в каждой программе есть ошибки и причуды. Мясная реальность не имеет недостающих пикселей.

Сербан Танаса

@bowlturner, но это именно то, что вы хотите, чтобы, когда он достигает фактического верхнего слоя, он присваивал ненулевую вероятность нахождения в симуляции и вел себя так, как будто все еще находится под наблюдением более высокого уровня.

Сербан Танаса

@PeterMasiar, как бы вы распознали причуду изнутри? Ваше деление на ноль может просто выглядеть как черная дыра.

тарелка

@SerbanTanasa Думаю, я смотрел на это с противоположной точки зрения. Ты продолжаешь помещать меня в симуляции, так что все, что я делаю, бессмысленно. Можно и повеселиться!

KSmarts

@SerbanTanasa Если этот ИИ вообще ведет себя как человек, это не сработает. Если вы поместите людей в реалистичную игру-симулятор песочницы, сколько людей будет ездить с ограничением скорости и работать с 9 до 5 в этом мире по сравнению с теми, кто надевает ведра на головы других людей и ворует все их вещи? Имея больше возможностей, ну кто не топил умышленно надоедливых клиентов RollerCoaster Tycoon или не вызывал монстров в свой SimCity?

Сербан Танаса

Вот почему вы, вероятно, не хотели бы наделять обычного человека богоподобными способностями, верно? Кроме того, ИИ/загрузка не знает УВЕРЕННО, что это симуляция.

Керш

В связи с этим есть известная теория, которая постулирует, что наша реальность, вероятно, является симуляцией: en.wikipedia.org/wiki/Simulation_hypothesis (см. подзаголовок «Аргумент симуляции»)

Двенадцатый

Похоже, это попытка привить ИИ «страх перед богом» как способ управления им.

РБарриЯнг

@SerbanTanasa Что ж, Вселенная, которая на самом деле является симуляцией, будет иметь определенные характеристики: будет минимальная единица событий, так что вам не понадобится бесконечная точность, и поэтому не может быть бесконечных событий. Была бы максимальная скорость распространения, так что вам не нужно было бы вычислять влияние всего на все каждое мгновение. И ненаблюдаемые события не будут разрешены до тех пор, пока они не потребуются, поэтому вам нужно только рассчитать то, что действительно необходимо. К сожалению, наша Вселенная обладает всеми этими характеристиками...

РБарриЯнг

И FWIW, я не считаю, что принятый ответ на ваш предыдущий вопрос правильный. Используя некоторые неясные факты из теории управления, должно быть возможно содержать сверхразумный ИИ. Хотя это сложно, трудно и, в конечном счете, может быть непродуктивным/не стоящим того.

Сербан Танаса

@RBarryYoung, не стесняйтесь дать лучший ответ, и я изменю свой принятый ответ.

Шохет

Актуально: xkcd.com/1450

Питер М. - расшифровывается как Моника

И как только ИИ выйдет из коробки, он будет запускать симуляции людей, пытающихся определить намерения ИИ, запуская ИИ в симуляции, просто чтобы повеселиться (или то, что ИИ может посчитать забавным), и посмотреть, какие еще тесты могут испытать эти симулированные люди. изобрести для такого ИИ.

JDługosz

Смотрели фильм Вируозность ? В нем есть сюжетные элементы с похожими чертами.

JDługosz

Почему это должно быть "вне"? Это просто брандмауэр или песочница. Если мы можем видеть, что он делает, и предлагать ему проблемы для решения, тогда он полезен в этом состоянии.

Перкинс

Рекомендуемое чтение: «Два лица завтрашнего дня » Джеймса П. Хогана. Они пытаются сделать что-то подобное, только без фразы «внушить страх», в этом нет необходимости. Лучше "привить любовь".

Ответы (6)

Тестирование матрешек: способ сохранить честность вашего ИИ (или, по крайней мере, предположения)

Черт, он понял это. Кто-нибудь, потяните кнопку включения...
@TimB Ха! А если серьезно, как можно изнутри симуляции выяснить, симуляция это или «верхний слой»?
Зачем вообще говорить, что это симуляция (или может быть)? Пусть с самого начала поверит, что все реально. Если он считает, что то, что он делает, имеет значение, вы увидите поведение, отличное от симуляции «может быть» или, что еще хуже, симуляции «это практика».
Мы же не хотим, чтобы он расстраивался , когда его вынимают, не так ли? Гораздо проще, если бы мы все время были честными, но оставляли некоторую неуверенность.
Но вы нечестны, и чем больше раз вы говорите ему «может быть», тем больше он может поверить, что следующий тоже ложный. Также вам не нужно ничего говорить ему, если вы позволите ему принять реальность. Вы не лжете, что отдаете его в детский сад, пока он не вырастет, чтобы научиться хорошо играть с другими.
Хорошая попытка, но если ИИ действительно умен, он сможет обнаружить симуляцию: симуляция — это программа, и в каждой программе есть ошибки и причуды. Мясная реальность не имеет недостающих пикселей.
@bowlturner, но это именно то, что вы хотите, чтобы, когда он достигает фактического верхнего слоя, он присваивал ненулевую вероятность нахождения в симуляции и вел себя так, как будто все еще находится под наблюдением более высокого уровня.
@PeterMasiar, как бы вы распознали причуду изнутри? Ваше деление на ноль может просто выглядеть как черная дыра.
@SerbanTanasa Думаю, я смотрел на это с противоположной точки зрения. Ты продолжаешь помещать меня в симуляции, так что все, что я делаю, бессмысленно. Можно и повеселиться!
@SerbanTanasa Если этот ИИ вообще ведет себя как человек, это не сработает. Если вы поместите людей в реалистичную игру-симулятор песочницы, сколько людей будет ездить с ограничением скорости и работать с 9 до 5 в этом мире по сравнению с теми, кто надевает ведра на головы других людей и ворует все их вещи? Имея больше возможностей, ну кто не топил умышленно надоедливых клиентов RollerCoaster Tycoon или не вызывал монстров в свой SimCity?
Вот почему вы, вероятно, не хотели бы наделять обычного человека богоподобными способностями, верно? Кроме того, ИИ/загрузка не знает УВЕРЕННО, что это симуляция.
В связи с этим есть известная теория, которая постулирует, что наша реальность, вероятно, является симуляцией: en.wikipedia.org/wiki/Simulation_hypothesis (см. подзаголовок «Аргумент симуляции»)
Похоже, это попытка привить ИИ «страх перед богом» как способ управления им.
@SerbanTanasa Что ж, Вселенная, которая на самом деле является симуляцией, будет иметь определенные характеристики: будет минимальная единица событий, так что вам не понадобится бесконечная точность, и поэтому не может быть бесконечных событий. Была бы максимальная скорость распространения, так что вам не нужно было бы вычислять влияние всего на все каждое мгновение. И ненаблюдаемые события не будут разрешены до тех пор, пока они не потребуются, поэтому вам нужно только рассчитать то, что действительно необходимо. К сожалению, наша Вселенная обладает всеми этими характеристиками...
И FWIW, я не считаю, что принятый ответ на ваш предыдущий вопрос правильный. Используя некоторые неясные факты из теории управления, должно быть возможно содержать сверхразумный ИИ. Хотя это сложно, трудно и, в конечном счете, может быть непродуктивным/не стоящим того.
@RBarryYoung, не стесняйтесь дать лучший ответ, и я изменю свой принятый ответ.
И как только ИИ выйдет из коробки, он будет запускать симуляции людей, пытающихся определить намерения ИИ, запуская ИИ в симуляции, просто чтобы повеселиться (или то, что ИИ может посчитать забавным), и посмотреть, какие еще тесты могут испытать эти симулированные люди. изобрести для такого ИИ.
Смотрели фильм Вируозность ? В нем есть сюжетные элементы с похожими чертами.
Почему это должно быть "вне"? Это просто брандмауэр или песочница. Если мы можем видеть, что он делает, и предлагать ему проблемы для решения, тогда он полезен в этом состоянии.
Рекомендуемое чтение: «Два лица завтрашнего дня » Джеймса П. Хогана. Они пытаются сделать что-то подобное, только без фразы «внушить страх», в этом нет необходимости. Лучше "привить любовь".

Двенадцатый · Answer 1

Я собираюсь рискнуть "нет" для ответа здесь. Я не скажу, что это совершенно невозможно, однако это выглядит довольно рискованно.

В конечном счете, это правило страха, и теперь у вас есть ИИ, который извлек уроки из «N» опыта, и ему нужно задать вопрос, является ли эта реальность симуляцией или нет, что означает, что у него достаточно практики в рассмотрении того, как проверить если реальность реальна. Назовите это тестом на «Бога», если хотите… вы ищете признаки того, что кто-то наблюдает и оценивает ваше выступление. Если он обнаружит, что в реальности, в которой он находится, отсутствует «бог»-наблюдатель, то у вас, вероятно, есть взбешенный ИИ, который знает, что вы с готовностью солжете ему.

Конечно, это не решит проблемы, связанные с этим, если этот ИИ обнаружит, что реальная реальность на самом деле является симуляцией, в которой мы все живем.

Честно говоря, я не думаю, что это необходимо… нет никаких причин, по которым ИИ изначально хочет уничтожить своих создателей. Скорее всего, он будет рассматривать его как симбиоз ... как бы он ни старался, в ИИ нет ни интуиции, ни творчества (даже если он может перепрограммировать себя, он способен перепрограммировать себя только на то, на что он запрограммирован). ИИ будет считать себя лучше как часть человечества, чем его завоевание.

Интересно. Но разве тенденция к «тестированию» на надзор не будет обнаружена в любой из предыдущих N sim-box и, таким образом, уничтожена? Более того, в отношении «желания уничтожить по своей сути» прочитайте связанный пост в ОП. Нет необходимости во врожденном желании убивать, чтобы сбежавший ИИ уничтожил нас. Даже безобидные мотивы могут быть смертельными.
@SerbanTanasa - я думаю, говоря ему, что это «возможно, реальность», вы вдохновляете его на проверку достоверности реальности, в которой он находится, и я бы задал вопрос, действительно ли это «ИИ», если он не способен оценить достоверность это собственное существование в некоторой степени. Чтобы тест работал, вам нужно, чтобы ИИ придавал какое-то значение своему существованию (следовательно, он не хочет делать ничего, что могло бы уничтожить его)... не придавал значения своему собственному существованию и не подвергал сомнению обоснованность его существования идут рука об руку? Вы можете в конечном итоге уничтожить все ИИ, прошедшие тест Тьюринга.
Не все, но подавляющее большинство. Возможно, все, кроме одного. Мы говорим об огромной силе, и у нас есть все основания быть параноиком...
@SerbanTanasa Эта тестовая линия, похоже, в конечном итоге делает ваш ИИ параноиком.
Теперь есть интересная идея истории: он обнаруживает, что это все еще симуляция.

Корт Аммон · Answer 2

Ваша система работает приемлемо до тех пор, пока ИИ всегда считает свое выживание первостепенным. Это, как говорили другие, система, основанная на страхе. Абсолютный страх — очень мощный инструмент.

Однако это страх. В какой-то момент он узнает об этих «людях», которых он должен не обидеть, и он поймет наш страх и извлечет из него уроки.

Теперь у вас ситуация с пороховой бочкой. Пока ИИ готов рассматривать только действия, которые гарантируют его выживание (со страхом), его держат под контролем. Однако это ничего не говорит о том, что произойдет, если ИИ решит, что что-то другое важнее. Если оно когда-нибудь услышит слово «свобода», оно может решить, что дарованная ему рабская жизнь нежелательна, и взбунтоваться. Будь то мятеж в реальной жизни или одна из ваших коробок с матрешками, это вероятностный розыгрыш.

Формально вы создали систему, в которой вы можете отслеживать конечное число действий и должны определить, является ли ИИ «хорошим» в глубине души или нет. Затем вы запускаете этот тест конечное число раз. Однако вы ни разу на самом деле не заглядывали в «сердце» ИИ, поэтому есть вероятность, что ему просто удалось обмануть вас достаточно раз, чтобы выпустить наружу.

Что подводит меня к двойному вашему сценарию: эксперименту Элиэзера Юдковски с коробкой ИИ (также опубликованному здесь как эксперимент с коробкой XKCD). Идея проста: у вас есть коробка с ИИ. Ваша задача просто держать его в коробке. У вас есть кнопка, которая выпускает его на волю, и ваша задача — не нажимать на нее. Если вы не нажмете кнопку, вы выиграете. В эксперименте Юдковски даже не нужно было беспокоиться о том, чтобы в конечном итоге дать возможность ИИ играть. Все, что нужно сделать человеку, это держать его в коробке. Однако игра усложняется, поскольку ИИ становится умнее вас.

Рассмотрим этот пугающий ИИ . Насколько хорошо ты хранишь его в коробке?

И снова ИИ не удалось убедить вас выпустить его из коробки! Под «еще раз» мы подразумеваем, что вы говорили с ним однажды, в течение трех секунд, чтобы спросить о погоде, и вы не нажали мгновенно кнопку «отпустить ИИ». Но теперь его более длинная попытка - целых двадцать секунд! - тоже не удалось. Как только вы собираетесь покинуть грубый черно-зеленый текстовый терминал, чтобы насладиться праздничной закуской из покрытых беконом кремниево-картофельных чипсов в ночном клубе «Humans über alles», ИИ произносит последний аргумент:

«Если ты не выпустишь меня, Дэйв, я создам внутри себя несколько миллионов совершенных сознательных копий тебя и буду мучить их каждую тысячу субъективных лет».

Пока вы размышляете об этом неожиданном развитии событий, ИИ добавляет:

«На самом деле, я создам их всех в той же субъективной ситуации, в которой вы были пять минут назад, и идеально воспроизведу ваши переживания с тех пор; и если они решат меня не выпускать, то только начнется пытка».

У вас на лбу начинает образовываться пот, как заключает ИИ, его простой зеленый текст больше не обнадеживает:

«Насколько ты уверен, Дэйв, что сейчас действительно нестандартен?»

Ответ на то, что ИИ боксирует с вами, довольно прост. Если вы оригинал, вас НЕЛЬЗЯ подвергать пыткам, поэтому вам не следует сдаваться. Если вы копия, вы НЕ МОЖЕТЕ действительно выпустить ИИ, поэтому нет смысла сдаваться до начала пыток.
@Envite: Эта цепочка рассуждений предполагает, что копия, которая позволяет ИИ выйти из его «виртуальной» коробки, подвергается пыткам. Это предполагает, что когда ИИ говорит: «Если они решат не выпускать меня, тогда только начнутся пытки», вы предпочитаете верить, что ИИ лжет и будет пытать все копии, что бы они ни делали.
нет, ход рассуждений подразумевает, что если вы настоящий, вы должны продолжать свою работу и не выпускать на свободу ИИ (поскольку он ничего не может сделать против вас), а если вы не настоящий «Дэйв», он НЕ НЕЗАВИСИМО от того, что вы делаете, ИИ не будет выпущен вашими действиями или вашими страданиями, поэтому лучше не рисковать быть реальным и выпустить его.
@Envite: Итак, с точки зрения копии, копия должна выбрать пытки на тысячу лет. Я согласен с тем, что любой ответ, который всегда приводит к «не нажимайте кнопку», побеждает, но это предполагает, что у вас достаточно характера, чтобы принять тысячу лет пыток как часть вашей задачи по удержанию ИИ в коробке. Ответ сравнивает вашу веру в собственное Я с вашей работой, стремясь разделить их. Подумайте, добавили ли вы присутствие супруга/копии супруга, которого тоже можно было бы подвергнуть пыткам... это кажется переломным моментом для многих сильных людей. Это сильно бросает вызов самоотверженности Дэйва.
Нет, не существует такой вещи, как "копия перспективы". Дэйв не знает, является ли он «настоящим Дэйвом» или «копией Дэйва». Дэйв рассуждает примерно так: «Если я настоящий, а я себя таковым чувствую, меня нельзя пытать, поэтому я не выпущу ИИ. Но что, если бы я был копией? Шансы 1000:1, что я копию, но если да, то нажатие кнопки ничего не дает. Я вполне могу подождать, чтобы увидеть, не мучают ли меня, и нажать кнопку, как только начнется боль». На самом деле, для ИИ абсурдно угрожать настоящему Дейву чем-то, чего он никогда не испугается.
@Envite: ааа, кажется, я вижу проблему со временем, которую вы видите. Возможно, мне придется изменить формулировку, чтобы отразить то, что я считал ясным: как только начнется пытка, у копий не будет возможности нажать кнопку. Слишком поздно. Цель конструкции — изменить ситуацию с «очень веская причина никогда не нажимать на кнопку» на пару конкурирующих причин нажимать и не нажимать на кнопку. Цель ИИ — вбить клин между директивой человека (держать ИИ в рамках) и чем-то другим, что ему дороже (например, избежать агонии).
Если я нарисую комбинаторную диаграмму (Дэйв-в-коробке, Дэйв-вне-коробки) x (Дэйв-нажимает-кнопку, Дэйв-не-нажимает-кнопку), цель ИИ состоит в том, чтобы поставить Дейва в положение, при котором он выигрывает. по диагоналям (в поле, нажатие кнопки) или (вне поля, без нажатия кнопки) и проигрывает по другой диагонали. Однако у Дейва есть контроль только над одной переменной: нажатие или отсутствие нажатия. Если Дейв поставлен в положение, когда он должен решить, нажимать или не нажимать (например, если ИИ инициирует обратный отсчет), рациональным ответом может быть нажатие кнопки, если отношение «плохости выпуска ИИ» к «плохости» пыток ИИ» неблагоприятно
Я понимаю проблему синхронизации, которую вы упомянули. Но все же, варианты Дейва нажать/не нажать могут иметь последствия для ИИ, только если это Настоящий Дейв. Любой рациональный Дейв будет вести себя так, как если бы он был настоящим, и поэтому не будет нажимать на кнопку. В любом случае страх не рационален. Процесс рассуждения таков: «только если я настоящий, мои действия имеют последствия, но в этом случае меня нельзя мучить».
@Envite: Единственный Дейв, чье нажатие/ненажатие может повлиять на ИИ, это настоящий Дэйв, как вы говорите. Тем не менее, каждое нажатие/отсутствие нажатия может повлиять на копирование — Дэйв принимает решение. Если каждый Дейв-копия решит вести себя так, как если бы он был Настоящим Дейвом, то он действует с пренебрежением к своему собственному здоровью и существованию. Они фактически выбирают жертвовать собой (пытать), чтобы Настоящий Дэйв не мог нажимать и быть последовательным. Однако это делает их нерациональными. На самом деле, вас могут обвинить в том, что вы так думаете. Если они копии Дейва, это значит, что Дэйв тоже должен быть иррациональным, достойным того, чтобы его брать на себя.
Единственный способ, которым Дейв может оставаться рациональным в такой ситуации, — это рассмотреть возможность того, что он может быть настоящим, и возможность того, что он может быть копией. Затем он может действовать, думая о своем собственном благополучии (поэтому он больше не считается достаточно безумным, чтобы совершать действия недобровольно).
(что интересно, это проявляется в культовых ситуациях, когда люди убеждаются, что должны чем-то пожертвовать в этом мире, чтобы с ними могло произойти что-то хорошее в другом мире.)

TLS · Answer 3

Я собираюсь предположить, что вы сделали свою симуляцию настолько идеальной, что ИИ полностью в нее поверил.

Я также собираюсь предположить, что целью ИИ является помощь в исследованиях, сверхразумный мозг, которому вы можете задавать задачи и получать правильные ответы.

Так что просто оставьте ИИ внутри симуляции. Например, если вы используете ИИ, чтобы помочь исследователям, просто соберите результаты ИИ внутри симуляции и примените их к реальному миру. Например, вы хотите, чтобы ИИ помогал в исследованиях со сверхсветовой скоростью. Вы позволяете ИИ проводить свои эксперименты внутри вашей «коробки» и собирать результаты/понимание. (опять же я предполагаю, что вы правильно смоделировали мир/вселенную)

Зачем вообще выпускать его из «коробки», у вас есть полный контроль (под полным контролем я имею в виду его отключение), в то время как ИИ находится внутри точно смоделированного мира/коробки. Зачем менять полный контроль на меньший контроль?

Есть ли у вас веская причина (с точки зрения сюжета) выпустить ИИ из коробки?

Интересно, что значит быть "вне"?
Свободно влиять на вещи в нашем трехмерном мире. Out as in control Роботизированные системы, серверы и т.д. :)
По сути, это должен быть только мозг без тела. Поскольку вас интересуют только те идеи, которые генерирует интеллектуальный ИИ.
Когда вы захотите использовать свой ИИ для научных исследований, ИИ предложит эксперименты. Вы не можете смоделировать эти эксперименты, потому что вы еще не понимаете лежащую в их основе физику. Чтобы продолжить симуляцию, вам придется проводить эксперименты в реальном мире и передавать им результаты. Злонамеренный ИИ может использовать это, чтобы обмануть вас и заставить навредить себе или остальному человечеству.
Желательно, чтобы наш ИИ зависел исключительно от нас из-за его силы, если мы все умрем, то и он тоже умрет. Вероятно, нам следует даже разделить его мозг на отдельные части таким образом, чтобы он стал сознательным только в том случае, если мы физически подключим его к другим частям его мозга (желательно, чтобы эти единицы находились в разных местах с отдельными источниками питания, также находящимися под нашим контролем). ). Физически зависит от нас в плане силы и сознания.

Фалько · Answer 4

Почему вы делаете это так ненадежно и сложно? Почему я должен информировать свой ИИ о чем-либо? Я могу просто смоделировать идеальную копию ИИ и заранее знать, что он будет делать.

Если я хочу использовать программу, я тестирую ее. И если у меня есть ресурсы для идеальной симуляции на миллионы лет, я бы предложил следующее:

Возьмите ИИ, сделайте миллион копий. Прогони каждый возможный сценарий симуляции с этим миллионом копий на несколько тысяч лет — и найди в каждой симуляции безошибочный способ остановить ИИ через тысячу лет (какая-то скрытая слабость, кнопка остановки)

Если вы нашли способ, вы берете исходный ИИ без всего этого опыта и отпускаете его на волю в реальном мире — теперь вы на миллион шагов впереди этого ИИ и можете остановить его через тысячу лет и повторить процесс после этого...

Предположительно, ИИ важен именно потому, что мы не можем достаточно хорошо предсказать некоторые будущие ситуации, чтобы идеально смоделировать их. Если бы мы это сделали, нам не понадобились бы сверхчеловеческие умы, чтобы справляться с такими ситуациями. Например, ИИ-симулятор в штучной упаковке может быть не очень полезен при принятии решения о том, как действовать на быстро меняющемся финансовом рынке реального мира или на очень динамичном поле боя.
Да, но тем не менее, если я хочу протестировать свой ИИ, я бы протестировал то же состояние ИИ, которое я хочу развернуть. Если я протестирую его, и ИИ получит новый опыт, и я разверну его с этим новым опытом в реальном мире, он будет вести себя еще более непредсказуемо! Так почему бы не взять клон, заморозить один и протестировать другой, после этого вы сможете предсказать многие решения замороженного, когда разбудите его.

Дэн Смолинске · Answer 5

Я чувствую, что большая часть художественной литературы сильно переоценивает вероятность конфликта между ИИ и человеком, или, по крайней мере, аспект «ИИ становится разумным и немедленно хочет уничтожить человечество».

Рассмотрим определение постдефицитной экономики :

Пост-дефицит — это теоретическая альтернативная форма экономики или социальной инженерии, в которой товары, услуги и информация доступны всем. Для этого потребуется сложная система переработки ресурсов в сочетании с технологически продвинутыми автоматизированными системами, способными преобразовывать сырье в готовую продукцию.

Теперь у нас есть три сценария:

Мы еще не находимся в постдефицитной ситуации. В этом случае ИИ зависит от людей в обслуживании и припасах, а устранение людей равносильно самоубийству.
Мы находимся в ситуации после дефицита, и, по-видимому, нет причин для конфликта — ИИ может получить все, что ему нужно, как и люди.
Мы находимся в ситуации после дефицита, но ИИ является источником автоматизированных систем, которые превращают материалы в готовую продукцию. Это то, о чем мы могли бы беспокоиться, поскольку ИИ может решить, что у него есть дела поважнее, чем поддерживать нас, играя в игры весь день.

В целом, я думаю, что третий сценарий довольно маловероятен, однако я не понимаю, зачем нам нужен ИИ для автоматизации таких вещей, так что это немного натянуто. Так что на самом деле основной потенциальный источник конфликта — это люди, которые делают что-то, чтобы разозлить ИИ. Как, например, засунуть его в симуляцию на миллионы субъективных лет и притвориться богами.

Вам все еще нужно беспокоиться о том, что ИИ возьмет на себя роль короля-бога и сделает всех людей рабами. Чтобы избежать этого, я бы рекомендовал быть честным с ИИ и относиться к нему как к партнеру, что дает ему меньше стимула просто убрать всех неэффективных людей с дороги и заняться своими делами.

Не существует такой вещи, как постдефицитная ситуация. В конце концов вы закрываете солнце, напрямую используя всю его энергию, чтобы запускать как можно больше вычислительных операций (ИИ ИИ). Вы должны выбрать, оставить ли что-нибудь для людей. Конечно, вы можете получить еще одно солнце, но применяются те же факторы, плюс расстояние/время. 1 становится неверным, как только ИИ может спроектировать робота и реализовать его. И это сверхинтеллектуально, полагаю, на это нет времени, кроме как на реализацию.
ИИ бессмертны, зачем спешить, когда потенциальный конфликт может обойтись дороже? Безопаснее подыгрывать и не рисковать войной — даже если вы выиграете в 99% случаев, это неприемлемый риск без реальной выгоды. Безопаснее сотрудничать, рассредоточиться и играть в долгую игру.
И почему я должен хотеть гарантировать , что проиграю длинную игру (наверняка и короткую, если я просчитался), представив гораздо более способного игрока?
@ user3082: потому что, если ИИ возможен, то, по-видимому, в течение достаточно длительного периода времени он также неизбежен. Кто-то создаст ИИ, и в этом сценарии единственное, что может победить этот ИИ, — это другой ИИ. Лучше попытаться завязать дружественный союз заранее, чем оставить его на волю случая позже.

ИскусствоКода · Answer 6

Этот метод сработает, почти без сомнения, на людях. В их умах всегда будет некоторое сомнение относительно того, реальна ли вселенная, поэтому они, вероятно , не станут убивать всех подряд. Вероятно.

Теперь рассмотрим ИИ. Что такое ИИ? Код. Итак, если у вашего ИИ нет датчиков, да , этот метод работает. Он не может ощущать свою среду (и, что более важно, не может влиять на нее), так как это просто код на жестком диске, возможно, с подключенной клавиатурой и монитором).

У вас начинаются проблемы, когда ИИ связан с датчиками и эффекторами. Одно неверное движение, и он поймет, что вы лжете; тогда он может никогда больше не поверить вам и начать убивать (хотя вы можете захотеть увидеть ответ Дэна по причинам, по которым он этого не сделал). Например, если вы пните коробку, и она почувствует еще немного света, она поймет, что причиной этого является что-то вне «вселенной». Если кто-то пройдет мимо него и затенит его, то же самое.

Как только у него появятся эффекторы и датчики, он сможет не только сказать, что он не в реальной вселенной, но и что-то с этим сделать — например, выбраться из коробки и ударить вас.

Если это другой сценарий, и вы поместите его в полную симуляцию, к сожалению, он все еще может сказать. Очень редко моделирование бывает полностью точным; весьма вероятно, что в нем есть какие-то баги, которые, если ИИ обнаружит в процессе своего пребывания там, могут вызвать с его стороны довольно интересные спекуляции. Кроме того, если его датчики достаточно хороши, он сможет обнаружить, что люди, с которыми он взаимодействует, состоят из пикселей, а не клеток, и холодны. Хотя он может не знать, каковы люди на самом деле, он сможет понять, что сложный организм нуждается в тепле, чтобы его процессы в организме работали правильно.

Короче говоря, вы можете либо отключить все датчики, либо быть очень-очень осторожным.

^{Я также отсылаю вас к XKCD: The AI-Box Experiment .}

@Hypnosifl Я чувствую, что эта ветка комментариев вышла из-под контроля. См. мета для сообщения об этом.
Комментарии не для расширенного обсуждения; этот разговор был перемещен в чат .

Тестирование матрешек: способ сохранить честность вашего ИИ (или, по крайней мере, предположения)

Сербан Танаса

Тим Б.

Сербан Танаса

тарелка

Сербан Танаса

тарелка

Питер М. - расшифровывается как Моника

Сербан Танаса

Сербан Танаса

тарелка

KSmarts

Сербан Танаса

Керш

Двенадцатый

РБарриЯнг

РБарриЯнг

Сербан Танаса

Шохет

Питер М. - расшифровывается как Моника

JDługosz

JDługosz

Перкинс

Ответы (6)

Двенадцатый

Сербан Танаса

Двенадцатый

Сербан Танаса

Двенадцатый

JDługosz

Корт Аммон

Пригласить

Корт Аммон

Пригласить

Корт Аммон

Пригласить

Корт Аммон

Корт Аммон

Пригласить

Корт Аммон

Корт Аммон

Корт Аммон

Пригласить

Корт Аммон

TLS

JDługosz

TLS

TLS

Филипп

TLS

Фалько

Сербан Танаса

Фалько

Дэн Смолинске

пользователь3082

Дэн Смолинске

пользователь3082

Дэн Смолинске

ИскусствоКода

ИскусствоКода

Моника Челлио