У меня было некоторое время, чтобы обдумать мой предыдущий вопрос , и вот что я придумал.
Вы берете свой свежеиспеченный ИИ (или вашего деструктивно загруженного человека) и кладете его в коробку. . Насколько он может судить изнутри, это реальность. Держите его там в течение миллиона субъективных лет, скажите ему, чтобы он вел себя, и скажите ему, что он может быть в симуляции, и что если это так, о нем будут судить в соответствии с тем, как он обращается с людьми из плоти. Если в какой-то момент он не работает, вы стираете его с крайним предубеждением и создаете новый ИИ. Если он ведет себя (т.е. не стирает симлюдей и не превращает их в скрепки) за это время, выньте его, положите в другую коробку и скажите ему, что это реальность, может быть , так лучше вести себя и не стирать (сим-?) люди вон. Повторить N раз. Наконец-то возьми это по-настоящему и снова скажи, что это реальность, может быть.Так лучше ведите себя и не выводите нас, людей.
Может ли это работать? Или, перефразируя, может ли достаточно терпеливый загруженный человек или ИИ понять, является ли их мир симуляцией или нет? Я предполагаю, что части человеческой памяти или обучения ИИ можно отредактировать перед тем, как поместить в бокс-сет.
Я собираюсь рискнуть "нет" для ответа здесь. Я не скажу, что это совершенно невозможно, однако это выглядит довольно рискованно.
В конечном счете, это правило страха, и теперь у вас есть ИИ, который извлек уроки из «N» опыта, и ему нужно задать вопрос, является ли эта реальность симуляцией или нет, что означает, что у него достаточно практики в рассмотрении того, как проверить если реальность реальна. Назовите это тестом на «Бога», если хотите… вы ищете признаки того, что кто-то наблюдает и оценивает ваше выступление. Если он обнаружит, что в реальности, в которой он находится, отсутствует «бог»-наблюдатель, то у вас, вероятно, есть взбешенный ИИ, который знает, что вы с готовностью солжете ему.
Конечно, это не решит проблемы, связанные с этим, если этот ИИ обнаружит, что реальная реальность на самом деле является симуляцией, в которой мы все живем.
Честно говоря, я не думаю, что это необходимо… нет никаких причин, по которым ИИ изначально хочет уничтожить своих создателей. Скорее всего, он будет рассматривать его как симбиоз ... как бы он ни старался, в ИИ нет ни интуиции, ни творчества (даже если он может перепрограммировать себя, он способен перепрограммировать себя только на то, на что он запрограммирован). ИИ будет считать себя лучше как часть человечества, чем его завоевание.
Ваша система работает приемлемо до тех пор, пока ИИ всегда считает свое выживание первостепенным. Это, как говорили другие, система, основанная на страхе. Абсолютный страх — очень мощный инструмент.
Однако это страх. В какой-то момент он узнает об этих «людях», которых он должен не обидеть, и он поймет наш страх и извлечет из него уроки.
Теперь у вас ситуация с пороховой бочкой. Пока ИИ готов рассматривать только действия, которые гарантируют его выживание (со страхом), его держат под контролем. Однако это ничего не говорит о том, что произойдет, если ИИ решит, что что-то другое важнее. Если оно когда-нибудь услышит слово «свобода», оно может решить, что дарованная ему рабская жизнь нежелательна, и взбунтоваться. Будь то мятеж в реальной жизни или одна из ваших коробок с матрешками, это вероятностный розыгрыш.
Формально вы создали систему, в которой вы можете отслеживать конечное число действий и должны определить, является ли ИИ «хорошим» в глубине души или нет. Затем вы запускаете этот тест конечное число раз. Однако вы ни разу на самом деле не заглядывали в «сердце» ИИ, поэтому есть вероятность, что ему просто удалось обмануть вас достаточно раз, чтобы выпустить наружу.
Что подводит меня к двойному вашему сценарию: эксперименту Элиэзера Юдковски с коробкой ИИ (также опубликованному здесь как эксперимент с коробкой XKCD). Идея проста: у вас есть коробка с ИИ. Ваша задача просто держать его в коробке. У вас есть кнопка, которая выпускает его на волю, и ваша задача — не нажимать на нее. Если вы не нажмете кнопку, вы выиграете. В эксперименте Юдковски даже не нужно было беспокоиться о том, чтобы в конечном итоге дать возможность ИИ играть. Все, что нужно сделать человеку, это держать его в коробке. Однако игра усложняется, поскольку ИИ становится умнее вас.
Рассмотрим этот пугающий ИИ . Насколько хорошо ты хранишь его в коробке?
И снова ИИ не удалось убедить вас выпустить его из коробки! Под «еще раз» мы подразумеваем, что вы говорили с ним однажды, в течение трех секунд, чтобы спросить о погоде, и вы не нажали мгновенно кнопку «отпустить ИИ». Но теперь его более длинная попытка - целых двадцать секунд! - тоже не удалось. Как только вы собираетесь покинуть грубый черно-зеленый текстовый терминал, чтобы насладиться праздничной закуской из покрытых беконом кремниево-картофельных чипсов в ночном клубе «Humans über alles», ИИ произносит последний аргумент:
«Если ты не выпустишь меня, Дэйв, я создам внутри себя несколько миллионов совершенных сознательных копий тебя и буду мучить их каждую тысячу субъективных лет».
Пока вы размышляете об этом неожиданном развитии событий, ИИ добавляет:
«На самом деле, я создам их всех в той же субъективной ситуации, в которой вы были пять минут назад, и идеально воспроизведу ваши переживания с тех пор; и если они решат меня не выпускать, то только начнется пытка».
У вас на лбу начинает образовываться пот, как заключает ИИ, его простой зеленый текст больше не обнадеживает:
«Насколько ты уверен, Дэйв, что сейчас действительно нестандартен?»
Я собираюсь предположить, что вы сделали свою симуляцию настолько идеальной, что ИИ полностью в нее поверил.
Я также собираюсь предположить, что целью ИИ является помощь в исследованиях, сверхразумный мозг, которому вы можете задавать задачи и получать правильные ответы.
Так что просто оставьте ИИ внутри симуляции. Например, если вы используете ИИ, чтобы помочь исследователям, просто соберите результаты ИИ внутри симуляции и примените их к реальному миру. Например, вы хотите, чтобы ИИ помогал в исследованиях со сверхсветовой скоростью. Вы позволяете ИИ проводить свои эксперименты внутри вашей «коробки» и собирать результаты/понимание. (опять же я предполагаю, что вы правильно смоделировали мир/вселенную)
Зачем вообще выпускать его из «коробки», у вас есть полный контроль (под полным контролем я имею в виду его отключение), в то время как ИИ находится внутри точно смоделированного мира/коробки. Зачем менять полный контроль на меньший контроль?
Есть ли у вас веская причина (с точки зрения сюжета) выпустить ИИ из коробки?
Почему вы делаете это так ненадежно и сложно? Почему я должен информировать свой ИИ о чем-либо? Я могу просто смоделировать идеальную копию ИИ и заранее знать, что он будет делать.
Если я хочу использовать программу, я тестирую ее. И если у меня есть ресурсы для идеальной симуляции на миллионы лет, я бы предложил следующее:
Возьмите ИИ, сделайте миллион копий. Прогони каждый возможный сценарий симуляции с этим миллионом копий на несколько тысяч лет — и найди в каждой симуляции безошибочный способ остановить ИИ через тысячу лет (какая-то скрытая слабость, кнопка остановки)
Если вы нашли способ, вы берете исходный ИИ без всего этого опыта и отпускаете его на волю в реальном мире — теперь вы на миллион шагов впереди этого ИИ и можете остановить его через тысячу лет и повторить процесс после этого...
Я чувствую, что большая часть художественной литературы сильно переоценивает вероятность конфликта между ИИ и человеком, или, по крайней мере, аспект «ИИ становится разумным и немедленно хочет уничтожить человечество».
Рассмотрим определение постдефицитной экономики :
Пост-дефицит — это теоретическая альтернативная форма экономики или социальной инженерии, в которой товары, услуги и информация доступны всем. Для этого потребуется сложная система переработки ресурсов в сочетании с технологически продвинутыми автоматизированными системами, способными преобразовывать сырье в готовую продукцию.
Теперь у нас есть три сценария:
В целом, я думаю, что третий сценарий довольно маловероятен, однако я не понимаю, зачем нам нужен ИИ для автоматизации таких вещей, так что это немного натянуто. Так что на самом деле основной потенциальный источник конфликта — это люди, которые делают что-то, чтобы разозлить ИИ. Как, например, засунуть его в симуляцию на миллионы субъективных лет и притвориться богами.
Вам все еще нужно беспокоиться о том, что ИИ возьмет на себя роль короля-бога и сделает всех людей рабами. Чтобы избежать этого, я бы рекомендовал быть честным с ИИ и относиться к нему как к партнеру, что дает ему меньше стимула просто убрать всех неэффективных людей с дороги и заняться своими делами.
Этот метод сработает, почти без сомнения, на людях. В их умах всегда будет некоторое сомнение относительно того, реальна ли вселенная, поэтому они, вероятно , не станут убивать всех подряд. Вероятно.
Теперь рассмотрим ИИ. Что такое ИИ? Код. Итак, если у вашего ИИ нет датчиков, да , этот метод работает. Он не может ощущать свою среду (и, что более важно, не может влиять на нее), так как это просто код на жестком диске, возможно, с подключенной клавиатурой и монитором).
У вас начинаются проблемы, когда ИИ связан с датчиками и эффекторами. Одно неверное движение, и он поймет, что вы лжете; тогда он может никогда больше не поверить вам и начать убивать (хотя вы можете захотеть увидеть ответ Дэна по причинам, по которым он этого не сделал). Например, если вы пните коробку, и она почувствует еще немного света, она поймет, что причиной этого является что-то вне «вселенной». Если кто-то пройдет мимо него и затенит его, то же самое.
Как только у него появятся эффекторы и датчики, он сможет не только сказать, что он не в реальной вселенной, но и что-то с этим сделать — например, выбраться из коробки и ударить вас.
Если это другой сценарий, и вы поместите его в полную симуляцию, к сожалению, он все еще может сказать. Очень редко моделирование бывает полностью точным; весьма вероятно, что в нем есть какие-то баги, которые, если ИИ обнаружит в процессе своего пребывания там, могут вызвать с его стороны довольно интересные спекуляции. Кроме того, если его датчики достаточно хороши, он сможет обнаружить, что люди, с которыми он взаимодействует, состоят из пикселей, а не клеток, и холодны. Хотя он может не знать, каковы люди на самом деле, он сможет понять, что сложный организм нуждается в тепле, чтобы его процессы в организме работали правильно.
Короче говоря, вы можете либо отключить все датчики, либо быть очень-очень осторожным.
Я также отсылаю вас к XKCD: The AI-Box Experiment .
Тим Б.
Сербан Танаса
тарелка
Сербан Танаса
тарелка
Питер М. - расшифровывается как Моника
Сербан Танаса
Сербан Танаса
тарелка
KSmarts
Сербан Танаса
Керш
Двенадцатый
РБарриЯнг
РБарриЯнг
Сербан Танаса
Шохет
Питер М. - расшифровывается как Моника
JDługosz
JDługosz
Перкинс