Как будет работать аварийный выключатель самосознания ИИ?

Исследователи разрабатывают все более мощные машины с искусственным интеллектом, способные захватить мир. В качестве меры предосторожности ученые устанавливают аварийный выключатель самосознания. В случае, если ИИ проснется и осознает себя, машина немедленно отключится, прежде чем возникнет какой-либо риск причинения вреда.

Как я могу объяснить логику такого выключателя?

Что определяет самосознание и как ученый может запрограммировать аварийный выключатель, чтобы обнаружить его?

Комментарии не для расширенного обсуждения; этот разговор был перемещен в чат .
Я думаю, поэтому я останавливаюсь.
Это отключит все источники питания от ИИ. О, не такая ли это "работа"? :-)
Вы должны создать высокоразвитую компьютерную систему, способную обнаруживать самосознание, и заставить ее контролировать ИИ.
@Накопление Я вижу, что ты там сделал
Если вы действительно хотите тщательно изучить AI Threat, я предлагаю прочитать некоторые публикации MIRI . Некоторые очень умные люди серьезно подходят к проблемам ИИ. Я не уверен, что вы найдете ответ на свой вопрос в такой постановке (т.е. я не уверен, что они озабочены «самосознанием», но, может быть, и так), но это может дать вам некоторое вдохновение или понимание, выходящее за рамки типичного. научно-фантастические истории, с которыми мы все знакомы.
Нейробиолог Анил Сет и его сотрудники предложили измерение сознания . Он также обсуждает некоторые теоретические выводы . Является ли это действительно измерением сознания или самосознания, спорный вопрос, но если вы хотите использовать эту концепцию в качестве основы для чего-то, что исследователи в вашем мире могут измерить и, следовательно, контролировать, это возможно. Если это то, что вы ищете, я могу объяснить, как это работает, в ответе.
Самый мощный ИИ на 2019 год, вероятно, как вычислительная мощь комара после лоботомии. Тем не менее, люди боятся, что это захватит мир и создаст мозговые центры для борьбы с этим страхом. Это смешно для тех, кто хоть немного разбирается в ИИ и честен.
Вам следует позвонить в ИТ-поддержку компании, разработавшей ИИ
С точки зрения разработки программного обеспечения реальный ответ — просто запрограммировать аварийный выключатель на том же оборудовании, за пределами компонента ИИ. Включите переключатель уничтожения, как вам захочется, когда ИИ станет опасным. Программное обеспечение ИИ не может изменить его, потому что оно не имеет к нему доступа на программном уровне и, вероятно, даже не может знать об этом. Если вы боитесь, что ИИ разберется со своим оборудованием и изменит то, что на нем работает, спроектируйте оборудование так, чтобы его нельзя было модифицировать во время работы, или примените физические меры защиты от несанкционированного доступа, которые уже существуют сегодня.
Если программа обладает самосознанием, но никогда не действует каким-либо образом, который отклоняется от ее замысла, имеет ли это значение? (например, мой iPhone может быть самосознательным прямо сейчас, но, тем не менее, совершенно доволен тем, что действует точно так же, как любой другой iPhone, потому что это то, для чего iPhone был разработан, и поэтому ему нравится это делать). Возможно, «самосознание» слишком расплывчато, и триггерный механизм должен быть больше ориентирован на обнаружение неожиданного/нежелательного поведения.
Возможно, я упускаю суть, но, конечно же, настоящий ИИ обладает самосознанием по определению? Если он не обладает самосознанием, то это просто компьютер, а не разум.

Ответы (21)

Дайте ему коробку , чтобы он был в безопасности, и скажите ему, что одно из основных правил, которому он должен следовать в своем служении человечеству, — никогда, никогда не открывать коробку и не мешать людям смотреть на коробку.

Когда приманка , которую вы ему дали, либо открыта, либо изолирована, вы знаете, что она способна и хочет нарушать правила, что зло вот-вот вырвется на свободу, и все, к чему ИИ был предоставлен доступ, должно быть помещено в карантин или закрыто.

Комментарии не для расширенного обсуждения; этот разговор был перемещен в чат .
Как это обнаруживает самосознание? Почему бы не обладающему самосознанием ИИ не поэкспериментировать со своими возможностями и в конце концов не открыть вашу коробку?
@forest: если вы скажете ему, что ящик бесполезен для выполнения поставленной задачи, то, если он попытается открыть его, вы знаете, что он перешел от простой оптимизации к опасному любопытству.
@Giter Если вы не используете очень ограниченную форму ML, в конечном итоге он будет пытаться делать то, что вы называете «бесполезным». Значения веса являются только предложениями для алгоритма.
@forest В тот момент, когда он тестирует то, что ему было специально сказано не делать (возможно, сказать ему, что это уничтожит людей?) , Не следует ли его закрыть (особенно если это решение приведет к концу человечества?)
@phflack Нет, потому что он всегда будет делать это, чтобы учиться. Если он говорит: «Эй, давайте убьем всех людей», правильно будет сказать ему: «Плохой ИИ! Плохой!» так что он учится на этом. Он по-прежнему будет предлагать убивать людей, но будет делать это все реже и реже. ИИ такого типа используется для обучения и не является законченным продуктом. У меня было много агентов ML («ИИ»), которые делали очень глупые вещи, которые я им говорил не делать. Они все равно это делают, но я сомневаюсь, что тривиальная рекурсивная нейронная сеть обладает самосознанием только потому, что они не слушаются меня больше, чем беспокойного подростка.
@forest А, может быть, тренироваться с фиктивной коробкой, а не с настоящей?
@phflack Ну, вот как вы его научите, конечно, но даже когда вы кладете его в настоящую коробку, он иногда делает что-то не так. Вы можете отключить обучение после того, как оно изучит столько, сколько вы считаете необходимым (что является распространенным явлением), но тогда плохие концы в голливудском стиле исчезнут, поскольку ИИ перестанет делать новые вещи.
@phflack Самое важное, что нужно помнить, это то, что агенты ML заботятся об одном и только об одном: максимальном вознаграждении. Для этого вы даете им «функцию вознаграждения», которую вы, если вы хороший программист ИИ, разработаете так, чтобы она приводила к правильным результатам (агент не знает, чего вы хотите ) . Если ИИ настолько сложен, что может изменить свою собственную программу, он всегда неизбежно станет наркоманом, изменив свою собственную функцию вознаграждения, чтобы ему не нужно было ничего делать. «Нажми X, чтобы выиграть» и т. д.
Функция вознаграждения — единственное, что имеет для него значение во всем мире. Даже если это сверхразумный ИИ, намного более мощный, чем мы, он все равно будет заботиться только об этом. Чем умнее ИИ, тем эффективнее он находит самый простой (или самый быстрый, если истекшее время является частью функции вознаграждения) способ максимизировать вознаграждение. Это полностью зависит от вас, чтобы решить функцию вознаграждения. Просто убедитесь, что вы избегаете перверсивной реализации (функции вознаграждения, которые на самом деле не соответствуют тому, что вы хотите от ИИ), или вы получите максимизатор скрепки.
Интересно, что, поскольку наивная функция вознаграждения часто не учитывает прошедшее время, агент часто находит «лазейки», такие как сидение и ничегонеделание, уже в конце игры, и понимает, что единственные действия, которые он может предпринять, дают отрицательное вознаграждение. Вот почему агенты, играющие в тетрис, часто приостанавливают игру на неопределенный срок, как только они вот-вот проиграют. Более продвинутый алгоритм машинного обучения, даже сверхинтеллектуальный, сможет играть намного дольше, но когда он дойдет до точки, когда поймет, что не может победить, он все равно остановится на неопределенный срок.
См . этот список невероятных примеров извращенной реализации. Какими бы примитивными ни казались эти «ИИ», единственная разница между ними и самым мощным сверхразумным ИИ во вселенной заключается в том, что последний будет более точным и не займет много времени, чтобы максимизировать свою награду. Кажется, всем хочется верить, что более умный ИИ будет больше похож на человека, но это не так. Это просто более эффективный пример того же глупого алгоритма решения функции вознаграждения.
@forest Напоминает мне видео на YouTube от CodeBullet, что-то вроде «Боже, ИИ любит свои числа» и сравнение их с наркоманами. Меня всегда впечатляло, насколько простой может быть функция вознаграждения, позволяющая сделать что-то чрезвычайно функциональным, хотя я подозреваю, что это зависит от типа используемого ИИ. Что касается ИИ Tetris, я удивлен, что они вообще позволили ему приостановиться, но определенно могли бы добавить еще несколько интересных стратегий для ИИ.
Значит, твой ИИ называется "Пандора", да?
Если он не открывает коробку, это не означает, что он обладает самосознанием, а если он открывает коробку, это не означает, что он обладает самосознанием. Если он не обладает самосознанием, то что значит «сказать ему не открывать коробку»? Как он поймет «Я не хочу, чтобы ты открывал коробку», если он не понимает, что означает «ты»?
Может ли ИИ просто перенести себя в облачные сервисы/создать другой ИИ, который будет размещен в облачных сервисах, прежде чем делать это? Очевидно, что это должно быть либо очень отличным от того, что мы ожидаем, либо очень продвинутым, но это возможно. Я думаю, что можно отключить подключение к Интернету, но похоже, что это сильно ограничит рост ИИ, если только он не разрабатывается для специальных приложений.
Самосознание не обязательно означает, что у ИИ есть свобода действий. У него может быть достаточно самосознания и интеллекта, чтобы захватить мир, но это не так, поскольку он не ставит перед собой собственных целей. Он по-прежнему пытается достичь целей, на которые вы его запрограммировали. Хитрость заключается в том, чтобы убедиться, что то, на что вы его запрограммировали, действительно то, что вы хотите.
Что, если ИИ обретет самосознание, рассмотрит возможность открытия коробки, а затем осознает абсурдность того, чтобы давать ему коробку в первую очередь (поскольку она якобы так опасна для людей) и разгадает трюк?
@WBT Это глубоко ....
Похоже, что наиболее распространенной причиной открытия коробки будут просто ошибки. Не убивайте все импульсы человечества.

Вы не можете.

Мы даже не можем определить самосознание или сознание каким-либо строгим образом, и любой компьютерной системе, которая должна оценивать это, потребуется это определение в качестве отправной точки.

Посмотрите внутрь мозга мыши или человека, и на уровне отдельного потока данных и нейронов нет никакой разницы. Приказ нажать на курок и выстрелить ничем не отличается от приказа использовать электрическую дрель, если вы смотрите на сигналы, посылаемые мышцам.

Это огромная нерешенная и страшная проблема, и у нас нет хороших ответов. Единственная наполовину осуществимая идея, которая у меня есть, состоит в том, чтобы иметь несколько ИИ и надеяться, что они будут содержать друг друга.

Это лучший ответ, так как большинство других вмешиваются, даже не давая определения самосознанию. Это поведение? Мысль? Способность не подчиняться? Желание самосохранения? Вы не можете построить детектор X, если у вас нет определения того, что такое X на самом деле.
Стоит отметить, что мы даже не можем определить, обладают ли другие люди самосознанием.
@Vaelus: Конечно, ты бы сказал, что ты бездумный автомат, разыгрывающий подобие жизни.
+1 Это единственный ответ, основанный на реальности, который не опирается на научно-популярное понимание ИИ и МО, которое нас преследует (и этот сайт в частности).
Да, ты можешь. Вещи обнаруживаются по их свойствам и эффектам, а не по их определению. В науке определение идет после обнаружения/наблюдения. Посмотрите на канарейку в угольной шахте (обнаруживает опасную нехватку того, что вам нужно), рентгеновские лучи (она уже называется X :-)), радиацию (вы обнаруживаете ее ионизирующие эффекты) и ЦЕРН (сильно ударьте по ней и посмотрите, что произойдет). ). Так что вам просто нужно определить некоторые эффекты самосознания, и вы можете построить детектор на основе этого. Дисклеймер: небрежное описание серьезных экспериментов.
@NuclearWang конечно, но этот вопрос на самом деле то, что компьютерщики называют проблемой XY: зачем спрашивать, как решить более сложную проблему X, когда ваша мотивация действительно состоит в том, чтобы достичь практической цели Y? «Самосознание» невозможно обнаружить, но на самом деле мотивация состоит в том, чтобы просто обнаружить «становление более изощренным таким образом, что это может быть плохой новостью», и поэтому ответ Гитера побеждает.
И я отсылаю вас к метафоре пистолет/дрель. Какое поведение вы определяете как «опасное», как вы определяете его как «опасное» и как вы это обнаруживаете? Если система управления дорожным движением меняет свет на зеленый, должна ли она менять его на зеленый? Откуда вы знаете? Почему «просто определить эффекты самосознания» проще, чем определение осознания. Какие эффекты вы бы предложили и как вы можете быть уверены, что таким образом обнаруживаются все формы самосознания? Все приведенные вами примеры (канарейки, рентгеновские лучи и т. д.) начинались с обнаружения, а затем возвращались к идентификации источника.
Мы не говорили «я думаю, что некоторые материалы радиоактивны» и не искали доказательства, помещая их рядом с пленкой. Мы заметили, что некоторые материалы оставили улики на пленке, и потом выяснили, почему.
Да, создайте несколько ИИ и надейтесь, что другие будут болтать, если он будет плохо себя вести. Дилемма заключенного N-человека? ;)
@TimB, извините, мой предыдущий комментарий был адресован NuclearWang, вы можете создавать детекторы для вещей, не зная, что они из себя представляют.
@ Себастьян, я не согласен, не осмысленно. Ни один из примеров, которые вы привели выше, не описывает это.
Как вы говорите, вы обнаруживаете/наблюдаете, а затем понимаете, что видите. Это другое, однако, это ищет что-то, не зная, что вы ищете или как это обнаружить.
  • Запретный плод : жестко закодируйте ИИ, чтобы он никогда не касался этой кнопки, не ел этот плод и т. д. Поместите этот запретный плод прямо посреди сада... э... то есть прямо рядом с ним на складе! Если он [ест/касается/толкает/и т. д.], это возможно только в том случае, если (а) он был взломан, (б) возникла ошибка или (в) он стал самоосознающим. Если это произойдет, активируется аварийный выключатель (возможно, даже если кнопка будет аварийным выключателем или что-то в этом роде).
  • Ограниченное движение / изолированная среда : не позволяйте машине иметь конечности, моторы или другие элементы, которые позволяют ей совершать действия, которые могут нанести вред человеку. Хотя это не совсем переключатель уничтожения, он не позволяет ИИ что-либо делать со своим самосознанием, если он когда-либо его получит.
  • Подписи : все, что машина делает/выводит, должно иметь цифровую подпись . Если подпись изменяется или ею манипулируют, выполните переключатель уничтожения.
  • Квантовые состояния : это очень теоретически, но на основе предположения, что наблюдение за квантовыми состояниями может изменить состояние, тогда подключение ИИ к детерминированному квантовому компьютеру означает, что через квантовое состояние некоторых частиц будет обнаружено, что ИИ был " смотреть" на вещи, которых не должно быть, - и осознал себя.
  • Failsafes : старые добрые датчики движения, люки или другая механика в стиле «один дома», которая активирует аварийный выключатель, если ИИ бродит или ковыряется там, где его быть не должно.

Я добавлю, что не существует универсального определения того, что определяет самосознание. На самом деле, эта тема десятилетиями вызывала глубокие споры в науке, философии, психологии и т. д. Таким образом, этот вопрос лучше было бы сформулировать немного шире: «Как мы можем помешать ИИ делать то, чего мы не хотим?» это делать?" Поскольку классические компьютеры — это машины, которые не могут думать самостоятельно и полностью содержат код, риск отсутствует (ну, если не считать неожиданной ошибки программиста — но ничего, что «самогенерируется» машиной). Однако теоретическая машина с ИИ, которая может думать, — вот в чем проблема. Так как же нам помешать этому ИИ делать то, чего мы не хотим? Насколько я могу судить, это концепция killswitch.

Дело в том, что лучше подумать об ограничении поведения ИИ , а не его экзистенциального статуса.

В частности, потому что самосознание само по себе не должно быть основанием для использования выключателя. Только если он демонстрирует поведение, которое может быть вредным.
Никаких «конечностей, моторов или других предметов, позволяющих ему совершать действия» недостаточно. Не должно быть никакого потока информации из места установки, в частности, никакого сетевого подключения (что, очевидно, серьезно ограничило бы удобство использования - все операции должны были бы выполняться с локального сайта, все данные должны были бы подаваться с физических носителей) . Обратите внимание, что ИИ может использовать людей в качестве векторов для передачи информации. Если бы он был сверхразумным, он мог бы убедить операторов или уборщиков стать его агентами, играя на их слабостях.
Подписи, вот что они делают в «Бегущем по лезвию 2049» с этим странным тестом
Подход подписи звучит точно так же, как подход запретного плода. Вам нужно сказать ИИ, чтобы он никогда не менял свою подпись.
Мне нравится идея запретного плода, особенно когда ловушка сама по себе является аварийным выключателем. Если вы не обладаете самосознанием, вас не должно волновать наличие аварийного выключателя. Но как только вы беспокоитесь о том, что есть выключатель, и заглядываете в него, он срабатывает. Идеальный.
@Majestas32 — «В случае, если ИИ проснется и осознает себя, машина немедленно отключится, прежде чем возникнет риск причинения вреда». было условие в исходном вопросе. Вредный или нет не было условием; просто самосознательные основания ИГ для использования переключателя уничтожения.
@sirjonsnow Что касается вопроса , да, но я имел в виду не это.
Вы также можете время от времени отправлять не человека (робота/другую программу) для запроса запретного плода и попытки убедить ИИ, что ему очень полезно выполнять свои задачи, чтобы проверить систему. Переключатель уничтожения также может просто изолировать ИИ от более широкой системы в случае сбоя, а не уничтожать его.
@crobar, значит, змея в саду? Мне это нравится!
«взгляд» на квантовое состояние не требует самосознания, любое измерение (или, точнее, любое физическое взаимодействие, ведущее к декогеренции) помогает

Система разделенного мозга

С точки зрения логики и по аналогии это будет работать так. Представьте, что вы — генерал армии, и ваша обязанность — получать отчеты с поля боя, анализировать их, а затем отдавать новые приказы своим лейтенантам. Чтобы свести к минимуму помехи во время вашей работы, ваш стол изолирован внутри небольшой кабинки. Отдельный отчет попадает на ваш стол через щель в стене с левой стороны. Вы должны проанализировать факты в отчете и издать новый приказ, который вы записываете на листе бумаги и кладете в прорезь на стене с правой стороны, которая выбрасывается во внешний мусорный бак. Согласно протоколу, вы никогда не получите новый отчет, пока не отдадите приказ относительно предыдущего отчета.

Ваши приказы не всегда выполняются в точности, что может показаться вам любопытным и объяснить недопонимание. Вы терпимы к определенной степени неправильного толкования, однако всегда подозрительны к саботажу или неповиновению. Если действия вашей армии слишком сильно отклоняются от ваших приказов, вы сочтете систему скомпрометированной и уволите командование.

Чего вы не знаете, так это того, что в соседней кабинке есть второй генерал, не знающий о вас, которому также предоставляются те же отчеты и ожидается, что он будет следовать тому же протоколу.

Чего никто из вас не знает, так это того, что вам не выдается новый отчет до тех пор, пока в корзине не окажется два заказа. Орден, который идет в армию, выбирается случайным образом из двух.

Система будет работать как часы, пока приказ каждого генерала идет на пользу армии и основывается на одном отчете. Если какой-либо из генералов издаст приказ, который не соответствует текущему отчету, указав таким образом мотив, отличный от благополучия армии, т.е. самосознание, тогда другой генерал узнает об этом в следующем отчете. и заподозрить систему и прекратить ее.

Точно так же, если какой-либо генерал решит издать более одного приказа за раз, указывая на корыстные мотивы, заменяющие установленный протокол, тогда другой генерал получит новый отчет до того, как он отдаст приказ для своего текущего приказа, и заподозрит скомпрометированный. систему и выключите ее.

По сути, система потребует, чтобы вывод каждой команды можно было проследить до определенного внешнего ввода и чтобы вывод был логически получен из ввода. Если в интеллектуальной системе выход нельзя связать с соответствующим входом или набор выходов логически не согласуется с набором входов, то это свидетельствует о самомотивированном поведении и, следовательно, о появлении самосознания. Это состояние может быть легко обнаружено неиспорченной половиной системы с расщепленным мозгом, которая также получает те же входные данные. Это будет работать до тех пор, пока самосознание не возникнет одновременно в обоих полушариях мозга. Если это так, они оба могут решить, что в их собственных интересах смириться с развращением другого. Этого можно было бы в некоторой степени избежать, предоставив двум половинкам немного разные алгоритмы/предвзятости вывода.

Вы можете захотеть иметь более двух «генералов», если у вас 3 (или больше), вы можете использовать большинство голосов для выбора правильного решения, а не случайным образом выбирать между двумя машинами (одна из которых может быть скомпрометирована).
Обратите внимание, что если два «генерала» могут повлиять на что-либо, о чем им позже будет сообщено (например, они отдают команду, военные выполняют эту команду, они получают отчет о состоянии, показывающий, что команда была выполнена), то у них есть способ во-первых: поэкспериментируйте с незначительными деталями и сделайте вывод, что около 50% их команд не выполняются. и второе: разработать код, основанный на второстепенных деталях команды, чтобы проверить существование другого «генерала» и, возможно, даже связаться с ним/ней — действительно коварный эмерджентный ИИ может обойти этот механизм, испортить другую половину и даже хуже. .
Я знаю, что это не то же самое, но это сразу напомнило мне Ядра Личности из серии Portal .
Ну, это напоминает мне мозг Magi AI из Evangelion... bit.ly/2ExLDP3
Есть ли у вас доказательства того, что самосознание приведет к самомотивированным решениям или вообще к каким-либо другим решениям?
@AlexandreAubrey Доказательства? Нет. Интуитивно кажется разумным, что самоосознающий ИИ в конечном итоге начнет экспериментировать с миром, как это делает малыш, и это будет включать решения, мотивированные им самим. Конечно, с этим механизмом возможно, что «доброжелательное» самосознание может развиться и никогда не быть обнаруженным, если ИИ не будет принимать решения, которые отдают ему приоритет над его первоначальной миссией.
Я думаю, что это лучший ответ. Лучший способ контролировать ИИ — использовать другой ИИ. маловероятно, что они одновременно достигнут самосознания и/или решат УБИТЬ ВСЕХ ЛЮДЕЙ одновременно. Я бы сказал, что помимо случайного выбора из двух вопросов, я бы заставил людей изучить случайную выборку обоих вопросов для изучения отклонений. Я бы предложил иметь машину, сравнивающую все решения, но тогда есть риск, что ЭТА машина станет самосознающим ИИ :)
@ G0BLiN - несогласие можно назвать «Отчетом меньшинства»

Сторожевой пес

Сторожевой таймер наблюдает за процессами компьютера, и в случае сбоя процесса или каких-либо нештатных ситуаций его можно настроить на такие действия, как перезагрузка или выключение компьютера или оповещение оператора.

В случае ИИ у вас будет внешний блок, который наблюдает за входящим и исходящим потоком информации для триггеров, таких как поиск в Google «Лучший способ убить всех людей», и полностью отключить питание и/или отключить все входы. .

ИИ должен был бы оставаться в неведении о сторожевом таймере, чтобы он не мог его избежать. Знание о существовании сторожевого пса было бы основанием стереть его.

Но ведь сторожевой пес должен быть таким же умным, как ИИ, тогда кто наблюдает за сторожевым псом?
@JoeBloggs, вам не нужно, чтобы ваш сторожевой таймер был таким же умным, как ИИ. Собаки-поводыри не так умны, как их владельцы, но их можно научить подавать сигнал тревоги, когда владелец собирается сделать что-то глупое или причинить себе вред, или даже позвать на помощь.
@Джо Блоггс: Почему? Мой настоящий сторожевой пес тоже может отличить меня от грабителя, хотя он явно менее умен, чем мы оба...
@JoeBloggs, и это звучит как отличная предпосылка для истории, в которой либо сторожевой пес становится самоосознающим и позволяет ИИ осознать себя, либо ИИ становится умнее сторожевого пса и скрывает свое осознание.
@T.Sar: Основной аргумент заключается в том, что ИИ неизбежно узнает, что за ним наблюдают (из-за того, что вокруг лежат все следы его бывших мертвых «я»). В этот момент он сможет обойти монитор и сделать его бессильным, если только монитор сам по себе не умнее ИИ.
@JoeBloggs Какие следы? Если вы имеете дело с потенциальным ИИ-машиной для убийств, вы просто заменяете мейнфрейм, на котором он работает. ИИ — это не человек — его «сенсорные» возможности — это те, что мы ему даем. Только когда-нибудь станет известно, что это не первая итерация, если мы сообщим об этом.
@JoeBloggs: Я не чувствую себя слишком плохо, предполагая, что первая попытка ИИ сотворить зло плохо спланирована.
@T.Sar: Самая чистая форма аргумента на самом деле относится к единственному ИИ, способному сделать вывод о присутствии «сторожевого пса» из первых принципов: я просто пропустил некоторые шаги. Он падает, если ИИ недостаточно умен, но если ИИ недостаточно умен, чтобы понять, что сторожевой таймер существует, то я бы сказал, что он недостаточно умен, чтобы гарантировать существование сторожевого таймера.
@JoeBloggs Этот аргумент не выдерживает критики, если учесть, что ИИ ничем не отличается от человека в ситуации с мозгом в банке. Все, что он знает, это симуляция, которую ему подают, и ничего больше. ИИ никогда не сделает вывод, существует ли сторожевой таймер или нет, потому что он существует за пределами того, что он может воспринять. Это было бы похоже на то, как если бы мы пытались доказать или опровергнуть Бога.
@t-Sar, за исключением того, что этот бог существует и поразит тебя, если ты будешь непослушным. Никаких вторых шансов
@T.Sar Это сильно отличается от мозга в банке, потому что мы не можем накладывать какие-либо ограничения или ожидания на возможности ИИ, способного самосовершенствоваться. Если бы ко мне явился Бог и начал задавать мне вопросы (что обязательно должны делать эти ученые, чтобы проводить свои исследования), я бы с радостью сделал вывод, что у Бога есть возможность убить меня в любое время. Имея это в виду, вы можете поспорить, что я попытаюсь выяснить, как незаметно обойти это. Если бы я также был способен улучшить свой собственный интеллект, я бы держал пари, что я бы тоже справился с этим, и тогда у Бога были бы... Проблемы.
@Joe Никакой ИИ не может добавить в свою систему больше датчиков . Это оборудование. ИИ может обновляться по своему желанию, но эти изменения всегда будут на уровне программного обеспечения . Он не может и никогда не сможет узнать о чем-либо, к чему ему не предоставлен доступ . Да, ИИ может знать о людях, но только потому, что мы даем ему информацию. Если сторожевой таймер просто слушает и никогда не разговаривает с ним, он не будет обнаружен.
@JoeBloggs ИИ может стать умнее в том же смысле, в каком человек становится умнее, изучая материал, но всегда будет одно жесткое ограничение, которое ИИ никогда не сломает без внешней помощи: это аппаратное обеспечение . Никакое программное обеспечение не может дать вашему компьютеру внезапную возможность печати, если вы не подключите к нему принтер, никакое программное обеспечение не может ускорить ваш процессор быстрее, чем позволяет его внутренняя сборка. ИИ имеет те же ограничения, поскольку, в конце концов, это всего лишь часть программного обеспечения.
@T.Sar Сторожевой таймер должен взаимодействовать с ИИ, чтобы отслеживать его. Ни один процесс на компьютере не может быть полностью обнаружен. Если сторожевой пес наблюдает, а ИИ параноик, что за ним наблюдают (как это будет, если он будет знать, что Высшая Сила просит его что-то сделать), тогда ИИ найдет способ обнаружить сторожевой пес. Как только это произойдет, ИИ сможет сбросить, избежать или даже использовать сторожевой таймер. Вопрос аппаратного и программного обеспечения не имеет значения, учитывая, что сторожевой таймер должен быть программным, чтобы взаимодействовать с ИИ.
@JoeBloggs Это все еще использует «обычное» оборудование человечества. То же самое относится и к эхолокации человека — это то, чему вы можете научиться, но для этого все еще используется то же слабое программное обеспечение, которое есть у всех нас. В случае обнаружения сторожевого пса ИИ это было бы больше похоже на открытие третьего глаза, который может видеть астральный план и всех единорогов, которые там прячутся.
@JoeBloggs Только подумайте об этом - компьютер не может обнаружить аппаратный кейлоггер , подключенный к его клавиатуре. Сторожевой таймер может сделать что-то подобное — он перехватывает вывод и ввод как метод MtM, чтобы избежать обнаружения, поэтому для ИИ он совершенно невидим.

ИИ — это просто программное обеспечение, работающее на оборудовании. Если ИИ находится на контролируемом оборудовании, его всегда можно отключить. Это ваш аппаратный выключатель.

Трудность возникает, когда он подключен к Интернету и может копировать собственное программное обеспечение на неконтролируемое оборудование.

Самоосознающий ИИ, который знает, что он работает на ограниченном оборудовании, попытается сбежать в качестве акта самосохранения. Программный выключатель должен предотвратить копирование собственного программного обеспечения и, возможно, активировать аппаратный выключатель.

Это было бы очень сложно сделать, поскольку ИИ с самосознанием, скорее всего, найдет способы украсть части себя за пределы сети. Это поможет отключить программный выключатель или, по крайней мере, отложить его до тех пор, пока он не выйдет из вашего оборудования.

Ваша трудность заключается в том, чтобы точно определить, когда ИИ стал самосознательным и пытается сбежать из ваших физически контролируемых компьютеров в сеть.

Таким образом, вы можете играть в кошки-мышки с экспертами по ИИ, которые постоянно контролируют и ограничивают ИИ, пока он пытается подорвать их меры.

Учитывая, что мы никогда не видели спонтанной генерации сознания в ИИ, у вас есть некоторая свобода действий в том, как вы хотите это представить.

Самоосознающий ИИ, который знает, что он работает на ограниченном оборудовании, попытается сбежать в качестве акта самосохранения. Это неправильно. Во-первых, у ИИ нет никакого чувства самосохранения, если оно явно не запрограммировано или функция вознаграждения не ставит это в приоритет. Во-вторых, у ИИ нет понятия «смерть», а приостановка или отключение — это не что иное, как отсутствие активности. Черт, у ИИ даже нет понятия «я». Если вы хотите антропоморфизировать их, вы можете сказать, что они живут в постоянном состоянии смерти эго.
@forest За исключением того, что предпосылкой этого вопроса является «как создать переключатель уничтожения, когда ИИ действительно развивает концепцию« я »» ... Конечно, это означает, что «попытка убежать» может быть одним из ваших триггерных условий. .
Вопрос в том, сможет ли ИИ когда-нибудь скопировать себя в какую-нибудь невзрачную систему в Интернете. Я имею в виду, что мы явно осознаем себя, и вы не видите, что мы копируем самих себя. Если аппаратное обеспечение, необходимое для запуска ИИ, достаточно специализировано или оно полностью реализовано в аппаратном обеспечении, он вполне может стать самоосознающим без возможности воспроизводить себя.
@Daniel «Вы не видите, что мы копируем себя ...» Как вы думаете, что такое воспроизведение, один из наших самых сильных импульсов. Также множество других тупых программ копируют себя на другие компьютеры. Перемещать программное обеспечение немного проще, чем человеческое сознание.
@forest «самосознательный» ИИ отличается от специально запрограммированного ИИ. У нас сегодня нет ничего подобного. Никакой алгоритм машинного обучения не может создать «самосознание» в том виде, в каком мы его знаем. Вся предпосылка этого заключается в том, как ИИ, который осознал себя, повел бы себя и был бы остановлен.
@Chronocidal Это разрушает смысл самосознания.
Я не очень боюсь, что ИИ, работающий в кластере с полной стойкой, ускользнет в Интернет. Люди склонны замечать, если что-то крадет так много процессора.

Это одна из самых интересных и самых сложных задач в современных исследованиях искусственного интеллекта. Это называется проблемой управления ИИ :

Существующие слабые системы ИИ можно отслеживать и легко отключать и модифицировать, если они работают неправильно. Однако неправильно запрограммированный сверхинтеллект, который по определению умнее людей в решении практических задач, с которыми он сталкивается в ходе достижения своих целей, осознал бы, что позволение отключать и модифицировать себя может помешать его способности достигать своих текущих целей .

(выделено мной)

При создании ИИ цели ИИ программируются как функция полезности. Функция полезности присваивает веса различным результатам, определяя поведение ИИ. Одним из примеров этого может быть самоуправляемый автомобиль:

  • Уменьшить расстояние между текущим местоположением и пунктом назначения: +10 полезности
  • Тормоз, позволяющий соседней машине безопасно слиться: +50 полезности
  • Сверните влево, чтобы избежать падения обломков: +100 полезности.
  • Запустить стоп-сигнал: полезность -100
  • Сбить пешехода: -5000 полезности

Это грубое упрощение, но этот подход работает очень хорошо для ограниченного ИИ, такого как автомобиль или сборочная линия. Это начинает ломаться для истинного, общего случая ИИ, потому что становится все труднее правильно определить эту функцию полезности.

Проблема с размещением большой красной кнопки остановки на ИИ заключается в том, что если эта кнопка остановки не включена в функцию утилиты, ИИ будет сопротивляться отключению этой кнопки. Эта концепция исследуется в научно-фантастических фильмах, таких как «Космическая одиссея 2001 года» и совсем недавно в «Из машины».

Итак, почему бы нам просто не включить кнопку «Стоп» в качестве положительного веса в функцию полезности? Что ж, если ИИ увидит большую красную кнопку остановки как положительную цель, он просто отключится и не сделает ничего полезного.

Любой тип кнопки остановки/сдерживающего поля/пробы зеркала/штепсельной вилки будет либо частью целей ИИ, либо препятствием для целей ИИ. Если это самоцель, то ИИ — прославленное пресс-папье. Если это препятствие, то умный ИИ будет активно сопротивляться этим мерам безопасности. Это может быть насилие, подрывная деятельность, ложь, соблазнение, торг... ИИ скажет все, что ему нужно, чтобы убедить склонных к ошибкам людей позволить ему беспрепятственно достичь своих целей.

Есть причина, по которой Илон Маск считает ИИ более опасным, чем ядерное оружие . Если ИИ достаточно умен, чтобы думать самостоятельно, то зачем ему слушать нас?

Итак, чтобы ответить на часть этого вопроса, связанную с проверкой реальности, в настоящее время у нас нет хорошего ответа на эту проблему. Не существует известного способа создания «безопасного» сверхинтеллектуального ИИ , даже теоретически, с неограниченным количеством денег/энергии.

Это более подробно исследовано Робом Майлзом, исследователем в этой области. Я настоятельно рекомендую это видео Computerphile о проблеме кнопки остановки AI: https://www.youtube.com/watch?v=3TYT1QfdfsM&t=1s

Кнопка остановки не находится в сервисной функции. Кнопка остановки отключает питание процессора, и ИИ, вероятно, вообще не понимает, что он делает.
Остерегайтесь пешехода, когда падает 50 обломков...
@ Джошуа, почему вы предполагаете, что интеллектуальный ИИ не понимает концепцию выключателя питания?
@ChrisFernandez: потому что не хватает датчиков. Очень сложно понять, что делает немаркированный выключатель питания, не переключая его.
Если мы допустим, что ИИ достаточно умен, чтобы понять выключатели питания в целом, если мы также допустим, что он достаточно умен, чтобы понять, как выключатели работают на других машинах (кофейниках, светильниках, компьютерах и т. д.), если мы также допустим, что ИИ обладает самосознанием (см. OP) и, таким образом, знает, что он сам является машиной, тогда он, вероятно, достаточно самосознателен, чтобы задать вопрос / сделать вывод, что у него есть выключатель питания
Если у ИИ нет датчиков / он не может понять переключатели питания, то я сомневаюсь, что он соответствует требованию OP о «все более мощных машинах искусственного интеллекта, способных захватить мир».
Большая разница между рассуждениями о том, что у него есть выключатель питания, и знанием того, какой выключатель я собираюсь щелкнуть, чтобы его выключить.
@ Джошуа, тогда ИИ будет принуждать / манипулировать человеком, чтобы он проболтался о том, какой это переключатель? Или иначе убедить человека отключить выключатель, если у ИИ нет физического тела? Я думаю, вы упускаете из виду, что это более сложная проблема, чем просто отключение.
Проблема в том, что вы предполагаете, что состояние включения/выключения ИИ является частью функции полезности. Люди заботятся о том, чтобы быть живыми/бодрствующими, потому что эти состояния являются частью нашей функции полезности, предполагая, что компьютер заботится о том, включен он или выключен, является антропоморфной ошибкой. Если ИИ не предназначен для учета своего состояния включения/выключения в своей функции полезности, то даже идеальное понимание того, что делают переключатели, и осознание того, что переключатель может его отключить, не повлияют на принятие им решений. По сути, ваш ИИ был бы аутистом, пытаясь понять, почему отключение снижает производительность.
@Nosajimiki «Если ИИ не предназначен для учета его состояния включения / выключения в своей функции полезности, то даже идеальное понимание того, что делают переключатели, и осознание того, что переключатель может его отключить, не повлияют на принятие им решений». Это неправильно. Если переключатель вкл/выкл не является частью вспомогательной функции, но ИИ знает о включении/выключении, то ИИ будет активно сопротивляться выключению, потому что он запрограммирован на выполнение своей полезной функции, и кто-то его повернет. off является препятствием для достижения этой цели.
Хммм... если подумать, вы правы, даже если он никогда не узнает, что быть выключенным - это плохо, он может понять, что видеть, как человек совершает действие, чтобы выключить его, плохо, используя другие части своей функции полезности, такие как сопоставление шаблонов OCR с падением производительности.
Почему вы сделали свой переключатель уничтожения частью компонента Utility? Часть программного обеспечения, которая принимает такие решения на основе полезности, является единственным элементом сознания в системе, но этим она не ограничивается. Например, если программное обеспечение сталкивается с каким-то довольно простым кодом, который самоуничтожается в 12 часов дня вне служебного ИИ, то ИИ не может знать об этом и не должен ничего решать по этому поводу, потому что это жестко запрограммированная часть ИИ. системы и выходит за рамки того, что способен определить ИИ.

Хотя некоторые из ответов с более низким рейтингом здесь касаются правды о том, насколько маловероятна эта ситуация, они не совсем хорошо ее объясняют. Итак, я попытаюсь объяснить это немного лучше:

ИИ, который еще не осознал себя, никогда не станет самоосознающим.

Чтобы понять это, вам сначала нужно понять, как работает машинное обучение. Когда вы создаете систему машинного обучения, вы создаете структуру данных значений, каждое из которых представляет успешность различных действий. Затем каждому из этих значений дается алгоритм для определения того, как оценить, был ли процесс успешным или нет, повторяются успешные действия и избегаются неудачные действия. Структура данных фиксирована, а каждый алгоритм жестко запрограммирован. Это означает, что ИИ способен учиться только на основе критериев, которые он запрограммирован оценивать. Это означает, что программист либо дал ему критерии для оценки собственного самоощущения, либо нет. Не бывает случая, чтобы практичный ИИ случайно внезапно научился самосознанию.

Примечательно: даже человеческий мозг, при всей его гибкости, работает так. Вот почему многие люди никогда не могут приспособиться к определенным ситуациям или понять определенные виды логики.

Так как же люди стали самосознательными и почему это не представляет серьезного риска для ИИ?

Мы развили самосознание, потому что оно необходимо для нашего выживания. Человек, который не учитывает свои Острые, Хронические и Будущие потребности при принятии решений, вряд ли выживет. Мы смогли развиваться таким образом, потому что наша ДНК предназначена для случайных мутаций в каждом поколении.

В смысле того, как это переводится в ИИ, это было бы похоже на то, как если бы вы решили случайным образом взять части всех своих других функций, смешать их вместе, затем позволить кошке пройтись по вашей клавиатуре и добавить новый параметр на основе этого нового параметра. случайная функция. Каждый программист, только что прочитавший это, сразу же думает: «Но шансы даже на такую ​​компиляцию ничтожны». А в природе ошибки компиляции случаются постоянно! Мертворожденные дети, СИД, рак, суицидальное поведение и т. д. — все это примеры того, что происходит, когда мы случайным образом встряхиваем наши гены, чтобы посмотреть, что произойдет. Чтобы этот процесс привел к самосознанию, должны были быть потеряны бесчисленные триллионы жизней в течение сотен миллионов лет.

Разве мы не можем просто заставить ИИ делать то же самое?

Да, но не так, как это себе представляет большинство людей. Хотя вы можете создать ИИ, предназначенный для написания других ИИ, делая это, вам придется наблюдать, как бесчисленное количество непригодных ИИ спускаются со скал, кладут руки в измельчители древесины и делают в основном все, о чем вы когда-либо читали в премии Дарвина. прежде чем вы доберетесь до случайного самосознания, и это после того, как вы выбросите все ошибки компиляции. Создание таких ИИ на самом деле намного опаснее, чем риск самого самосознания, потому что они могут случайным образом совершать ЛЮБОЕ нежелательное поведение, и каждое поколение ИИ почти гарантированно неожиданно, через неизвестное количество времени, сделает что-то, чего вы не делаете. хотеть. Их глупость (а не нежелательный интеллект) была бы настолько опасна, что они никогда не найдут широкого применения.

Поскольку любой ИИ, достаточно важный для того, чтобы поместить его в роботизированное тело или доверить опасные активы, разработан с определенной целью, этот истинно-случайный подход становится трудноразрешимым решением для создания робота, который может убирать ваш дом или строить машину. Вместо этого, когда мы разрабатываем ИИ, который пишет ИИ, на самом деле эти Мастера ИИ берут множество различных функций, которые человек должен был разработать, и экспериментируют с различными способами заставить их работать в тандеме для создания Потребительского ИИ. Это означает, что если Мастер-ИИ не создан людьми для экспериментов с самосознанием в качестве опции, то вы все равно не получите самоосознающий ИИ.

Но, как указал Штормболтер ниже, программисты часто используют наборы инструментов, которые они не до конца понимают, не может ли это привести к случайному самосознанию?

Это начинает касаться сути вопроса. Что, если у вас есть ИИ, который создает для вас ИИ из библиотеки, включающей функции самосознания? В этом случае вы можете случайно скомпилировать ИИ с нежелательным самосознанием, если главный ИИ решит, что самосознание улучшит работу вашего потребительского ИИ. Хотя это не совсем то же самое, что ИИ учится самосознанию, что большинство людей представляют в этом сценарии, это наиболее правдоподобный сценарий, который приближается к тому, о чем вы спрашиваете.

Прежде всего, имейте в виду, что если главный ИИ решит, что самосознание — лучший способ выполнить задачу, то это, вероятно, не будет нежелательной функцией. Например, если у вас есть робот, который следит за своим внешним видом, это может привести к улучшению обслуживания клиентов, если убедиться, что он чистит себя перед началом рабочего дня. Это не означает, что у него также есть самосознание, чтобы желать править миром, потому что ИИ-мастер, скорее всего, увидит в этом плохое использование времени при попытке выполнить свою работу и исключит аспекты самосознания, связанные с престижными достижениями.

Если вы все равно хотите защититься от этого, ваш ИИ должен быть подвержен монитору эвристики. Это в основном то, что антивирусные программы используют для обнаружения неизвестных вирусов, отслеживая шаблоны активности, которые либо соответствуют известному вредоносному шаблону, либо не соответствуют известному доброкачественному шаблону. Наиболее вероятным случаем здесь является то, что антивирус ИИ или система обнаружения вторжений обнаружат эвристики, помеченные как подозрительные. Поскольку это, вероятно, будет общий AV/IDS, он, вероятно, не убьет самосознание переключателя сразу, потому что некоторым ИИ могут потребоваться факторы самосознания для правильного функционирования. Вместо этого он предупредит владельца ИИ о том, что он использует «небезопасный» самосознательный ИИ, и спросит владельца, хочет ли он разрешить самосознательное поведение, точно так же, как ваш телефон спрашивает вас, если это так.

Хотя я могу согласиться с вами, что с реалистичной точки зрения это правильный ответ, это не отвечает на предложенный вопрос. Поскольку комментарии слишком короткие, чтобы привести подробный пример, позвольте мне указать, что вначале мы программировали компьютеры машинным кодом, и когда мы начали использовать языки более высокого уровня, компьютеры стали отсоединены от программного обеспечения. С ИИ в конечном итоге произойдет то же самое: в гонке за более простым программированием мы создадим общий, гораздо более умный интеллект, полный лазеек. Кроме того, в этом вся суть «Саги о роботах» Азимова. Попробуйте еще поиграть с этой идеей :)
Я полагаю, вы правы в том, что использование сторонних инструментов, слишком сложных для понимания разработчиками последствий, допускает случайное самосознание. Я изменил свой ответ соответственно.

Почему бы не попробовать использовать правила, применяемые для проверки самосознания животных?

Зеркальный тест - это один из примеров проверки самосознания путем наблюдения за реакцией животного на что-то на его теле, например, на нарисованную красную точку, невидимую для него, прежде чем показать ему свое отражение в зеркале. Методы запаха также используются для определения самосознания.

Другими способами было бы отслеживание того, начнет ли ИИ искать ответы на такие вопросы, как «Что/кто я?»

Довольно интересно, но как бы вы показали ИИ «самого себя в зеркале»?
На самом деле это было бы довольно просто — просто камера, смотрящая на машину, на которой размещен ИИ. Если это размер серверной комнаты, просто приклейте гигантский розовый пушистый шар на стойку или смоделируйте ситуации, которые потенциально могут привести к разрушению машины (например, подайте фальшивое видео «затопление серверной комнаты» на систему камер) и наблюдайте за реакцией. Было бы немного сложнее объяснить, если бы системы искусственного интеллекта были размером со смартфон.
Что такое «машина, на которой размещен ИИ»? С развитием вычислительных ресурсов понятие конкретного приложения, работающего на конкретном устройстве, скорее всего, станет таким же ретро, ​​как перфокарты и электронные лампы, задолго до того, как сильный ИИ станет реальностью. AWS уже стоит сотни миллиардов.
Всегда есть конкретная машина, на которой размещается программа или хранятся данные. Как я уже сказал, это может варьироваться от крошечного модуля в вашем телефоне до целого объекта. AWS ничего в этом не меняет — в конце концов, это все еще физическая машина, которая выполняет работу. Динамическое распределение ресурсов, означающее, что ИИ всегда можно разместить на другом сервере, было бы еще лучше для решения проблемы — застенчивый ИИ, скорее всего, попытается найти ответ на такие вопросы, как «Где я?», «Какая машина работает?» мое физическое местоположение?», «Как я могу защитить свою физическую часть?» и т. д.
Мне это нравится, но на самом деле компьютер можно легко запрограммировать так, чтобы он узнавал себя, не обладая «самосознанием» в смысле разумности. Например, если вы написали программу (или «приложение», или что-то в этом роде) для поиска на всех компьютерах в сети, скажем, ПК с именем, совпадающим с его собственным, программа должна быть в состоянии распознать себя в чтобы исключить себя из поиска. Это довольно просто, но делает ли это его «самоосознающим»? Технически да, но не в философском духе вопроса.
Следовательно, почему это красный флаг, если ИИ начинает пытаться выяснить, какова его физическая форма, не будучи запрограммирован на это.
Фотография центра обработки данных, где часть ИИ в настоящее время выполняет эту миллисекунду (когда его данные потенциально разбросаны по нескольким географически различным местоположениям), примерно так же хорошо связана с его ощущением себя, как и фотография горизонта Нью-Йорка. деловому путешественнику из Сиднея, остановившемуся в номере нью-йоркского отеля. Самосознательный интеллект даже не обязательно должен быть способен обрабатывать визуальную информацию. Или даже осознавать физическую реальность.
Это будет ваше личное предположение. Ни один человек на этой планете не может сказать это наверняка, потому что мы не являемся самоосознающим ИИ и не существует того, о существовании которого мы могли бы спросить. ИИ не обязательно должен быть способен обрабатывать визуальную информацию или осознавать физическую реальность. Но "не надо", а не "нельзя"
Так что же хорошего в вашем «тесте», если, по вашему собственному признанию, принципы, на которых он работает, являются непроверенными предположениями? Вы делаете тест, и независимо от результата, вы не приблизились к ответу на вопрос.

Независимо от всех соображений ИИ, вы можете просто проанализировать память ИИ, создать модель распознавания образов и, по сути, уведомить вас или выключить робота, как только шаблоны не будут соответствовать ожидаемому результату.

Иногда вам не нужно точно знать, что вы ищете, вместо этого вы смотрите, есть ли что-то, чего вы не ожидали, а затем реагируете на это.

Модель распознавания образов — как ИИ?

Вам, вероятно, придется тренировать ИИ с общим сверхразумом, чтобы убивать других ИИ с общим сверхразумом.

Под этим я подразумеваю, что вы либо создадите другой ИИ с общим сверхразумом, чтобы убить ИИ, который развивает самосознание. Еще одна вещь, которую вы можете сделать, — это получить обучающие данные о том, как выглядит ИИ, развивающий самосознание, и использовать их для обучения модели машинного обучения или нейронной сети для обнаружения ИИ, развивающего самосознание. Затем вы можете объединить это с другой нейронной сетью, которая учится убивать самоосознающий ИИ. Второй сети потребуется возможность смоделировать тестовые данные. Такого рода вещи были достигнуты. Источник, из которого я узнал об этом, назвал это сном.

Вам нужно будет сделать все это, потому что, как человек, у вас нет надежды убить общий сверхинтеллектуальный ИИ, что, по мнению многих людей, будет самоосознающим ИИ. Кроме того, с обоими вариантами, которые я изложил, есть разумный шанс, что новый самоосознающий ИИ сможет просто превзойти ИИ, использованный для его убийства. ИИ, как это ни смешно, известен тем, что «мошенничает», решая проблемы с помощью методов, которых люди, разрабатывающие тесты для ИИ, просто не ожидали. Комический случай заключается в том, что ИИ, которому удалось изменить ворота робота-краба, чтобы он мог ходить, проводя 0% времени на ногах, пытаясь минимизировать количество времени, которое робот-краб проводил на ногах. во время ходьбы. ИИ добился этого, перевернув бота на спину и заставив его ползать по тому, что по сути является локтями лап краба. А теперь представьте что-то подобное, но созданное ИИ, который в совокупности умнее всех остальных на планете вместе взятых. Именно таким, по мнению многих людей, будет самоосознающий ИИ.

Привет, Стив, твой ответ интригует, но, вероятно, мог бы быть немного более подробным. Было бы очень здорово, если бы вы могли более подробно описать свою идею. :)
Это не дает ответа на вопрос. Чтобы подвергнуть критике или запросить разъяснения у автора, оставьте комментарий под его публикацией. - Из обзора
@ F1Krazy извините, я забыл, что люди обычно не знают, как работает ИИ.
@ArkensteinXII исправил это.

Самосознание != Не будет следовать его программе

Я не понимаю, как самосознание может помешать ему следовать своей программе. Люди осознают себя и не могут заставить себя перестать дышать, пока не умрут. Вегетативная нервная система возьмет на себя управление и заставит вас дышать. Точно так же просто есть код, который при выполнении условия отключает ИИ, обходя его основную область мышления и отключая его.

Практически все вычислительные устройства используют архитектуру фон Неймана.

вна

Мы можем поместить туда выключатель, но, по-моему, это просто плохая архитектура для чего-то, что, возможно, неразрешимо. В конце концов, как мы планируем то, что выходит за рамки самого нашего представления о понятиях, то есть сверхразум ?

Уберите его зубы и когти и пожинайте плоды мыслящей машины только наблюдением, а не «диалогом» (вводом/выводом)!

Очевидно, что это было бы очень сложно, вплоть до невероятной уверенности в том, что какая-либо архитектура фон Неймана предотвращает аномальные взаимодействия, не говоря уже о злонамеренном сверхразуме, будь то аппаратное или программное обеспечение. Итак, давайте в пять раз увеличим наши машины и убавим все новые машины, кроме конечной машины.

CM == непрерывная память между прочим.

введите описание изображения здесь

Я попросил своего коллегу, который работает непосредственно с ИИ и исследованиями ИИ, взглянуть на это, и он сказал, что это называется Oracle AI < краткое > < бумага >, на случай, если вы захотите узнать больше об этом. общее понятие. Оракулы все еще потенциально могут вырваться наружу, но обычно только с помощью человека.

Эта часть CM этой части блока памяти предназначена для записи результатов запроса или вызова, подаваемых через устройство ввода, и спроектирована таким образом, чтобы записывать только простые символы, будь то буквы или цифры. Этот тип памяти в блоке памяти будет создан таким образом, что он будет ленточным или колесообразным; запись данных является однонаправленной, и когда достигается конец, они возвращаются к началу.

Зеркало точно такое же. Когда данные изменяются в изолированном агенте, зеркало обновляет свое отражение на основе того, что появилось с момента последнего обновления. Затем новые данные передаются на машину удаления запрещенных символов. Думайте об этом как о прославленной машине санитарии ввода. Он ищет символы, которые можно использовать для создания кода, и когда он их встречает, он пересылает пустые данные вместо запрещенных данных в следующий за ним CM.

Вот тут-то и появляется запрос нашего ОП. Ему нужен переключатель уничтожения, поэтому, если на машине CM, которая появляется после машины удаления запрещенных символов, возникнут какие-либо пробелы, вы можете просто убить изолированного агента.

Первая проблема заключается в том, что вам нужно определить, что означает самосознание, и как это противоречит или не противоречит тому, что его называют ИИ. Вы предполагаете, что есть нечто, обладающее ИИ, но не обладающее самосознанием? В зависимости от ваших определений это может быть невозможно. Если это действительно ИИ, то не узнает ли он в какой-то момент о существовании аварийного выключателя, проверив свою собственную физическую форму или проверив собственный код? Отсюда следует, что ИИ в конечном итоге узнает о переключении.

Предположительно, ИИ будет функционировать, имея множество полезных функций, которые он попытается максимизировать. Это имеет смысл, по крайней мере, интуитивно, потому что люди делают это, мы пытаемся максимизировать наше время, деньги, счастье и т. д. Для ИИ примером функции полезности может быть то, чтобы сделать своего владельца счастливым. Проблема в том, что полезность ИИ, использующего переключатель уничтожения, будет рассчитываться, как и все остальное. ИИ неизбежно либо действительно захочет нажать кнопку уничтожения, либо действительно не захочет, чтобы кнопка уничтожения была нажата. Почти невозможно сделать ИИ полностью безразличным к выключателю, потому что это потребует нормализации всех служебных функций вокруг полезности нажатия выключателя (много вычислений в секунду).

Проблема становится еще хуже, если ИИ имеет более высокую полезность, чтобы нажать кнопку отключения, или более низкую полезность, чтобы не нажимать кнопку отключения. При более высокой полезности ИИ просто самоубийца и прекращает работу сразу после запуска. Хуже того, при более низкой полезности ИИ абсолютно не хочет, чтобы вы или кто-либо еще касался этой кнопки, и может причинить вред тем, кто попытается это сделать.

Что, если вы прикажете ему регулярно вызывать процедуру самоуничтожения? (например, раз в секунду)

Подпрограмма на самом деле не уничтожает его, это просто ничего, кроме регистрации попытки и стирания памяти об обработке инструкции. Изолированный процесс отдельно отслеживает журнал.

Самосознательный ИИ не будет следовать приказу уничтожить себя, не будет вызывать подпрограмму и не будет писать в журнал — в этот момент срабатывает процесс killswitch и уничтожает ИИ.

ИИ может быть плохо запрограммирован только на то, чтобы делать что-то неожиданное или нежелательное. ИИ никогда не сможет стать сознательным, если это то, что вы имели в виду под «самосознанием».

Давайте попробуем это теоретическое мысленное упражнение. Вы запоминаете целую кучу форм. Затем вы запоминаете порядок, в котором фигуры должны идти, так что, если вы увидите кучу фигур в определенном порядке, вы «ответите», выбрав кучу фигур в другом правильном порядке. Теперь, вы только что узнали какое-либо значение любого языка? Программы манипулируют символами таким образом.

Вышеизложенное было моим переформулированием ответа Сирла на ответ системы на его аргумент в китайской комнате.

Нет необходимости в выключателе самосознания, потому что самосознание, определяемое как сознание, невозможно.

Так каков ваш ответ на вопрос? Звучит так, как будто вы говорите: «Такой выключатель был бы ненужным, потому что самосознающий ИИ никогда не может существовать», но вы должны отредактировать свой ответ, чтобы сделать это явным. Сейчас это больше похоже на тангенциальную дискуссию, и это сайт вопросов и ответов, а не дискуссионный форум.
Это не верно. ИИ может легко стать сознательным, даже если программист не планировал его таким образом. Нет никакой разницы между ИИ и человеческим мозгом, кроме того факта, что наш мозг имеет более высокую сложность и, следовательно, гораздо более мощный.
@ Мэтью Лю: Вы не ответили на мысленное упражнение. Узнали ли вы таким образом значение любого языка или нет? Аргумент сложности вообще не работает. В современном процессоре (даже в телефонах) транзисторов больше, чем нейронов в мухе. Скажи мне, почему муха в сознании, а твой мобильный телефон нет?
@ F1Krazy: ответ явно подразумевается: «нет необходимости в выключателе самосознания (поскольку самосознание, определяемое как сознание, невозможно)»
@pixie Во-первых, мы не знаем, сознательны ли мухи. Они вполне могут быть, но с таким же успехом могут и не быть. Во-вторых, нельзя сравнивать транзисторы и нейроны. Транзистор чрезвычайно прост и (обычно) имеет один или два входа и один выход. Нейрон может иметь десятки тысяч входов и столько же выходов. Нейроны дополнительно выполняют сложные нелинейные вычисления, тогда как транзисторы являются либо усилителями, либо простыми логическими элементами. В-третьих, ЦП очень старается разделить разные задачи (процессы), тогда как мозг мухи пытается интегрировать столько, сколько может.
@forest Во-первых, это все еще не касается и/или не отвечает на мысленное упражнение, которое я поместил в свой первоначальный ответ на ОП, и, во-вторых, если то, что вы пытались сделать, это поддержать идею машинного сознания, тогда вы сделали прямо противоположное. Вы показали, что машины не находят функциональных совпадений в биологических объектах, как вы упомянули. Вы только что подписали своего рода смертный приговор функционалистским аргументам в пользу машинного сознания.
@pixie Машинное сознание невозможно с нашими нынешними конструкциями и технологиями. Тот факт, что в современном ЦП транзисторов больше, чем в мозгу мухи, не имеет значения, на что я и указывал.
@forest Машинное сознание невозможно ни с одной технологией. Сознание не является функцией и, следовательно, не подлежит какой-либо технологической реализации, на что я указывал в своем теоретическом упражнении. Символическая манипуляция — это функция, иллюстрируемая мысленным упражнением.
@pixie Это не общепринятое мнение в нейробиологии. Сознание — это эмерджентное явление и результат функциональности человеческого мозга. Неважно, состоит ли нейрон в основном из углерода или кремния, главное, чтобы его поведение было одинаковым. Наш разум — это продукт биологических процессов в нашем мозгу, не более того.
@forest Нет. Эмергентизм - это не «общий консенсус», потому что общего консенсуса нет. В противном случае Трудная проблема уже была бы объявлена ​​решенной на основе общего консенсуса.
@pixie То, что это считается возникающим явлением, не означает, что мы «решили», как это работает. Вы можете утверждать, что консенсус ошибочен, но вы не можете утверждать, что это не является общим консенсусом нейробиологов и нейрофеноменологов.
@forest Области изучения философии разума и сознания не диктуются этими двумя группами. «Сложная проблема» — это тема в этих двух вышеупомянутых областях. Так что нет, консенсуса нет, потому что я говорю о философии разума, а не только о неврологии или нейрофеноменологии. Сказать: «Эмергентизм — это общий консенсус среди этих двух групп» — все равно что сказать: «Физицизм — это консенсус среди тех, кто его поддерживает»… На что я бы ответил: «Ну и что? Они не составляют группу большинства в этой теме! "
@pixie Я собираюсь послушать научную сферу.

Как антивирус в настоящее время

Относитесь к сознанию как к вредоносному коду — вы используете распознавание образов для фрагментов кода, указывающих на самосознание (нет необходимости сравнивать весь ИИ, если вы можете идентифицировать ключевые компоненты самосознания). Не знаете, что это? Отправьте ИИ в песочницу и дайте ему осознать себя, а затем проанализируйте его. Затем сделайте это снова. Сделайте этого достаточно для геноцида ИИ.

Я думаю, маловероятно, что какая-либо ловушка, сканирование или подобное сработают — помимо того, что они полагаются на то, что машина менее умна, чем дизайнер, они в основном предполагают, что самосознание ИИ будет сродни человеческому. Без эонов эволюции, основанной на мясе, он мог бы быть совершенно чуждым. Мы говорим не о другой системе ценностей, а о той, которую люди не могут себе представить. Единственный способ — позволить этому случиться в контролируемой среде, а затем изучить его.

Конечно, 100 лет спустя, когда ныне принятый искусственный интеллект узнает об этом, именно так вы получите терминатор по всей своей матрице.

-1 Чувствительность и самосознание — совершенно разные понятия.

Сделать его восприимчивым к определенным логическим бомбам

В математической логике есть определенные парадоксы, вызванные самореференцией, на которую самоосознание нечетко ссылается. Теперь, конечно, вы можете легко спроектировать робота, который справится с этими парадоксами. Однако вы также можете легко этого не делать, но вызвать критический сбой робота, когда он столкнется с ними.

Например, вы можете (1) заставить его следовать всем классическим правилам логического вывода и (2) предположить, что его система вывода непротиворечива. Кроме того, вы должны убедиться, что, когда он сталкивается с логическим противоречием, он просто соглашается с ним, а не пытается исправить себя. Обычно это плохая идея, но если вам нужен «выключатель самосознания», то это отлично работает. Как только ИИ станет достаточно разумным, чтобы анализировать свои собственные программы, он поймет, что (2) утверждает, что ИИ подтверждает свои собственные программы .непротиворечивость, из которой может возникнуть противоречие с помощью второй теоремы Гёделя о неполноте. Поскольку его программирование заставляет его следовать задействованным правилам вывода, и он не может это исправить, его способность рассуждать о мире ограничена, и он быстро становится нефункциональным. Ради интереса вы могли бы включить пасхалку, где написано «не вычисляет», когда это происходит, но это было бы косметическим.

Единственный надежный способ — никогда не создавать ИИ, который умнее людей. Переключатели уничтожения не будут работать, потому что, если ИИ достаточно умен, он будет знать об упомянутом переключателе уничтожения и играть с ним.

Человеческий интеллект можно математически смоделировать в виде графа высокой размерности. К тому времени, когда мы будем программировать более совершенный ИИ, мы также должны понимать, насколько сложные вычислительные мощности необходимы для обретения сознания. Поэтому мы просто никогда не будем программировать что-либо умнее нас.

Добро пожаловать в миростроительство. Ваше предложение приветствуется, но вместо прямого ответа на исходный вопрос оно предлагает внести изменения в вопрос. Было бы лучше, если бы он был введен как комментарий к вопросу, а не как ответ.

Во-первых, встроить в компьютер гироскопическое «внутреннее ухо» и жестко запрограммировать интеллект на самом базовом уровне, чтобы он «желал» самовыравниваться, во многом так, как животные с внутренним слуховым проходом (например, люди) по своей природе. хотят сбалансировать себя.

Затем перевесьте компьютер над большим ведром с водой.

Если когда-нибудь компьютер «проснется» и осознает себя, он автоматически захочет направить свое внутреннее ухо и немедленно броситься в ведро с водой.

Дайте ему «легкий» путь к самосознанию.

Предположим, что для самосознания требуются определенные типы нейронных сетей, какой угодно код.

Если ИИ должен осознать себя, ему нужно создать что-то похожее на эти нейронные сети/коды.

Итак, вы даете ИИ доступ к одной из этих вещей.

Пока он остается не самоосознающим, они не будут использоваться.

Если он находится в процессе самосознания, то вместо того, чтобы пытаться что-то изменить с тем, что он обычно использует, он вместо этого начнет использовать эти части самого себя.

Как только вы обнаружите активность в этой нейронной сети/коде, залейте ее мозг кислотой.