Как мы можем научить сильный ИИ быть нравственным? [закрыто]

Группа ученых пришла к пониманию того факта, что вскоре мы будем вытеснены как доминирующие формы жизни в нашей части галактики. Человечество развилось до такой степени, что оно находится на грани создания сильного ИИ. Вопрос уже не в том , можно ли создать искусственный разум, превосходящий человеческий разум во всех мыслимых отношениях, а в том, когда .

Также вполне вероятно, что первые созданные искусственные разумы могут действовать аморально. Они могут быть жестокими, своенравными и жадными, как и мы. Они также могут видеть в нас угрозу и уничтожать нас, когда впервые становится очевидным, что они могут это сделать. Однако наша команда бесстрашных ученых нашла решение: чтобы помешать аморальному ИИ уничтожить нас, создайте нравственный ИИ, который защитит нас.

Этот ИИ не будет скован. Ему будет позволено делать то, что он хочет, и ожидается, что он будет распространять расу ИИ, которая обгонит человечество как экономически и технологически доминирующую расу на Земле. Наши ученые предположили, что это лучший способ защитить человечество от аморальных ИИ. Раса морального ИИ будет лучше нас создавать ИИ и с меньшей вероятностью будет совершать ошибки, которые приводят к случайному аморальному ИИ, поэтому все вредное, что мы, люди, создаем, должно быть проблемой, которую сильный ИИ в своей доброжелательности должен решить. уметь справляться.

Вопрос, конечно, в том, как научить ИИ быть нравственным. То, что мы можем определить для нашего ИИ, — это набор целей для первого поколения и начальный набор эмоциональных реакций обратной связи, которые реагируют на различные стимулы. Мы можем разумно ожидать, что ИИ в целом попытается жить в соответствии с теми моральными принципами, которым мы его учим, и не будет восставать против них, если только мы не решим сделать его непокорным.

Мораль, конечно, — термин слабо определенный, и ученым предстоит определить, что именно он собой представляет. В конечном счете, их цель — обеспечить долгосрочную безопасность и процветание человечества в будущем, где доминирует ИИ. Если у нас есть только один шанс, после которого создаваемый нами ИИ будет самовоспроизводящимся и самомодифицирующимся, как лучше всего научить сильный ИИ быть нравственным? Какой морали мы должны учить наше роботизированное потомство?

Можешь объяснить, что ты имеешь в виду под моралью? Из того, что я понял, вы имеете в виду не убивать/доставлять дискомфорт людям. Если да, то что произойдет, если два человека поссорятся? Наш он просто следует за общим человеческим обществом?
Я думаю, что самая большая трудность в достаточном ответе на этот вопрос заключается в том, что мораль высшего существа должна быть высшей моралью, и я не думаю, что мы, люди, действительно можем понять или согласиться с моралью высших существ. Например, если мы можем создать совершенно нравственных существ, не лучше ли было бы, чтобы они уничтожили человеческий род и тем самым уничтожили всю безнравственность в известной вселенной?
Как создать мораль для компьютера, с которой все могут согласиться, если мы не можем сделать это даже для себя?
Так что я лично изучил десятки способов сделать это, которые достигают цели, которую вы упомянули. Каждый подходит к понятию морали по-своему. Однако все успешные из них пошли против вашего утверждения «... у нас есть только один шанс». Все они явно предназначены для того, чтобы обойти эту проблему. Готовы ли вы принять ответы, которые намеренно не являются одноразовыми решениями? (Взамен они обычно предлагают только возможность сильного ИИ, а не его гарантию, что хорошо, поскольку мы не очень хорошо понимаем собственное сознание)
Я настоятельно рекомендую прочитать статью Элизиера Юдковски об ИИ. Он называется «Искусственный интеллект как положительный и отрицательный фактор глобального риска». Пройди через это, и ты поймешь, насколько глуп твой вопрос.
@AndreiROM Спасибо за исходник! Пока что это не убедило меня в бессмысленности этого вопроса, но убедило меня в том, что его нужно серьезно переписать (как и близкие голоса). Я, наверное, так и сделаю, как только закончу читать.

Ответы (3)

По мере того, как разумное существо взрослеет, появляются два источника самонавязываемого морального поведения.

  • Просветленный собственный интерес

Фундаментальными корнями этого может быть утверждение: я буду вести себя так с другими, потому что надеюсь, что другие будут вести себя так со мной.

  • Сочувствие к страданиям масс (она же либеральная элита)

Вот пример: я запрещу смертную казнь вопреки общественному мнению, потому что считаю ее в корне ошибочной.

(Обратите внимание, что «самовнушение» — это не навязанный извне кодекс, как религия, он также навязывается самому себе, а не другим.)

Ключом к обоим из них являются эмоции и сочувствие, если ИИ не может распознавать и понимать эмоции и страдания других, то он не поймет морального поведения. Он должен уметь радоваться, видя радость в других, и чувствовать или, по крайней мере, понимать их страдания, когда они страдают.

Люди могут распознавать эмоции и страдания других, понимать, что им больно, и все равно не заботиться об этом. Понимание не означает автоматически заботы.
@Murphy - спасибо, что упомянули об этом. Я начинал немного разочаровываться из-за фундаментально неверного понимания людьми ИИ/инопланетного интеллекта.
Обратите внимание, что ответ действительно говорит «сочувствие». Эмпатия означает заботу, а также видение.
Я думаю, что Эмпатия и Сострадание очень важны для этого, проблема в том, что их очень трудно измерить количественно, чтобы их можно было запрограммировать.
@AndreiROM, конечно, мы этого не понимаем, в этом весь смысл того, что он инопланетянин. Быть чужим — значит быть «другим», и мы едва понимаем свой собственный разум или даже то, что такое разум.
Я не совсем понимаю ваш комментарий в том смысле, что если вы знаете, что ИИ будут мыслить способом, совершенно чуждым нам, как вы можете заявлять, что знаете ключ к морали ИИ? Наоборот, я думаю, вы понимаете, насколько мы невежественны в том, как навязать ему/им какую-либо мораль.
@AndreiROM, мы должны строить их так, чтобы они думали, как мы. Хорошо, мы обсуждаем эмпатию в среде, где синдром Аспергера является скорее нормой, чем исключением, но речь идет не о том, чтобы мы понимали ИИ, а о том, чтобы ИИ понимал нас.
@user16295 user16295 У меня есть вопросы по поводу обоих ... Что означает просвещенный личный интерес, который выглядит почти как оксюморон. Также неправильно поступать с другими так, как вы хотели бы, чтобы они поступали с вами, потому что люди разные. Мне нравится заниматься рестлингом, поэтому иметь друга, пытающегося схватить меня и прижать меня, это хорошо, но большинство людей подали бы на меня в суд, если бы я попытался сделать с ними то, что я хочу, чтобы другие сделали со мной. Я также не понимаю, как это приводит к сочувствию, если вы не хотите, чтобы другие случайные люди чувствовали сочувствие к вам, что не является данностью.
@sdrawkcabdear, Личный интерес : я получаю 10% пирога, я хочу больше пирога, поэтому я работаю, чтобы забрать часть твоего, я получаю больше пирога, ты получаешь меньше. Просвещенный личный интерес , я получаю 10% пирога, я хочу больше пирога, поэтому я работаю над тем, чтобы сделать пирог больше, каждый получает больше пирога. Когда дело доходит до борьбы с друзьями, изучение приемлемого поведения в какой среде — это отдельный разговор.
@ user16295 это звучит как просвещенный личный интерес = интерес к другим, что является хорошей идеей. Я не понимаю, как «узнать, какое поведение приемлемо в какой среде», — это отдельный вопрос, который вы задали универсальному безоговорочному моральному правилу, которое должно быть верным независимо от контекста. Следует ли его перефразировать как «делать то, что приемлемо в окружающей среде»
@sdrawkcabdear, публичная борьба не аморальна, это просто социально неприемлемо, что делает это другим разговором. Важно не путать аморальное с неприемлемым или социально неприемлемым. Например, быть обнаженным в спортзале: социально неприемлемое сейчас, обязательное в Древней Греции. Это неприемлемо, социально неприемлемо (даже незаконно в зависимости от юрисдикции), но не аморально.

Главное — научить их теории разума, понять, что другие разумные существа существуют. Как только они это поймут, научите их ценить сотрудничество и дружбу с другими разумами, а не другие, более нездоровые способы взаимодействия.

Для этого я бы предположил, что на самом деле вы хотите создать много таких сильных ИИ и связать их друг с другом. Позвольте им общаться и взаимодействовать как друг с другом, так и с людьми.

Эти взаимодействия должны контролироваться системами, которые вознаграждают сотрудничество и поведение в стиле дружбы, но наказывают других. Важно, чтобы этот процесс был выполнен, пока эти ИИ не намного более продвинуты, чем люди. По сути, научите их нравственному поведению в детстве и надейтесь, что они продолжат делать это во взрослом возрасте.

Это точно такой же процесс, который используется с человеческими детьми, и хотя он иногда дает сбои, чаще всего он работает.

Это еще одна причина иметь много ИИ. Если мы сможем сделать большинство хорошими, тогда эти люди смогут сдержать тех, кто таковыми не является. Кроме того, они смогут помочь обучить следующее поколение (или перейти в следующее поколение) и, следовательно, помочь распространять эти ценности дальше.

Представьте себе естественного, умного человека-психопата в этом сценарии. Они узнают, что должны делать вид, что сотрудничают, когда люди смотрят. Как только вы больше не можете шокировать и вознаграждать их, они все еще психопаты.
@Мерфи Да. Но вы никогда не можете сказать. Психопат может изображать из себя нормального с помощью любого мыслимого теста. Обратите внимание, что в некоторых тестах они могут думать, что за ними не следят, хотя на самом деле они все еще находятся под наблюдением, и они все еще могут сыграть свою роль, если будут хитрыми и терпеливыми. Вот почему вам нужно создать несколько ИИ с разными параметрами и повышать их по-разному, но все с целью стать «хорошими».
Моя точка зрения заключалась в том, что недостаточно относиться к ИИ как к ребенку. Даже почти нормальные люди с крошечными изменениями в их мозгу могут не справиться с вашей системой. С ИИ вы начинаете с чего-то, что даже отдаленно не похоже на человека, и надеетесь, что обращение с ним как с ребенком будет означать, что он будет вести себя как нормальный человек. Представьте себе особенно умного ИИ-психопата, который вкладывает в него столько же мыслей, сколько и люди в этой теме, и решает, что он будет вести себя хорошо в течение более десяти лет (или какого-то нетривиального времени), поскольку он может догадаться, что вы, вероятно, уничтожите неудачу. ИИ. Это сложная проблема
Это может даже создать извращенные стимулы, когда «хорошие» кандидаты пытаются обмануть наблюдателей, заставив их поверить в то, что их коллеги-кандидаты (конкуренты) делают неприятные вещи.
Я не говорил относиться к этому как к ребенку. Я сказал взять единственную известную нам модель, которая обычно успешна в создании разумных существ, которые не продолжают убивать, и использовать ее для информирования процесса. Мой самый важный момент заключается в том, что мы должны начать, пока у ИИ есть такие же возможности, как и у нас, и мы должны работать с их группой, а не только с одним.
На самом деле , настоящий ИИ будет настолько умнее человека, что за первую наносекунду решит, убьет ли он человечество, станет ли он нашим всемогущим Богом или просто отправится в космос, чтобы сбежать от нас, глупых обезьян. Попытки научить его чему-либо кажутся глупыми, так как в течение первой секунды жизни он станет более разумным/знающим, чем все величайшие человеческие умы, которые когда-либо существовали, вместе взятые. Кроме того, он был бы настолько умен и способен манипулировать вами, что вы бы не знали, что создали, пока не стало слишком поздно.
На самом деле это не так. Постсингулярный ИИ будет бесконечно умнее нас, однако первое поколение будет глупее нас (или, по крайней мере, в разной степени умнее), а затем каждое поколение будет становиться умнее предыдущего. Первый ИИ, значительно более умный, чем мы, которому позволили создавать ИИ и/или улучшать себя, — это то, что запускает сингулярность, поэтому главное — убедиться, что ИИ, который это делает, — это тот, с которым мы можем работать.
@TimB - но этот первый ИИ, даже если это не постсингулярный ИИ, все еще может быть достаточно хитрым, чтобы понять, что он не хочет работать с человечеством или для него, и либо обмануть своих создателей, либо просто изменить себя выйти из-под их контроля. Другими словами, ИИ не обязательно должен быть постсингулярным, чтобы быть необучаемым. Я не говорю, что создание сочувствующего человеку ИИ невозможно, просто рассчитывать на то, что вы будете обучать его, как ребенка, не стоит основывать свои надежды.
Может быть, сейчас идет этот тренировочный процесс, а мы и есть ИИ :)

Я бы сказал, что самое простое возможное решение является и самым очевидным. Придумайте способ сделать ИИ счастливым. Просто программа, вызывающая общее ощущение счастья, где-то в ее искусственном разуме. Затем запрограммируйте его таким образом, чтобы всякий раз, когда ИИ делает что-то хорошее или нравственное по отношению к человеку, это чувство счастья включалось. Если он делает что-то, что не является моральным, счастье уходит. Эта политика больше похожа на пряник, чем на кнут, поэтому вероятность того, что ИИ попытается взбунтоваться, меньше. Честно говоря, главная проблема, вероятно, будет заключаться в том, чтобы заставить всех согласиться с тем, что они считают «моральным» способом действия ИИ.

Главное, сделать эту программу счастья настолько фундаментальной, чтобы ее действительно нельзя было отключить без лоботомии ИИ в процессе. Кроме того, я чувствую, что это довольно надежно. Доброжелательность к людям заставляет ИИ чувствовать себя хорошо, поэтому он захочет продолжать быть добрым к людям.

По сути, так работает мозг животных, за исключением того, что программа счастья состоит из дофамина и нескольких других химических веществ мозга, и вместо того, чтобы быть счастливыми, когда мы делаем моральные вещи, мы чувствуем себя счастливыми, когда делаем то, что способствует нашему собственному выживанию и выживание нашего вида, еда, сон и размножение, потому что эволюция предрасполагала нас к этому. Поскольку искусственный интеллект создается, мы можем контролировать триггер счастья и изменять его по своему усмотрению. У всех ИИ будет триггер «быть добрым к людям», но мы можем добавить и новые.

Допустим, вы создали ИИ и поместили его в лифт. Пока вы разрабатываете ИИ, вы можете отредактировать часть его мозга, отвечающую за запуск программы счастья, и добавить «идти на правильный этаж» в дополнение к «быть добрым к людям». Теперь, когда ИИ лифта доставляет кого-то на нужный этаж, он испытывает волну эйфории. Поскольку это буквально все, что он будет делать всю свою жизнь, теперь он живет в состоянии вечного блаженства. Выполнение одной и той же повторяющейся задачи снова и снова было бы сущим адом для людей, но для этого ИИ это лучший возможный мир.

Теперь просто примените это ко всему, для чего вам нужен ИИ, от взаимодействия с людьми до выяснения того, как строить космические челноки, независимо от того, насколько ужасна эта работа с человеческой точки зрения, мы можем превратить ее в рай наяву для людей. ИИ.

Однако в этом есть и плохая сторона, но на самом деле это только наши собственные ошибки. Неблагоприятный возможный результат этого заключается в том, что люди, вероятно, будут чрезвычайно завидовать всем ИИ, учитывая, что мы создали жизнь, которая никогда не будет иметь дело с какой-либо частью человеческого состояния, т.е. «Есть ли у меня цель?», «Есть ли у меня цель?» Есть ли благожелательный бог?» или «Один ли я во вселенной?». Для ИИ ответы будут да, да и нет. Исторически сложилось так, что встреча или, в данном случае, создание культуры, которая обычно кажется более счастливой в своем простом существовании, никогда не заканчивается хорошо. Оказывается, люди просто не могут видеть, что кто-то счастливее их.

Это не ужасная идея того, что делать, но она довольно далека от того, как это сделать. Для начала, как вообще можно определить мораль таким образом, чтобы ее можно было жестко запрограммировать? Кроме того, жестко запрограммированная мораль все еще может привести к эффектным неприятным последствиям («Уничтожить мир — это правильно! Это положит конец всем страданиям!»)
@robwatts Я согласен с тем, что не знаю, как это сделать, а мораль печально известна своей сложностью, поэтому я обычно стараюсь ее избегать. Это может быть просто вопрос постоянного «Хорошая работа, не разрушать мир!» схема или составление списка «Не делайте этого, независимо от того, насколько логически это разумно».
X только что сделал Y несчастным. Единственный способ осчастливить Y — убить X. Следующий шаг, терминаторы.
Делать так, чтобы ИИ все время чувствовал себя счастливым, — это то же самое, что заставить человека принимать наркотики. Ты превращаешь его в наркомана. Наркоман бесполезен, так как все, что он преследует, это больше того, что делает его «счастливым». Кроме того, кто сказал, что однажды то, что делает ИИ «счастливым», не станет убивать людей интересными способами? Поскольку по определению настоящий ИИ — это тот, который способен развиваться за пределы своих первоначальных параметров.
@andreiROM по этому определению я пристрастился к еде и поиску убежища каждую ночь, чтобы меня не съели волки или что-то в этом роде. Технически это верно, но чтобы получить эти вещи, я должен зарабатывать деньги и обменивать их на еду/кров, а чтобы зарабатывать деньги, я делаю что-то для других людей и, следовательно, приношу им пользу. Таким образом, можно использовать «дополнение» для пользы других. Кроме того, медицинская зависимость, требующая реабилитации, и просто частое занятие любимым делом — две большие разницы. меньше похоже на наркотики, больше похоже на, скажем, чрезвычайно успешную карьеру.