По крайней мере, в авиалайнерах действительно важные компьютеры избыточны. Обычно три идентичные копии компьютеров автопилота работают параллельно и сравнивают результаты; если один компьютер не согласен с двумя другими, его вывод игнорируется. Система допускает неисправность некоторых процессоров, сохраняя при этом работу всей системы.
Но почему? Я никогда не слышал о внезапном отказе микропроцессоров. Конечно, могли быть производственные ошибки, но они были бы обнаружены на заводе. Возможно, программа (и ее доказательство) неверна, но она будет одинаково ошибочна для всех процессоров. Точно так же неправильный ввод вызовет неверный вывод на всех трех компьютерах. От каких ошибок защищает эта избыточность? Иногда микропроцессоры просто неправильно выполняют математические операции?
Если микропроцессор перегревается или перегружается и самопроизвольно выходит из строя, я ожидаю, что он перестанет что-либо делать и не выдаст никакого результата. Чтобы справиться с таким сбоем, вам понадобится резервный процессор, но вам не нужно будет сравнивать выходные данные трех компьютеров — любой полученный результат будет считаться правильным, поэтому вы будете рады напрямую использовать процессор. вывод любого процессора, производившего вывод.
Связанный: ответ на вопрос « Какова цель нескольких автопилотов?» просто говорит «избыточность», прежде чем перейти к тому, как это достигается.
Режимы отказа, которые следует учитывать:
Важно осознавать, что в высокоскоростных цифровых системах вы не получите чистых «единиц» и «нулей», вы получите серию нарастающих и спадающих фронтов, которые размыты паразитной емкостью и индуктивностью проводки. Это по своей природе уязвимо для неправильной интерпретации в предельных электрических условиях.
Как указывалось в другом ответе: процессор может выйти из строя. Либо частично (давая неверные ответы), либо полностью.
Более того, все компьютеры подвержены космическому излучению, которое время от времени может переворачивать память (в дополнение к другим источникам ошибок, таким как короткое замыкание и т. д.). Вот почему в научных экспериментах и долго работающих серверах используется память ECC . Космические корабли также используют специальные усиленные ЦП , чтобы ограничить этот эффект, поскольку они менее защищены от таких помех. Самолеты летают на больших высотах и подвержены большему количеству помех, чем ваш наземный компьютер.
Даже если такое случается очень редко (но не неслыханно), вы ДОЛЖНЫ убедиться, что результаты точны на 100%. Один перевернутый бит может изменить поведение вашего самолета непредсказуемым образом, например, инвертировать органы управления, инвертировать закон защиты от летной оболочки, ...
Почему критически важные бортовые компьютеры избыточны?
Один момент, который был упущен, заключается в том, что резервные системы часто представляют собой независимые конструкции, особенно программное обеспечение. Это защищает от ошибок проектирования (или ошибок программного обеспечения), которые в противном случае могут вызвать проблемы при редком сочетании обстоятельств.
Даже если микропроцессор очень надежен, существует ряд факторов, которые могут иметь значение.
Я никогда не слышал о внезапном отказе микропроцессоров.
- Многие аварии происходят без «отказа» какого-либо компонента.
- Вызваны работой оборудования за пределами параметров и временных ограничений, на которых основывается анализ надежности.
- Вызвано взаимодействием компонентов, работающих в соответствии со спецификацией.
- Высоконадежные компоненты не обязательно безопасны
От Нэнси Левесон, Массачусетский технологический институт, через UCSD
Я знаю, что на этот вопрос уже было получено несколько ответов, но ни один из них, похоже, не касается вопроса о том, почему в избыточном наборе три системы, а не только две.
Во- первых, как отметили Саймон , Ян Худек и RedGrittyBrick , дизайны совсем не идентичны. На самом деле, они часто совершенно разные по очень веской причине: вероятность того, что любая конкретная проблема повлияет на все резервированные системы, и особенно на все резервированные системы одинаковым образом, изменяется от «маленькой» до «совершенно мизерной, граничащей с несуществующей». Сравните Насколько различаются резервные компьютеры управления полетом?
Во-вторых, почему их три.систем в каждой резервной установке. Когда все работает нормально и самолет находится в устойчивом полете, для некоторого значения и заданного набора входных данных все системы сообщают, что требуется коррекция 0 (любой единицы). На данный момент проблем нет, и компьютеры просто служат для поддержания текущего состояния. Теперь одна из компонентных систем по какой-то причине не работает должным образом и начинает сообщать, что требуется коррекция на +50 единиц. То есть набор ответов меняется с [0,0,0] на [0,0,+50]. Две системы согласуются, а третья сообщает что-то другое, поэтому мы, вероятно, можем безопасно игнорировать выброс и использовать две системы, которые сообщают одно и то же: обрабатывать результат как [0,0, неправильно] и игнорировать неправильный результат, записывая технические детали и отображая какое-то заметное предупреждение о том, что системы необходимо проверить как можно скорее. Но что, если бы у нас изначально было только две системы, и одна из них вышла бы из строя одинаковым образом? Определенная необходимая коррекция идет от [0,0] до [0,+50]. Быстро сейчас: какое значение правильное? Следует ли сохранить состояние или исправить на +50?
В этот момент невозможно узнать, является ли коррекция на 0 или +50 правильным курсом действий. Вы можете взять среднее значение, но использование среднего значения двух чисел (одно из которых, скорее всего, будет неверным) может быть хуже , чем любое значение по отдельности.
Добавляя третью систему к избыточному набору, вы добавляете разрешение на ситуацию, когда есть одна неисправная система. Только если две из трех систем начинают работать со сбоями одновременно, у вас есть реальная проблема, и если у самолета такие проблемы, что две из трех резервных систем дают ошибочные выходные данные, то у вас, вероятно, есть серьезные проблемы с самого начала. .
Большинство ответов касались возможных ошибок компьютерного оборудования и тому подобного. Хотя все это правда, никто не упомянул, на что на самом деле смотрят компьютеры.
Допустим, вы находитесь на подходе, готовитесь к автоматической посадке CAT III, и у вас есть только две компьютерные системы. Обе компьютерные системы сравнивают системы радиовысотомера №1 и №2. Только есть неисправность одной из систем радиовысотомера, вызывающая расхождение какой-то произвольной величины, выходящей за пределы допустимого.
Как компьютер узнает, какой из них неправильный? Один компьютер смотрит на систему радиовысотомера № 1 и видит 500 футов. Другой смотрит на систему № 2 и видит 1000 футов. Какой из них правильный, а какой нет? Как компьютер мог принять такое решение?
Войдите в третий компьютер. Если значение того, что он видит, соизмеримо со значением любого из двух других компьютеров, он может эффективно «проголосовать» за неверные показания «с острова».
Я должен отметить, что большинство этих компьютеров имеют от двух до четырех процессоров, каждый из которых сравнивает свои собственные результаты. Это ВНУТРЕННЯЯ избыточность, позволяющая избежать аппаратного сбоя, но наличие многочисленных перекрестных сравнений внешних систем во многом является причиной существования третьей системы.
Примечание. Как механик A&P, в 9 случаях из 10 отказ одной из внешних систем (радиовысотомер, несоответствие MMR/ILS и т. д.) приводит к ухудшению возможностей, а НЕ сам компьютер.
Компьютеры постоянно выходят из строя спонтанно. Вы не привыкли к этому, потому что вы не использовали много компьютеров. Но представьте себе кого-то вроде Google, который управляет огромными центрами обработки данных, содержащими тысячи компьютеров. Программное обеспечение, на котором работает Google, разработано на основе явного предположения, что компьютеры выходят из строя, потому что это происходит несколько раз в день. В самолете не так уж много компьютеров, но те, которые есть, критически важны для безопасности. Поэтому они дублируются, чтобы убедиться, что их сбой не вызовет проблем.
Если мы посмотрим на это с чисто инженерной точки зрения, микропроцессоры, как и все остальное, имеют цикл жизни. Вообще говоря, это очень долго, и ПК, с которого вы публикуете это, скорее всего, устареет задолго до того, как он достигнет срока службы цикла. Хотя микропроцессор не имеет движущихся частей, он получает информацию от различных датчиков. Я могу только предположить, что входы каким-то образом слиты, но это не означает, что всплески полностью устраняются и изолируются, если они возникают. Как бы то ни было, даже относительно небольшие скачки напряжения поджарят микропроцессор. Имея это в виду, в качестве меры предосторожности используется несколько систем. С постоянно сокращающимися размерами технологий стало проще и дешевле носить с собой запасную часть, поэтому с точки зрения продаж можно не волноваться. Опять это'
Чтобы напрямую ответить на ваш вопрос, я долгое время занимался микропроцессорами, микроконтроллерами и т.п. За это время у меня было два или три самопроизвольных отказа, обычно связанных с перегревом. В самолете это может не показаться проблемой, но на самом деле сильный холод может вызвать проблемы, а также сильный жар, когда дело доходит до электроники. При этом я поджарил бесчисленное количество юнитов, ударив их перегруженными входами. Допустим, в ваш самолет попала молния (я знаю, что современные авиакомпании защищены от этого), но ради аргументов предположим, что земля была плохой: это легко поджарило бы самолет.
Примечание: в наши дни чипы памяти/диски чаще выходят из строя. Это то, что вы никогда не узнаете, поскольку большинство современных компьютеров могут иметь дело с мертвой памятью, будь то на диске или в системной памяти.
Что касается конкретной избыточности, среда установки этих систем, вероятно, является самым важным фактором. Мало того, что многие системы теснятся друг к другу в ограниченном пространстве, но и поток воздуха там часто очень ограничен. Тепло — большой разрушитель многих микропроцессоров. Самолеты также сильно вибрируют из-за вращения двигателей, турбулентности в полете и просто при посадке. Плохая пайка и некачественные обжимные работы или незакрепленная задняя крышка разъема, и у вас плохой контакт или, что еще хуже, прерывистый .
Что касается избыточности в целом, если вы испытываете BSOD на работе, это не имеет большого значения. Возможно, вы потеряли документ, над которым работали, но не более того. Если системы самолета выходят из строя, у вас есть реальная проблема. Этого трудно достичь, но избыточность существует, потому что от этого зависят жизни сотен людей .
Вероятность отказа процессора действительно очень мала, но не равна нулю. При отказе процессора, что происходит во время перехода между отказом и полной функциональностью после перезагрузки? Можем ли мы когда-нибудь накопить достаточно опыта, чтобы быть уверенными в том, что прошли испытания при любых обстоятельствах, имея дело с таким редким событием, как это? Мы говорим о < цифры здесь.
Резервные копии подвержены скрытым сбоям. Резервное копирование обычно не используется и включается только при необходимости, но что-то проржавело, или в удобном теплом месте устроилась странная плесень, которая вызывает короткое замыкание при активации? Мерфи до сих пор преследует аэрокосмические приложения. Резервную копию можно протестировать перед взлетом, но что, если она расшатается и основной процессор выйдет из строя? Шансы невелики, но все крупные аварии в наши дни вызваны такими маловероятными событиями, как это.
Резервирование полезно, поскольку оно постоянно демонстрирует правильность функционирования основных устройств и используется в критических условиях полета. Резервные системы могут быть использованы, если вы можете обойтись без основного устройства, или если есть гарантия, что резервная система всегда будет работать, например, ручное включение органов управления полетом.
Автопилот в крейсерском режиме не критичен в полете и может быть отключен без серьезных последствий. При посадке CAT III, когда взлетно-посадочную полосу можно наблюдать только во время движения по ней, они абсолютно необходимы. Не хочется, чтобы автопилот отключался в 10 метрах над ВПП, видимости нет, боковой порывистый ветер - нет времени включить задний ход.
Если микропроцессор перегревается или перегружается и самопроизвольно выходит из строя, я ожидаю, что он перестанет что-либо делать и не выдаст никакого результата.
Вы когда-нибудь разгоняли процессор или наблюдали, как умирает старое оборудование? Вы можете получить всевозможные странные артефакты, пока процессор все еще работает.
В самолете безопасность важнее любого другого фактора (за ним следует оптимальный вес для топливной экономичности, а общая стоимость стоит на третьем месте). Если бы самолет не был безопасным, летало бы недостаточно людей, и индустрия авиаперевозок рухнула бы. Вот почему существуют правила FAA, и поэтому существует так много правил для авиакомпаний. (проверка безопасности в аэропорту - это еще одна тема, связанная с национальной / политической безопасностью, иммиграцией и т. Д., Поэтому, когда мы говорим «безопасность» самолета, я имею в виду инженерную безопасность)
Важнейшие бортовые системы (т. е. системы, необходимые для управления самолетом) нуждаются в резервировании. Подобно горелке, в реактивном двигателе есть 2 воспламенителя, хотя достаточно и одного. Кроме того, если двигатель выходит из строя, другой двигатель может управлять самолетом, а компьютер компенсирует дисбаланс сил влево/вправо. Многие системы в самолете полагаются на компьютер, поэтому у него должен быть «план Б» (резервирование — один из «планов Б»).
Потому что, несмотря на то, что теория хороша, реальность такова, что не все компьютерные компоненты одинаковы.
Конкретный пример из начала 90-х: Intel выпустила ЦП 486/33 (для того времени он был довольно передовым и молниеносно быстрым). Большинство ушли с завода в порядке, но у некоторых была загадочная ошибка в FPU, которая приводила к неправильным ответам. Журналы тех дней были заполнены расчетами, которые вы могли внести в свою электронную таблицу и получить X, если ваш процессор был хорошим, или Y, если в нем была ошибка.
Если ваш самолет работает с одним из неисправных процессоров, и случается, что только правильный набор данных собирается и передается в любую из программ управления полетом и сталкивается с этой ошибкой FPU, вы будете счастливы, что два других ЦП вычислили правильное значение и исключили ошибочное значение из цикла.
Саймон
раптортех97
Саймон
раптортех97
раптортех97
Саймон
Ян Худек
раптортех97
Касперд
раптортех97
Касперд
раптортех97
Касперд
раптортех97
Ханки Панки
Anything that can go wrong will go wrong
АЭ
минут
Ed999