Почему именно чипы начинают работать со сбоями после перегрева?

Как только чип перегревается, он может начать работать со сбоями — например, многие программы могут начать давать сбой, когда некоторые или все части компьютера перегреваются.

Что именно происходит из-за того, что микросхемы выходят из строя при перегреве?

Ответы (6)

Чтобы расширить другие ответы.

  1. Более высокие токи утечки: это может привести к большему количеству проблем с нагревом и может легко привести к тепловому разгону.
  2. Соотношение сигнал-шум будет уменьшаться по мере увеличения теплового шума : это может привести к более высокой частоте ошибок по битам, это приведет к неправильному чтению программы и неправильной интерпретации команд. Это может привести к «случайной» работе.
  3. Примеси становятся более подвижными при нагревании. Когда у вас есть полностью перегретый чип, транзистор может перестать быть транзистором. Это необратимо.
  4. Неравномерный нагрев может привести к разрушению кристаллической структуры Si. Нормальный человек может испытать, подвергнув стекло температурному шоку. Он разобьется, немного экстремально, но это иллюстрирует суть. Это необратимо.
  5. Память ПЗУ, которая зависит от заряженной изолированной пластины, может потерять память при повышении температуры. Тепловая энергия, если она достаточно высока, может позволить электронике покинуть заряженный проводник. Это может привести к повреждению памяти программ. Это регулярно случается со мной при пайке уже запрограммированных микросхем, когда кто-то перегревает микросхему.
  6. Потеря управления транзистором: при достаточной тепловой энергии ваши электроны могут перепрыгнуть запрещенную зону. Полупроводник — это материал с небольшой шириной запрещенной зоны, поэтому он легко перекрывается примесями, но достаточно большой, чтобы требуемая рабочая температура не превращала его в проводник, где ширина запрещенной зоны меньше, чем тепловая энергия материала. Это упрощение, и оно является основой для другого поста, но я хотел добавить его и изложить своими словами.

Есть и другие причины, но они составляют несколько важных.

Кажется вероятным, что сбои синхронизации будут одной из «большей причины» (сопротивление провода имеет тенденцию увеличиваться с температурой, поэтому пути синхронизации, ограниченные сопротивлением и емкостью, могут нарушить их гарантированное время наихудшего случая). Конечно, DRAM также быстрее теряет заряд (как и флэш-память) при более высоких температурах; без компенсации в частоте обновления данные могут быть потеряны.

Основной проблемой работы ИС при высоких температурах является сильно возросший ток утечки отдельных транзисторов. Ток утечки может увеличиться до такой степени, что это повлияет на уровни напряжения переключения устройств, так что сигналы не смогут должным образом распространяться внутри микросхемы, и она перестанет функционировать. Обычно они восстанавливаются, когда им дают остыть, но это не всегда так.

В производственных процессах для работы при высоких температурах (до 300°C) используется КМОП-технология кремний-на-изоляторе из-за низкой утечки в очень широком диапазоне температур.

Всего одно дополнение к некоторым превосходным ответам: технически более подвижными становятся не легирующие примеси, а увеличение внутренней концентрации носителей. Во всяком случае, примеси / носители становятся менее подвижными, поскольку кристаллическая решетка кремния начинает «вибрировать» из-за увеличения тепловой энергии, что затрудняет прохождение электронов и дырок через устройство — оптическое рассеяние фононов. быть неправым.

Когда концентрация собственных носителей превышает уровень легирования, вы теряете электрический контроль над устройством. Внутренние носители — это те, которые существуют до того, как мы легируем кремний, идея полупроводников заключается в том, что мы добавляем свои собственные носители для создания p-n переходов и других интересных вещей, которые делают транзисторы. Максимальная температура кремния составляет около 150°C, поэтому теплоотвод высокочастотных и высокоскоростных процессоров очень важен, поскольку на практике достичь 150°C не так уж сложно. Существует прямая связь между собственной концентрацией носителей и током утечки устройства.

Как показали другие парни, это всего лишь одна из причин, по которой чипы выходят из строя - это может даже привести к чему-то столь простому, как проволочное соединение, которое становится слишком горячим и выскакивает из своей площадки, есть огромный список вещей.

Когда я говорю, что примеси становятся более подвижными, я имею в виду физические атомы, а не носители. PN-переход может дрейфовать и перестать быть диодом со временем и теплом. Во-вторых, когда вы получаете достаточно высокую температуру, ваша тепловая энергия, которая создает как высокоэнергетические фононы, взаимодействующие с электронами, так и гораздо более высокие ИК-уровни внутри структуры, может дать электронам достаточно высокую энергию, чтобы перепрыгнуть запрещенную зону между проводящим и валентным слоями. . Si достигает максимума, потому что его ширина запрещенной зоны такова, что 150°C дает электронам возможность прыгать.
Да, я думаю, мы говорим об одном и том же, только с разных точек зрения.
То, как вы это объясняете, звучит точно так же, как если бы я изучил физику устройств, после изучения некоторых прикладных квантовых и твердотельных устройств я говорю это немного по-другому, но мы оба знаем, насколько упрощены эти объяснения. Я добавил немного об этом аффекте в свой ответ, так как считаю это очень важным, я дал вам ваш первый +1, который вы заслужили. Это важный эффект, так как он очень быстро приводит к тепловому разгону.

Хотя токи утечки увеличиваются, я ожидаю, что более серьезной проблемой для многих устройств на основе МОП-транзистора будет то, что величина тока, проходящего через МОП-транзистор во включенном состоянии, будет уменьшаться по мере того, как устройство нагревается. Чтобы устройство работало правильно, транзистор, который переключает узел, должен иметь возможность заряжать или разряжать любую скрытую емкость в этой части схемы, прежде чем что-либо еще будет зависеть от переключения этого узла. Уменьшение пропускной способности транзисторов уменьшит скорость, с которой они могут заряжать или разряжать узлы. Если транзистор не может зарядить или разрядить узел в достаточной степени до того, как другая часть схемы будет полагаться на то, что этот узел был переключен, схема выйдет из строя.

Обратите внимание, что для устройств NMOS при выборе размеров пассивных подтягивающих транзисторов пришлось пойти на компромисс; чем больше пассивное подтягивание, тем быстрее узел может переключаться с низкого уровня на высокий, но тем больше энергии будет потрачено впустую, когда узел будет низким. Таким образом, многие такие устройства эксплуатировались на грани правильной работы, а неисправности, связанные с перегревом, были (а для старинной электроники остаются) довольно частыми. Для обычной КМОП-электроники такие проблемы обычно менее серьезны; На практике я понятия не имею, в какой степени они играют роль в таких вещах, как процессоры с несколькими ГГц.

Это очень важный эффект, я собирался попросить Кортука добавить его к своему ответу. Одним из факторов, определяющих максимальное значение Tj для процессора, является то, что выше этого значения Tj процессор может не работать на номинальной скорости. Вот почему лучшее охлаждение помогает при разгоне.
Первый абзац — почему ваш компьютер перестает работать, когда он нагревается — он слишком сильно тормозит, чтобы успевать за тактовой частотой.
На самом деле, есть еще один фактор, который, возможно, сыграл роль в устройствах NMOS, хотя я бы не ожидал этого в большинстве типичных конструкций: многие устройства NMOS имели минимальную тактовую частоту, обусловленную требованием использовать или обновлять данные в узлах динамического хранения. до того, как он был слит из-за утечки. Если токи утечки увеличиваются с температурой, минимальная тактовая частота также будет увеличиваться. Я подозреваю, что большинство устройств работали на достаточно высокой тактовой частоте, поэтому увеличение минимальной скорости не было бы проблемой, но я не уверен.
@Andy, @W5VO, вчера вечером я писал свой ответ и забыл об этом на полпути. Ночная смена вредит вашему мозгу.

Чтобы дополнить существующие ответы, современные схемы чувствительны к следующим двум эффектам старения (не только этим, но и основным для процессов < 150 нм):

Поскольку температура увеличивает подвижность носителей, она усиливает эффекты HCI и NBTI, но температура не является основной причиной NBTI и HCI:

  • HCI вызывается высокой частотой
  • НБТИ высоким напряжением

Эти два эффекта старения кремния вызывают как обратимые, так и необратимые повреждения транзисторов (воздействуя на изоляционные подложки), что увеличивает пороговое значение напряжения транзистора (Vt). В результате компоненту потребуется более высокое напряжение для поддержания того же уровня производительности, что подразумевает увеличение рабочей температуры и, как сказано в других сообщениях, последует повышенная утечка затвора транзистора.

Подводя итог, можно сказать, что температура на самом деле не ускорит старение детали, а более высокая частота и напряжение (т.е. разгон) увеличат старение детали. Но старение транзисторов потребует более высокого рабочего напряжения, что приведет к большему нагреву детали.

Следствие: следствием разгона является повышение температуры и требуемого напряжения.

Общая причина необратимого отказа ИС заключается в том, что металлический алюминий внутри них, который используется для создания межсоединений между различными элементами, плавится и открывает или закорачивает устройства.

Да, токи утечки будут увеличиваться, но, как правило, проблема заключается не в самом токе утечки, а в нагреве, который он вызывает, и последующем повреждении металла внутри ИС.

Цепи питания (например, источники питания, сильноточные драйверы и т. д.) могут быть повреждены, потому что при высоких напряжениях, когда транзисторные драйверы быстро отключаются, генерируются внутренние токи, которые вызывают защелкивание устройства, или неравномерное распределение мощности внутри него, что вызывает локальные нагрев и последующее разрушение металла.

Большое (тысячи) число повторяющихся тепловых циклов может привести к отказу из-за несоответствия между механическим расширением ИС и корпуса, что в конечном итоге приведет к отрыву соединительных проводов или отслоению материала пластикового корпуса и последующему механическому отказу.

Конечно, большое количество параметрических спецификаций ИС указано только для заданного диапазона температур, и они могут не соответствовать спецификациям за его пределами. В зависимости от конструкции это может привести к отказу или неприемлемому сдвигу параметров (когда ИС находится за пределами температурного диапазона) — это может произойти при экстремально высоких или низких температурах.

Алюминий плавится при 660°C (​1220°F). ИС умирают задолго до достижения этой температуры.
Принципиально нет. При температурах ниже этого вы, безусловно, можете получить нежелательное электрическое поведение; чрезмерный нагрев и тепловой разгон, но на самом деле это не приводит к необратимому отказу, пока какая-то часть схемы не достигнет температуры, при которой алюминий (или другой металл) диффундирует в кремний. Это (точка эвтектики) составляет около 500-600°С. Большинство других отказов поддаются восстановлению. Дополнительные сбои могут быть вызваны электрическими неисправностями, позволяющими подавать избыточное напряжение на затворы транзисторов, или тепловыми циклами (которые вызывают механические сбои).
У меня все еще есть сомнения. Например, в интегральных схемах обычно указывается максимальная температура пайки около 300 °C, поэтому кажется, что превышение этого предела достаточно, чтобы вызвать необратимое повреждение.