Perché esattamente i chip iniziano a funzionare male dopo che si sono surriscaldati?


26

Una volta che un chip si surriscalda, può iniziare a funzionare male, ad esempio molti programmi potrebbero iniziare a fallire una volta che alcune o tutte le parti di un computer si surriscaldano.

Che cosa succede esattamente che provoca il malfunzionamento dei chip quando si surriscaldano?

Risposte:


26

Espandere su altre risposte.

  1. Correnti di dispersione più elevate: questo può portare a maggiori problemi di riscaldamento e può facilmente provocare una fuga termica.
  2. La razione segnale-rumore diminuirà con l'aumentare del rumore termico : ciò può comportare un tasso di errore bit più elevato, questo può causare la lettura errata di un programma e l'interpretazione errata dei comandi. Ciò può causare operazioni "casuali".
  3. I dopanti diventano più mobili con il calore. Quando si dispone di un chip completamente surriscaldato, il transistor può smettere di essere transistor. Questo è irreversibile.
  4. Il riscaldamento irregolare può far crollare la struttura cristallina di Si. Una persona normale può sperimentare mettendo il vetro attraverso uno shock termico. Si frantumerà, un po 'estremo, ma illustra il punto. Questo è irreversibile.
  5. Le memorie ROM che dipendono da una piastra isolata carica saranno in grado di perdere memoria all'aumentare della temperatura. L'energia termica, se sufficientemente elevata, può consentire all'elettronica di sfuggire al conduttore carico. Ciò può danneggiare la memoria del programma. Ciò accade regolarmente durante la saldatura di circuiti integrati che sono già programmati quando qualcuno surriscalda il chip.
  6. Perdita del controllo del transistor: con sufficiente energia termica i tuoi elettroni possono saltare il gap di banda. Un semiconduttore è un materiale che ha un piccolo spazio di banda in modo tale da essere facilmente colmato con droganti ma abbastanza grande da far sì che la temperatura operativa richiesta non lo trasformi in un conduttore in cui lo spazio è più piccolo dell'energia termica del materiale. Questa è una semplificazione eccessiva ed è la base di un altro post, ma volevo aggiungerlo e inserirlo in parole mie.

Ci sono più ragioni, ma queste sono alcune importanti.


Sembra probabile che i guasti alla temporizzazione siano uno dei "maggiori motivi" (la resistenza del filo tende ad aumentare con la temperatura, quindi i percorsi di temporizzazione a resistenza-capacità limitati potrebbero violare il loro caso peggiore garantito). Naturalmente, DRAM perde anche la carica (come la memoria flash) più velocemente a temperature più elevate; senza compensazione dei dati della frequenza di aggiornamento si possono perdere.
Paul A. Clayton,

13

Il problema principale con il funzionamento dell'IC ad alte temperature è la corrente di dispersione notevolmente aumentata dei singoli transistor. La corrente di dispersione può aumentare a tal punto da influire sui livelli di tensione di commutazione dei dispositivi, in modo che i segnali non possano propagarsi correttamente all'interno del chip e smetta di funzionare. Di solito si riprendono quando possono raffreddarsi, ma non è sempre così.

I processi di produzione per il funzionamento ad alta temperatura (fino a 300 ° C) utilizzano la tecnologia CMOS su silicio su isolante a causa della bassa perdita in un intervallo di temperature molto ampio.


9

Solo un'aggiunta ad alcune risposte eccellenti: tecnicamente non sono i droganti a diventare più mobili, è un aumento della concentrazione intrinseca del vettore. Semmai i droganti / trasportatori diventano meno mobili poiché il reticolo cristallino del silicio inizia a "vibrare" a causa dell'aumento dell'energia termica che rende più difficile il flusso degli elettroni e dei fori attraverso il dispositivo - diffusione ottica dei fononi credo che la fisica lo chiami ma potrei sbagliarsi.

Quando la concentrazione intrinseca del veicolo aumenta oltre il livello di doping si perde il controllo elettrico del dispositivo. I vettori intrinseci sono quelli che ci sono prima di drogare il silicio, l'idea dei semiconduttori è che aggiungiamo i nostri vettori per generare giunzioni pn e le altre cose interessanti che fanno i transistor. Il silicio supera i 150 ° C, quindi i processori RF a dissipazione di calore e l'alta velocità sono molto importanti in quanto i 150 ° C non sono troppo difficili da raggiungere in pratica. Esiste un collegamento diretto tra la concentrazione intrinseca del trasportatore e la corrente di dispersione off di un dispositivo.

Come hanno dimostrato gli altri chap, questo è solo uno dei motivi per cui i chip falliscono: può persino arrivare a qualcosa di semplice come un bond wire che si surriscalda e fa esplodere il suo pad, c'è un enorme elenco di cose.


Quando dico che i droganti diventano più mobili, intendo gli atomi fisici, non i portatori. La giunzione PN può spostarsi e smettere di essere un diodo con tempo e calore. In secondo luogo, quando si ottiene una temperatura sufficientemente elevata, la tua energia termica, che crea sia fononi ad alta energia che interagiscono con gli elettroni sia livelli IR molto più alti all'interno della struttura, può fornire agli elettroni un'energia abbastanza alta da saltare il gap di banda tra gli strati di conduzione e valenza . Il Si raggiunge il massimo perché la sua larghezza di banda è tale che 150 ° C daranno agli elettroni la possibilità di saltare.
Kortuk,

Sì, penso che stiamo dicendo la stessa cosa solo da un diverso punto di partenza.
SimonBarker,

1
Il modo in cui stai spiegando suona esattamente come farei dopo aver preso la fisica dei dispositivi, dopo aver preso alcuni dispositivi quantici e a stato solido applicati, lo dico in modo leggermente diverso, ma entrambi sappiamo quanto siano semplificate eccessivamente queste spiegazioni. Ho aggiunto un po 'di questo effetto alla mia risposta poiché penso sia molto importante, ti ho dato il tuo primo +1, che ti meritavi. Questo è un effetto importante in quanto porta alla fuga termica molto rapidamente.
Kortuk,

8

Sebbene le correnti di dispersione aumentino, mi aspetto un problema più grande per molti dispositivi basati su MOS è che la quantità di corrente passata attraverso un transistor MOS nello stato "on" diminuirà quando il dispositivo si surriscalda. Affinché un dispositivo funzioni correttamente, un transistor che commuta un nodo deve essere in grado di caricare o scaricare qualsiasi capacità latente in quella parte del circuito prima che qualsiasi altra cosa si basi sul fatto che quel nodo è stato commutato. Ridurre la capacità di passaggio di corrente dei transistor ridurrà la velocità con cui possono caricare o scaricare i nodi. Se un transistor non è in grado di caricare o scaricare un nodo sufficientemente prima che un'altra parte del circuito faccia affidamento sulla commutazione di quel nodo, il circuito non funzionerà correttamente.

Si noti che per i dispositivi NMOS si è verificato un compromesso di progettazione nel dimensionamento dei transistor pull-up passivi; più grande è un pull-up passivo, più rapidamente il nodo potrebbe passare da basso ad alto, ma maggiore sarebbe la perdita di energia ogni volta che il nodo era basso. Molti di questi dispositivi sono stati quindi utilizzati in qualche modo vicino al limite del corretto funzionamento e i malfunzionamenti basati sul calore erano (e per l'elettronica vintage, rimangono) abbastanza comuni. Per l'elettronica CMOS comune, tali problemi sono generalmente meno gravi; Non ho idea in pratica della misura in cui svolgono un ruolo in processori multi-GHZ.


2
Questo è un effetto molto importante, stavo per chiedere a Kortuk di aggiungerlo alla sua risposta. Uno dei fattori alla base delle specifiche Tj massime per un processore è che al di sopra di Tj il processore potrebbe non funzionare alla velocità nominale. Questo è anche il motivo per cui un migliore raffreddamento aiuta nell'overclocking.
Andy,

Il primo paragrafo è il motivo per cui il computer smette di funzionare quando si surriscalda: rallenta troppo per tenere il passo con la frequenza di clock.
W5VO,

In realtà, c'è un altro fattore che potrebbe aver avuto un ruolo nei dispositivi NMOS, anche se non me lo sarei aspettato nei progetti più tipici: molti dispositivi NMOS avevano velocità di clock minime , imposte dall'obbligo di utilizzare o aggiornare i dati nei nodi di archiviazione dinamica prima che venisse drenato da una perdita. Se le correnti di dispersione aumentano con la temperatura, aumenterebbe anche la velocità di clock minima. Ho il sospetto che la maggior parte dei dispositivi funzionasse sufficientemente al di sopra della minima velocità di clock che un aumento della velocità minima non sarebbe un problema, ma non sono sicuro.
supercat,

@Andy, @ W5VO, stavo scrivendo la mia risposta ieri sera e ho dimenticato quella via di mezzo. Il turno di notte fa male al cervello.
Kortuk,

2

A complemento delle risposte esistenti, i circuiti di oggi sono sensibili ai seguenti due effetti dell'invecchiamento (non solo questi, ma sono i principali sui processi <150 nm):

Poiché la temperatura aumenta la mobilità dei portatori, aumenta gli effetti HCI e NBTI, ma la temperatura non è la causa principale di NBTI e HCI:

  • L'HCI è causato da un'alta frequenza
  • NBTI ad alta tensione

Questi due effetti dell'invecchiamento del silicio causano danni sia reversibili che irreversibili ai transistor (influenzando / deteriorando i substrati dell'isolante) che aumentano la soglia di tensione del transistor (Vt). Di conseguenza, la parte richiederà una tensione più elevata per mantenere lo stesso livello di prestazioni, il che implica un aumento della temperatura operativa e, come detto in altri posti, seguirà una maggiore perdita della porta del transistor.

Riassumendo, la temperatura non farà davvero invecchiare la parte più velocemente, è la frequenza e la tensione più alte (cioè l'overclocking) che farà invecchiare una parte. Ma l'invecchiamento dei transistor richiederà una tensione di funzionamento più elevata che aumenterà il calore della parte.

Corolary: la conseguenza dell'overclocking è un aumento della temperatura e della tensione richiesta.


1

Il motivo generale per cui i circuiti integrati non funzionano irreversibilmente è perché il metallo in alluminio al loro interno utilizzato per creare interconnessioni tra i vari elementi si scioglie e apre o mette in cortocircuito i dispositivi.

Sì, le correnti di dispersione aumenteranno, ma in genere non è la corrente di dispersione stessa ad essere un problema, ma il calore che ciò provoca e il conseguente danno al metallo all'interno del circuito integrato.

I circuiti di alimentazione (ad es. Alimentatori, driver ad alta corrente, ecc.) Possono essere danneggiati perché ad alte tensioni, quando i driver del transistor si spengono rapidamente, si generano correnti interne che causano il blocco del dispositivo o una distribuzione irregolare di energia al suo interno che provoca locale riscaldamento e conseguente rottura del metallo.

Un numero elevato (1000) di cicli termici ripetuti può causare guasti a causa di discrepanze tra l'espansione meccanica dell'IC e il pacco, causando infine la rottura dei fili di collegamento o la delimitazione del materiale del pacco in plastica e il conseguente guasto meccanico.

Naturalmente un gran numero di specifiche parametriche IC sono specificate solo in un determinato intervallo di temperature, e queste potrebbero non essere incluse in specifiche al di fuori di questo. A seconda del progetto, ciò può causare guasti o spostamenti parametrici inaccettabili (mentre l'IC è al di fuori dell'intervallo di temperatura); ciò può verificarsi per temperature estremamente alte o basse.


L'alluminio si scioglie a 660 ° C (1220 ° F). I circuiti integrati muoiono molto prima di raggiungere questa temperatura.
Dmitry Grigoryev l'

Fondamentalmente no. A temperature inferiori a questa, si può certamente ottenere un comportamento elettrico indesiderato; riscaldamento eccessivo e fuga termica, ma ciò non causa effettivamente un guasto permanente fino a quando una parte del circuito non raggiunge una temperatura in cui Al (o altro metallo) si diffonde nel silicio. Questo (punto eutettico) è di circa 500-600 C. La maggior parte degli altri guasti sono recuperabili. Ulteriori guasti possono essere causati da malfunzionamenti elettrici che consentono di applicare una tensione eccessiva alle porte del transistor o ai cicli termici (che causano guasti meccanici).
jp314

Ho ancora i miei dubbi. Ad esempio, i circuiti integrati solitamente specificano una temperatura massima di saldatura intorno a 300 ° C, quindi sembra che superare tale limite sia sufficiente per causare danni permanenti.
Dmitry Grigoryev l'
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.