Si può dimostrare che l'esecuzione di una GPU ad alte temperature è dannosa per la scheda?


11

Se si esegue continuamente la scheda grafica tra 80 ° C e 90 ° C (176 ° F e 194 ° F), in realtà è dannoso per la scheda grafica? Vale a dire riduce la durata della carta? Questo può essere provato? O sono solo ipotesi?

Comprendo che l'arresto di sicurezza per le GPU è normalmente di 90 ° C (194 ° F).


Lo "spegnimento di sicurezza" dipende molto da dove viene misurata la temperatura e da quale processo e temperatura massima è stato progettato il circuito. Ricordo che una certa generazione di CPU Intel aveva una temperatura nominale massima di 110 ° C, il che preoccupava alcuni appassionati di hardware perché pensavano che i chip si sarebbero autodistruggiti. Spoiler: Non l'hanno fatto.
Joren Vaes,

1
Penso che questa domanda sia fortemente correlata a questa altra domanda ic-product-life-as-of-of-junction-temperature . La conclusione di questa domanda è che ogni 15 ° C sopra la temperatura ambiente dimezza l'aspettativa di vita di un IC. Quindi eseguire una scheda grafica a 90 ° C rispetto a 80 ° C ridurrà la sua durata di vita ~ 37% (quindi se l'aspettativa di vita è di 8 anni con 80 ° C, invece di ~ 5 anni con 90 ° C)
Harry Svensson

1
La legge di Arhennius è più vicina all'aumento di MTBF / 10'C inferiore del 50%, ma ci sono altri fattori da considerare per i dielettrici in cui iniziano con un MTBF molto più basso come 1000 h @ 85h o 105h, quindi sospetto che utilizzino tappi con classificazione 105'C o meglio.
Tony Stewart Sunnyskyguy EE75,

Risposte:


21

Studiamo i meccanismi di guasto e vediamo come sono influenzati dal calore. È molto importante ricordare che solo perché un meccanismo di guasto si verifica più velocemente con la temperatura, la GPU non si guasterà necessariamente più velocemente! Se un componente secondario che dura 100 anni a temperatura ambiente dura solo 20 anni se fa caldo, ma un altro componente secondario dura solo 1 anno per iniziare (ma non è influenzato dal calore), la durata del prodotto difficilmente cambierà con temperatura.

Ignorerò il problema ciclistico di cui parla Simeon in quanto questa non è la mia esperienza.

A livello di scheda, riesco a pensare a un componente principale che "romperà" con la testa: i condensatori elettrolitici. Questi condensatori si asciugano e si comprende che si asciugano più velocemente quando viene applicato il calore. (anche i condensatori al tantalio tendono ad avere una durata più breve ma non so come questo cambi con il calore).

Ma che dire del silicio?

Qui, a quanto ho capito, ci sono alcune cose che possono causare un fallimento. Uno dei principali qui è l'elettromigrazione. In un circuito, gli elettroni che attraversano frammenti di metallo si sposteranno fisicamente attorno agli atomi. Questo può diventare così grave da causare lacune nei conduttori, che possono quindi portare a guasti.

Questa immagine fornisce una buona illustrazione (da Tatiana Kozlova, Henny W. Zandbergen; osservazione TEM in situ dell'elettromigrazione in Ni nanobridges):

inserisci qui la descrizione dell'immagine

Questo processo aumenta in modo esponenziale con la temperatura e, quindi, il chip durerà meno tempo se la temperatura è più alta e l'elettromigrazione è la principale causa di guasto.

Un altro meccanismo è la rottura dell'ossido, in cui all'interno del circuito i transistor subiranno gate-punch-through. Anche questo dipende dalla temperatura. Tuttavia, la tensione ha un impatto molto più grande qui.

Vi è anche uno spostamento del VT, dovuto alla deriva dei droganti o all'iniezione di portatori caldi. La deriva del Dopant aumenta con la temperatura (ma è improbabile che sia un problema, specialmente con i circuiti digitali, poiché si tratta di un processo molto lento). Non sono sicuro della dipendenza dalla temperatura dell'iniezione di portatori caldi, ma ritengo che la tensione sia un fattore molto più importante qui.

Ma poi c'è una domanda importante: quanto diminuisce la durata della vita? Sapendo questo, dovresti assicurarti che la tua scheda grafica rimanga sempre fresca? La mia ipotesi è no, a meno che non sia stato commesso un errore in fase di progettazione. I circuiti sono progettati tenendo presente queste situazioni nel peggiore dei casi e realizzati in modo tale da sopravvivere se vengono spinti ai limiti per la durata nominale del produttore. Nel caso di circuiti di overclocking delle persone: l'aumento della tensione che usano spesso per mantenere stabile il circuito (poiché può accelerare un po 'i circuiti) farà molto più danno della temperatura stessa. Inoltre, tale aumento di tensione porterà ad un aumento della corrente, che accelererà notevolmente i problemi di elettromigrazione.


2
Queste sono alcune immagini fantastiche, mi sono sempre chiesto come sarebbe elettromigrazione fisicamente.
Cursorkeys,

9

Sì, è stato dimostrato che il calore degrada i componenti elettrici. I metalli si espandono quando si riscaldano, la saldatura (utilizzata per i collegamenti dei circuiti elettrici) è una lega metallica, quindi si espande quando riscaldata. Il riscaldamento e il raffreddamento costanti faranno sì che le articolazioni si espandano e si contraggano costantemente, il che può portare a crepe e alla fine alla rottura.

                                                      Grafico della percentuale di guasti rispetto alla temperatura

Il grafico sopra mostra come Arrhenius'sLaw fornisce una correlazione tra un aumento del calore e guasti ai semiconduttori. Questo documento descrive in dettaglio gli effetti del calore sui componenti elettronici. Si occupa più delle cose a livello di elettroni, che è un po 'al di fuori del mio ambito di conoscenza


1
Posso credere che il ciclismo sia negativo, a causa di come dici espansione e contrazione, ma c'è un problema con il funzionamento a carico elevato e quindi una temperatura elevata in ogni momento?
Colin,

Sono un progettista di circuiti integrati, quindi ho poca conoscenza delle modalità di guasto a livello di scheda, ma in tutto il mio tempo a riparare le cose (come hobby) devo ancora imbattermi in un guasto dovuto al ciclo di espansione, quindi devo chiedermi quanto sia significativo viene confrontato con altri meccanismi.
Joren Vaes,

1
@Colin non esiste un "carico elevato per tutto il tempo"; a meno che tu non stia semplicemente estraendo bitcoin sulla tua GPU, ci saranno secondi in cui c'è più carico di altri. Con il raffreddamento che deve essere abbastanza potente sulle GPU, questo porta già ai problemi citati. Vedi: XBox ring of death.
Marcus Müller,

@ MarcusMüller c'è assolutamente. E non importa che il carico non sia assolutamente costante. Per il ciclismo è importante la temperatura delta. Una carta che gira il 99% delle volte con un carico del 95-100% (cioè calcolo) entro le temperature progettate, sarebbe molto meno suscettibile all'ipotetico danno da ciclismo, rispetto alla stessa carta che oscilla tra lo 0% e il 100% selvaggiamente il 50% di l'if (cioè i giochi).
Dan M.,

6

La relazione tra l'aumento della temperatura di giunzione di un semiconduttore e la riduzione del suo MTBF (Mean Time Between Failure) è ben compresa.

Questa nota tecnica di Micron ne parla

In pratica, il tasso di guasto aumenterà esponenzialmente una volta che la temperatura di giunzione si avvicina e supera ~ 125 ° C, quindi se si opera molto al di sotto di tale temperatura piccoli incrementi potrebbero non essere così critici.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.