Come possono le CPU essere stabili quando hanno così tanti transistor?


10

Come sappiamo che una CPU è praticamente miliardi di transistor su una singola miniatura, cosa succede se uno dei transistor si rompe?

La CPU ha qualche meccanismo di ripristino automatico?


6
In realtà i più grandi al giorno d'oggi contengono miliardi di transistor.
Starblue,

6
"stabile" non è probabilmente la parola giusta, in quanto punta maggiormente su questioni come la metastabilità. Una scelta migliore per questo argomento sarebbe parole come "privo di difetti" o "resa". Oppure potresti chiedere informazioni sulla stabilità del processo di produzione, piuttosto che sui chip risultanti.
Chris Stratton,

2
@ChrisStratton, penso che OP potrebbe chiedere più sull'affidabilità che sulla resa.
Il fotone

1
Se uno dei transistor si rompe, si lancia il chip. Non c'è ridondanza (tranne alcune applicazioni specifiche) e nessuna opzione di riparazione.
Dmitry Grigoryev,

Risposte:


18

È semplice, li testiamo prima di venderli e buttare via quelli cattivi.

Ci sono molti modi per farlo: persone diverse fanno cose diverse, spesso usano una combinazione di:

  • alcuni test sono veloci per assicurarsi che siano abbastanza veloci.

  • altri test prevedono una modalità che trasforma alcuni o tutti i Flip-flop nel chip in giganteschi registri a spostamento seriale, registriamo i dati noti in quelle catene, quindi eseguiamo il chip per un orologio e quindi scansioniamo i nuovi risultati e controlliamo che corrispondano i nostri risultati previsti: gli strumenti di test automatici generano un set minimo di "vettori di scansione" che testeranno ogni gate o transistor casuale sul chip - altri vettori eseguono test speciali di blocchi di ram,

  • altri testano che i cavi esterni siano tutti correttamente collegati

  • ci assicuriamo che non stia tirando una malsana quantità di corrente

Il tempo di test costa denaro, a volte eseguiamo alcuni semplici test per ovvi chip morti prima che vengano confezionati per scartare quelli difettosi e quindi più test dopo che l'imballaggio è terminato


1
"È semplice, li testiamo prima di venderli e buttare via quelli cattivi." Se questo fosse l'unico sistema di qualità che probabilmente avresti una resa dello 0,00000000001% con 1 miliardo di dispositivi a transistor
Federico Russo,

2
E 'davvero così semplice; il trucco sta nella grande quantità di simulazione e controllo delle regole in anticipo per garantire che il rendimento sia accettabile. Raramente c'è ridondanza nella logica della CPU stessa; a volte si ottiene un po 'di ridondanza nelle RAM su chip.
pjc50,

Se il design è corretto, i singoli guasti derivano da difetti del materiale, contaminazione, errori di processo, ecc. Sebbene siano in uso solo poche dimensioni di wafer, i circuiti integrati più grandi sono più costosi delle loro dimensioni proporzionate, poiché la possibilità di un difetto aumenta con la zona. In alcuni casi, puoi avere un chip con più unità funzionali di quelle a volte vendute, quindi potrebbe essere comunque commercializzabile se uno è cattivo, ma questo è limitato. A volte è possibile acquistare FPGA con uno sconto che viene testato solo per funzionare come utilizzato da un determinato file di configurazione, piuttosto che con uno arbitrario.
Chris Stratton,

2
Penso che tu abbia dimenticato di menzionare produttori come AMD che vendono processori con core danneggiati come un modello diverso con il core danneggiato bloccato. È una specie di ridondanza, o forse di marketing intelligente.
Akaltar,

Se qualcuno si chiedesse come vengono fornite le parti di mercato grigie, non dovrebbero chiedersi più. Ho lavorato alla fine del software dei sistemi chip fab e i test automatizzati come descritto qui sono un enorme pezzo di tempo e denaro per gli impianti.

12

Espandere un po 'quello che altri hanno detto: c'è la validazione e dopo c'è la classificazione dei chip.

I transistor nelle CPU tendono a mostrare i loro problemi a frequenze più alte, quindi è comune creare una CPU e poi commercializzarla come diversi prodotti diversi. Le CPU più economiche sono in realtà versioni danneggiate della costosa CPU. Un'altra opzione è disabilitare alcune parti della CPU. Ad esempio, AMD ha realizzato processori con core BArton. Ha anche venduto processori con core Thorton. Thorton non era un nuovo core. Invece, metà della cache L2 era difettosa e disabilitata. In questo modo, AMD ha fatto un po 'di recupero sulle CPU che altrimenti sarebbero state sprecate.

La stessa cosa è successa con i 3 processori core di AMD. Inizialmente erano 4 processori core, ma uno dei core era considerato difettoso, quindi era disabilitato.


2
non è raro creare un chip design con funzionalità che è possibile disabilitare facendo saltare i fusibili. Semplice economia del rendimento del chip, se possiamo recuperare tutto o parte del chip eseguendolo più lentamente o disabilitando una funzione non riuscita nel test, possiamo recuperare parte del costo di quella parte anziché lanciare l'intera parte. puoi anche tornare a Intel 386 SX e DX come esempi. e praticamente ogni CPU è classificata in base alla velocità. quelli più lenti sono parti che hanno fallito a velocità più elevate.
old_timer,

2
No, non il 386SX / 386DX. Questi chip hanno un'interfaccia bus completamente diversa. Non basta disabilitare una parte del 386DX per ottenere un 386SX. Quello che dici è vero per il 486DX / 486SX, quest'ultimo con la FPU disabilitata.
Michael Karcher,

6

La risposta alla tua domanda è no." Al momento non esistono metodi di ripristino automatico per guasti hardware.

I produttori progettano i loro processi per ottenere il miglior rendimento (dollari) possibile dai loro wafer. Riducendo i transistor, possono adattare più funzionalità in meno area. Questo può essere pensato come più chip (della stessa funzionalità) per wafer. Man mano che le dimensioni del chip si riducono, è possibile estrarne più da un wafer, ma man mano che si restringono, molte di esse risultano cattive. I produttori lo accettano e spingono costantemente l'involucro della tecnologia per ridurre i chip. La cosa che dice loro che SONO ai margini della busta sono i chip difettosi.

Se un'azienda può ridurre la dimensione della funzione al 70% della dimensione della funzione precedente, può ottenere circa 2 volte il numero di chip su un wafer. Se il loro rendimento sul vecchio processo era del 95% (diciamo, 95 buoni chip su 100 su un wafer) e il loro rendimento sul nuovo processo era del 75% (150 buoni chip su 200 su un wafer) hanno fatto soldi andando il nuovo processo.


5
Per alcuni tipi di chip come le memorie flash NAND, i produttori spingono regolarmente l'inviluppo oltre il punto in cui i chip a zero difetti sarebbero la norma, ma la maggior parte dei guasti avrà caratteristiche alquanto prevedibili e i dispositivi che utilizzano i chip dovrebbero aggirarli.
supercat,

3

Su nodi piccoli, ogni "transistor" è composto da 2 porte a meno che non si disponga di memoria, come SRAM. Se uno non funziona, hai solo un driver lento. Per SRAM, se non passa, basta "soffiare" la fila. Se entrambi i FET sul transistor fallissero, avresti un pezzo di sabbia molto costoso, ma personalmente non ho mai avuto successo. I moderni FinFET sono così piccoli che ci sono un sacco di problemi di produzione (principalmente problemi) dovuti alla natura della litografia e della probabilità. Scoprirai che le prime cose sui nuovi processi sono FPGA perché puoi semplicemente "soffiare" le celle danneggiate e cambiare il grafico di routing. Non posso darti i numeri, ma puoi indovinare da come il mondo x86 fa il binning, le cose raramente vanno perfettamente.

Ecco un'illustrazione del layout di una cella XOR: XOR

Le barre verdi sinistra / destra sono pinne e il rosso è poli. I blu sono il metallo colorato al livello 1.

Le CPU commerciali non hanno un meccanismo di recupero automatico, ma le cose che fluttuano in ambito accademico e CPU speciali per applicazioni lo fanno. Ho realizzato alcuni componenti specializzati che utilizzano architetture asincrone per risolvere i problemi di orologio che sorgono a causa di cattive porte attraverso la distruzione dell'ossido di un foro come vettore caldo in cui si ottiene solo un transistor molto lento.


3

Apparentemente i tempi sono cambiati. Molte delle risposte di cinque anni in questa domanda non riflettono più lo stato dell'arte e alcune allora non erano accurate.

I transistor e altri dispositivi sul silicio sono abbastanza stabili dopo la produzione, a condizione che il circuito integrato non si surriscaldi.

Qui ci sono cose ora fatte in un moderno processo di produzione IC per minimizzare i difetti:

  • I circuiti integrati sono ampiamente testati, sia a livello di convalida e verifica del progetto, sia per i singoli test dei campioni. Questo articolo descrive alcune procedure di test per il Pentium 4.
  • la progettazione complessiva dei circuiti integrati è ora troppo complessa per essere verificata completamente
  • I circuiti integrati hanno un microcodice programmabile, che consente un grado limitato di riprogrammabilità se vengono rilevati difetti dopo la produzione
  • i moderni circuiti integrati contengono strati di silicio ridondanti, consentendo di correggere i difetti rilevati durante la produzione
  • molte CPU hanno moduli hardware ridondanti, siano essi core della CPU, memoria cache o altro IP; se non tutte le unità sono funzionali, alcune possono essere disabilitate e "integrate" come parti a basso costo. Un esempio è che l'IC multi-core PS4 include un core ridondante che è disabilitato per ottenere un rendimento più elevato.
  • alcune CPU funzioneranno ma non alla massima velocità; questi possono essere venduti come CPU a velocità più bassa, a basso costo
  • molte CPU e RAM utilizzano la memoria di codifica per la correzione degli errori (ECC) o eseguono la correzione degli errori di convalida dei messaggi nelle varie fasi del trasferimento dei dati per garantire l'integrità
  • a volte i processori falliranno in un modo che provoca un arresto anomalo del sistema ma non impedisce al sistema di funzionare di nuovo in caso di riavvio (CMOS latchup)

Gli errori di programmazione nelle specifiche formali del processore sono più probabili dei guasti di un particolare transistor.

Mentre le CPU comuni non hanno nulla di simile a un'abilità di recupero automatico, c'è stato anche un lavoro sulle CPU autoripristinanti come contromisura per i raggi cosmici. I raggi cosmici possono depositare abbastanza energia in una CPU o RAM per causare capovolgimenti.

Come sottolineato nei commenti, i sistemi mission-critical si affidano a più CPU per la verifica da molto tempo. Lo Space Shuttle, nel 1976 , ad esempio, utilizzava cinque computer, quattro dei quali eseguivano lo stesso programma e "votavano" su tutte le decisioni di controllo del volo per garantire la sicurezza.


L'ECC e il rilevamento degli errori sono stati utilizzati per un bel po 'di tempo (per memorie e comunicazioni, per funzioni aritmetiche e logiche simili alcuni sistemi di fascia alta hanno avuto il rilevamento degli errori per anni). Allo stesso modo, l'esecuzione ridondante (spaziale o temporale) è stata utilizzata per rilevare errori per un bel po 'di tempo in sistemi in cui il costo in termini di tempo hardware / esecuzione sembra giustificato.
Paul A. Clayton,

@ PaulA.Clayton se scrivessi un post su Itanium e, di conseguenza, su Xeon RAS, sarei sicuramente felice di votare per questo.
Oleksandr R.

2

I transistor per processori più moderni sono FET. Questi hanno il vantaggio di ottenere resistenza sorgente / drain quando si inizia a sovraccaricare. Questo è un fattore che consente di realizzare MOSFET ad alta potenza mettendo molti in parallelo. Il carico si distribuisce automaticamente. Questo può essere un fattore che aiuta a distribuire i problemi. Ma penso che sia davvero più semplice di così.

Come con la maggior parte delle parti elettroniche, se le guidi all'interno delle specifiche, dureranno per un po '. Quando viene creato un microprocessore, ci sono due fattori per il costo. Solo lo spazio sul silicio e, a causa della complessità, la resa effettiva. Non tutti i chip funzionano dopo la produzione. Tuttavia, una volta creato e passato la convalida, sai che i transistor sono buoni. Se guidato all'interno delle specifiche, è probabile che rimarranno buoni.


2

Vi siete mai chiesti perché a volte lo stesso chip viene venduto a velocità diverse? E hai notato che a volte la stessa architettura di chip GPU viene venduta con un numero diverso di unità interne?

Non esiste alcun modo per correggere un difetto hardware a livello di silicio, ma nel tempo i progettisti hanno imparato a gestire il problema dell'aumento della resa . Senza alcuna previsione, la resa dipende esclusivamente dalla qualità di produzione. Tuttavia, se sei intelligente, puoi recuperare alcune delle chip difettose.

Ad esempio, supponiamo che tu abbia un chip design a 18 core, che funziona più o meno in modo indipendente. Durante il test, si ordinano i chip perfetti e lo si rilascia come il modello A18. La maggior parte dei chip falliti ha un solo errore, quindi funzionerà bene fino a quando il core difettoso sarà disabilitato. Li vendi come modello A17 a un prezzo leggermente inferiore, e quelli che hanno due core danneggiati vengono venduti come modello A16 a un prezzo sempre più basso.

Lo stesso vale per la velocità di un chip. I chip prodotti perfettamente saranno in grado di funzionare a velocità superiori alle specifiche di progettazione, ma i chip con problemi potrebbero non esserlo. Questi sono venduti a specifiche a bassa velocità.

Questo metodo aumenterà notevolmente la resa complessiva ed è quindi abbastanza comune. La PlayStation 3 ad esempio ha 8 unità SPE nell'hardware, ma una è sempre disabilitata per tenere conto dei problemi di rendimento.


1

La CPU ha qualche meccanismo di ripristino automatico?

No, come spiegato sopra. Tuttavia, le loro cache, in particolare L2 e L3, possono contenere RAM aggiuntiva. Quando la parte viene testata in fabbrica, è possibile rimuovere i blocchi RAM danneggiati e utilizzare i blocchi RAM aggiuntivi.


1

In generale no, copri transistor difettosi attraverso lo schermo a chip e ti aspetti una percentuale relativamente piccola di perdite dopo. Il settore dei chip è in circolazione da decenni e ha molti trucchi per gestirlo (e sì, a volte uno dei trucchi è semplicemente lasciare fuori parti difettose e sostituirle gratuitamente o lasciare che i clienti siano infelici).

Per gli ambienti induriti dalle radiazioni (spazio) probabilmente si dovrebbe triplicare il voto, ogni "bit" in realtà ha tre bit che votano per crearne uno. ci vuole solo un voto di due terzi per determinare l'impostazione del bit. così i transistor nell'altro terzo potrebbero andare male e alla fine con la dose totale. ma la preoccupazione principale è il turbamento di un singolo evento. Quei chip e sistemi sono progettati per questi ambienti dall'alto verso il basso, silicio, hardware, software, ecc. E usano la vecchia tecnologia collaudata, non all'avanguardia, quindi il conteggio e le dimensioni dei transistor sono di anni fa.

Si prevede che COTS si singhiozzi e fallisca di volta in volta.


-1

Può sembrare un miracolo, ma ci sono una serie di meccanismi usati per ridurre la quantità di guasti ai transistor. Tuttavia, a seconda del tipo di guasto riscontrato dal transistor e dove, la CPU può o meno essere ancora utilizzabile a volte in determinate condizioni.

Allo stato attuale, spesso non è integrato alcun meccanismo di recupero automatico, ma sono molte le ricerche sull'informatica riconfigurabile, la ridondanza e altre tecniche per ridurre al minimo questo problema.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.