Come sappiamo che una CPU è praticamente miliardi di transistor su una singola miniatura, cosa succede se uno dei transistor si rompe?
La CPU ha qualche meccanismo di ripristino automatico?
Come sappiamo che una CPU è praticamente miliardi di transistor su una singola miniatura, cosa succede se uno dei transistor si rompe?
La CPU ha qualche meccanismo di ripristino automatico?
Risposte:
È semplice, li testiamo prima di venderli e buttare via quelli cattivi.
Ci sono molti modi per farlo: persone diverse fanno cose diverse, spesso usano una combinazione di:
alcuni test sono veloci per assicurarsi che siano abbastanza veloci.
altri test prevedono una modalità che trasforma alcuni o tutti i Flip-flop nel chip in giganteschi registri a spostamento seriale, registriamo i dati noti in quelle catene, quindi eseguiamo il chip per un orologio e quindi scansioniamo i nuovi risultati e controlliamo che corrispondano i nostri risultati previsti: gli strumenti di test automatici generano un set minimo di "vettori di scansione" che testeranno ogni gate o transistor casuale sul chip - altri vettori eseguono test speciali di blocchi di ram,
altri testano che i cavi esterni siano tutti correttamente collegati
ci assicuriamo che non stia tirando una malsana quantità di corrente
Il tempo di test costa denaro, a volte eseguiamo alcuni semplici test per ovvi chip morti prima che vengano confezionati per scartare quelli difettosi e quindi più test dopo che l'imballaggio è terminato
Espandere un po 'quello che altri hanno detto: c'è la validazione e dopo c'è la classificazione dei chip.
I transistor nelle CPU tendono a mostrare i loro problemi a frequenze più alte, quindi è comune creare una CPU e poi commercializzarla come diversi prodotti diversi. Le CPU più economiche sono in realtà versioni danneggiate della costosa CPU. Un'altra opzione è disabilitare alcune parti della CPU. Ad esempio, AMD ha realizzato processori con core BArton. Ha anche venduto processori con core Thorton. Thorton non era un nuovo core. Invece, metà della cache L2 era difettosa e disabilitata. In questo modo, AMD ha fatto un po 'di recupero sulle CPU che altrimenti sarebbero state sprecate.
La stessa cosa è successa con i 3 processori core di AMD. Inizialmente erano 4 processori core, ma uno dei core era considerato difettoso, quindi era disabilitato.
La risposta alla tua domanda è no." Al momento non esistono metodi di ripristino automatico per guasti hardware.
I produttori progettano i loro processi per ottenere il miglior rendimento (dollari) possibile dai loro wafer. Riducendo i transistor, possono adattare più funzionalità in meno area. Questo può essere pensato come più chip (della stessa funzionalità) per wafer. Man mano che le dimensioni del chip si riducono, è possibile estrarne più da un wafer, ma man mano che si restringono, molte di esse risultano cattive. I produttori lo accettano e spingono costantemente l'involucro della tecnologia per ridurre i chip. La cosa che dice loro che SONO ai margini della busta sono i chip difettosi.
Se un'azienda può ridurre la dimensione della funzione al 70% della dimensione della funzione precedente, può ottenere circa 2 volte il numero di chip su un wafer. Se il loro rendimento sul vecchio processo era del 95% (diciamo, 95 buoni chip su 100 su un wafer) e il loro rendimento sul nuovo processo era del 75% (150 buoni chip su 200 su un wafer) hanno fatto soldi andando il nuovo processo.
Su nodi piccoli, ogni "transistor" è composto da 2 porte a meno che non si disponga di memoria, come SRAM. Se uno non funziona, hai solo un driver lento. Per SRAM, se non passa, basta "soffiare" la fila. Se entrambi i FET sul transistor fallissero, avresti un pezzo di sabbia molto costoso, ma personalmente non ho mai avuto successo. I moderni FinFET sono così piccoli che ci sono un sacco di problemi di produzione (principalmente problemi) dovuti alla natura della litografia e della probabilità. Scoprirai che le prime cose sui nuovi processi sono FPGA perché puoi semplicemente "soffiare" le celle danneggiate e cambiare il grafico di routing. Non posso darti i numeri, ma puoi indovinare da come il mondo x86 fa il binning, le cose raramente vanno perfettamente.
Ecco un'illustrazione del layout di una cella XOR:
Le barre verdi sinistra / destra sono pinne e il rosso è poli. I blu sono il metallo colorato al livello 1.
Le CPU commerciali non hanno un meccanismo di recupero automatico, ma le cose che fluttuano in ambito accademico e CPU speciali per applicazioni lo fanno. Ho realizzato alcuni componenti specializzati che utilizzano architetture asincrone per risolvere i problemi di orologio che sorgono a causa di cattive porte attraverso la distruzione dell'ossido di un foro come vettore caldo in cui si ottiene solo un transistor molto lento.
Apparentemente i tempi sono cambiati. Molte delle risposte di cinque anni in questa domanda non riflettono più lo stato dell'arte e alcune allora non erano accurate.
I transistor e altri dispositivi sul silicio sono abbastanza stabili dopo la produzione, a condizione che il circuito integrato non si surriscaldi.
Qui ci sono cose ora fatte in un moderno processo di produzione IC per minimizzare i difetti:
Gli errori di programmazione nelle specifiche formali del processore sono più probabili dei guasti di un particolare transistor.
Mentre le CPU comuni non hanno nulla di simile a un'abilità di recupero automatico, c'è stato anche un lavoro sulle CPU autoripristinanti come contromisura per i raggi cosmici. I raggi cosmici possono depositare abbastanza energia in una CPU o RAM per causare capovolgimenti.
Come sottolineato nei commenti, i sistemi mission-critical si affidano a più CPU per la verifica da molto tempo. Lo Space Shuttle, nel 1976 , ad esempio, utilizzava cinque computer, quattro dei quali eseguivano lo stesso programma e "votavano" su tutte le decisioni di controllo del volo per garantire la sicurezza.
I transistor per processori più moderni sono FET. Questi hanno il vantaggio di ottenere resistenza sorgente / drain quando si inizia a sovraccaricare. Questo è un fattore che consente di realizzare MOSFET ad alta potenza mettendo molti in parallelo. Il carico si distribuisce automaticamente. Questo può essere un fattore che aiuta a distribuire i problemi. Ma penso che sia davvero più semplice di così.
Come con la maggior parte delle parti elettroniche, se le guidi all'interno delle specifiche, dureranno per un po '. Quando viene creato un microprocessore, ci sono due fattori per il costo. Solo lo spazio sul silicio e, a causa della complessità, la resa effettiva. Non tutti i chip funzionano dopo la produzione. Tuttavia, una volta creato e passato la convalida, sai che i transistor sono buoni. Se guidato all'interno delle specifiche, è probabile che rimarranno buoni.
Vi siete mai chiesti perché a volte lo stesso chip viene venduto a velocità diverse? E hai notato che a volte la stessa architettura di chip GPU viene venduta con un numero diverso di unità interne?
Non esiste alcun modo per correggere un difetto hardware a livello di silicio, ma nel tempo i progettisti hanno imparato a gestire il problema dell'aumento della resa . Senza alcuna previsione, la resa dipende esclusivamente dalla qualità di produzione. Tuttavia, se sei intelligente, puoi recuperare alcune delle chip difettose.
Ad esempio, supponiamo che tu abbia un chip design a 18 core, che funziona più o meno in modo indipendente. Durante il test, si ordinano i chip perfetti e lo si rilascia come il modello A18. La maggior parte dei chip falliti ha un solo errore, quindi funzionerà bene fino a quando il core difettoso sarà disabilitato. Li vendi come modello A17 a un prezzo leggermente inferiore, e quelli che hanno due core danneggiati vengono venduti come modello A16 a un prezzo sempre più basso.
Lo stesso vale per la velocità di un chip. I chip prodotti perfettamente saranno in grado di funzionare a velocità superiori alle specifiche di progettazione, ma i chip con problemi potrebbero non esserlo. Questi sono venduti a specifiche a bassa velocità.
Questo metodo aumenterà notevolmente la resa complessiva ed è quindi abbastanza comune. La PlayStation 3 ad esempio ha 8 unità SPE nell'hardware, ma una è sempre disabilitata per tenere conto dei problemi di rendimento.
La CPU ha qualche meccanismo di ripristino automatico?
No, come spiegato sopra. Tuttavia, le loro cache, in particolare L2 e L3, possono contenere RAM aggiuntiva. Quando la parte viene testata in fabbrica, è possibile rimuovere i blocchi RAM danneggiati e utilizzare i blocchi RAM aggiuntivi.
In generale no, copri transistor difettosi attraverso lo schermo a chip e ti aspetti una percentuale relativamente piccola di perdite dopo. Il settore dei chip è in circolazione da decenni e ha molti trucchi per gestirlo (e sì, a volte uno dei trucchi è semplicemente lasciare fuori parti difettose e sostituirle gratuitamente o lasciare che i clienti siano infelici).
Per gli ambienti induriti dalle radiazioni (spazio) probabilmente si dovrebbe triplicare il voto, ogni "bit" in realtà ha tre bit che votano per crearne uno. ci vuole solo un voto di due terzi per determinare l'impostazione del bit. così i transistor nell'altro terzo potrebbero andare male e alla fine con la dose totale. ma la preoccupazione principale è il turbamento di un singolo evento. Quei chip e sistemi sono progettati per questi ambienti dall'alto verso il basso, silicio, hardware, software, ecc. E usano la vecchia tecnologia collaudata, non all'avanguardia, quindi il conteggio e le dimensioni dei transistor sono di anni fa.
Si prevede che COTS si singhiozzi e fallisca di volta in volta.
Può sembrare un miracolo, ma ci sono una serie di meccanismi usati per ridurre la quantità di guasti ai transistor. Tuttavia, a seconda del tipo di guasto riscontrato dal transistor e dove, la CPU può o meno essere ancora utilizzabile a volte in determinate condizioni.
Allo stato attuale, spesso non è integrato alcun meccanismo di recupero automatico, ma sono molte le ricerche sull'informatica riconfigurabile, la ridondanza e altre tecniche per ridurre al minimo questo problema.