I turbamenti di singoli eventi non sono più una questione di spazio né di aerei; li vediamo accadere in superficie da oltre un decennio, forse due ormai.
Come accennato però, almeno nelle applicazioni spaziali ci occupiamo di sconvolgimenti usando il triplo voto (ogni bit è davvero tre, e un voto dei due terzi vince, quindi se ce n'è uno che cambia gli altri due lo copriranno). E poi ECC o EDAC , con scrubber che attraversano la RAM ad una velocità superiore alla velocità di aggiornamento prevista per singolo evento per eliminare i turbamenti di singolo evento (quelli che spingono effettivamente i due terzi a votare in modo errato).
Quindi c'è la dose totale; nel tempo il materiale diventa troppo radioattivo per funzionare, quindi usi abbastanza materiale per superare la vita del veicolo. Non qualcosa di cui ci preoccupiamo in superficie normalmente. (E latchup) L'uso di tre / più insiemi di logica in parallelo è / è stato un modo per provare a non dover usare la tradizionale tecnologia rad-hard e, bene, puoi scoprire quanto bene stia funzionando.
Le persone che erano abituate a fare cose per lo spazio si sono ritirate per la maggior parte o sono andate avanti, quindi ora abbiamo un certo numero di programmi che fanno trash nello spazio. O trattando lo spazio come prodotti legati alla terra, invece di provare a fare tutto il lavoro e avere un rientro e un burnup controllati, ora ci aspettiamo che una certa quantità di spazio venga spazzata via da ogni costellazione.
Vediamo sconvolgimenti in superficie. Qualsiasi memory stick ( DRAM ) che acquisti ha un FIT, Failures In Time e qualsiasi chip con RAM (tutti i processori, molti altri), avrà anche una specifica FIT (per i blocchi RAM (SRAM)). La RAM è più densa e utilizza transistor più piccoli, quindi è più suscettibile ai disturbi, creati internamente o esterni. La maggior parte delle volte non ci accorgiamo o ci preoccupiamo perché la memoria che usiamo per i dati, la visione di un video, ecc. Viene scritta, letta e non riutilizzata prima che rimanga abbastanza a lungo da essere sconvolta. Parte della memoria, come quella che contiene un programma o il kernel, è più rischiosa. Ma da tempo siamo abituati all'idea di riavviare semplicemente il nostro computer o ripristinare / riavviare il nostro telefono (alcuni telefoni / marchi dovresti rimuovere periodicamente la batteria periodicamente). Erano questi sconvolgimenti o software difettoso o una combinazione?
I numeri FIT per il tuo singolo prodotto possono superare la vita di quel prodotto, ma prendi una server farm di grandi dimensioni, tieni conto di tutta la RAM o chip o qualsiasi altra cosa e l'MTBF passa da anni o ordini che, a giorni o ore, da qualche parte in la Fattoria. E hai ECC per coprire ciò che puoi di quelli. Quindi si distribuisce il carico di elaborazione con i failover per coprire le macchine o il software che non riescono a completare un'attività.
Il desiderio di archiviazione a stato solido e il passaggio dai media in rotazione ha creato un problema correlato a questo. Lo spazio di archiviazione utilizzato per gli SSD (e altri tipi di archiviazione non volatile) per diventare più veloce ed economico, è molto più volatile di quanto vorremmo e si basa su EDAC, perché perderemmo dati senza di essa. Aggiungono molti bit extra ed ecc il tutto, facendo i conti con la matematica per bilanciare velocità, costi e longevità di conservazione. Non ci vedo tornare indietro; la gente vuole più spazio di archiviazione non volatile ovunque che si adatta in un pacchetto minuscolo e non domina il prezzo del prodotto.
Per quanto riguarda i circuiti normali, dagli inizi dell'uso dei transistor per i circuiti digitali al presente, passiamo attraverso la porzione lineare del transistor e lo usiamo come interruttore, lo facciamo sbattere tra le rotaie con un eccesso per assicurarci che si attacchi . Come l'interruttore della luce sul tuo muro, lo fai girare più della metà di una molla aiuta il resto e lo tiene lì. Questo è il motivo per cui usiamo il digitale e non proviamo a vivere nella regione lineare; hanno provato all'inizio, ma non ci sono riusciti. Non potevano rimanere calibrati.
Quindi colpiamo semplicemente il transistor nelle sue rotaie e entrambi i lati di un segnale si stabilizzeranno al prossimo ciclo di clock. Sono stati fatti grandi problemi e gli strumenti attuali sono significativamente migliori di quelli che erano, nel fare l'analisi del design del chip, per vedere che dal design c'è un margine sui tempi. Quindi testare ogni dado su ciascun wafer (quello e / o dopo l'imballaggio), per vedere che ogni chip è buono.
La tecnologia dei chip si basa fortemente su statistiche basate su esperimenti. Quando overclocchi la tua CPU, stai spingendo quel margine, mantieni la frequenza, la temperatura, ecc. Pubblicizzate e le tue probabilità sono significativamente inferiori di avere problemi. Un processore xyz a 3 GHz è semplicemente un chip a 4 GHz che è fallito a 4 GHz ma passato a 3 GHz. Le parti sono classificate in base alla velocità sostanzialmente da una linea di produzione.
Poi ci sono le connessioni tra chip o schede, e anche quelle sono soggette a problemi, e molto tempo e fatica vanno nel fare standard e design delle schede, ecc., Per mitigare l'errore su quelle interfacce. USB , tastiera, mouse, HDMI , SATA e così via. Oltre a tutte le tracce sul tabellone. Dentro e fuori dal tabellone hai problemi di crosstalk; ancora una volta, sono disponibili molti strumenti se li usi e l'esperienza nell'evitare i problemi in primo luogo, ma ancora un altro modo in cui potremmo non vedere quelli e gli zeri essere pienamente coinvolti.
Nessuna delle tecnologie, nemmeno lo spazio, è perfetta. Deve solo essere abbastanza buono, abbastanza di una percentuale del prodotto deve coprire abbastanza della durata prevista del prodotto. Una certa percentuale di smartphone deve durare almeno due anni, e basta. Le fonderie o la tecnologia più vecchie hanno più dati sperimentali e possono produrre un prodotto più affidabile, ma è più lento e potrebbero non essere nuovi progetti, quindi ecco qua. Il vantaggio è proprio questo, una scommessa per tutti.
Alla tua domanda specifica, i transistor su ciascuna estremità di un segnale vengono spinti rapidamente attraverso la loro regione lineare e si inclinano in una delle rotaie. L'analisi viene eseguita su ogni percorso combinatorio per determinare che si stabilizzerà prima che l'orologio alla fine del percorso lo agganci, in modo che sia veramente fatto uno zero o uno. L'analisi si basa su esperimenti. I primi chip di una linea di prodotti vengono spinti oltre i confini del design, vengono creati grafici schmoo per determinare la presenza di un margine nel design. Vengono apportate variazioni al processo e / o vengono individuati singoli candidati che rappresentano i chip lenti e veloci. È un processo complicato e alcuni hanno più materiale, altri ne hanno di meno, corrono più velocemente ma usano più energia o corrono più lentamente, ecc.
Li spingi anche ai margini. E fondamentalmente ha la calda sensazione che il design sia ok per andare in produzione. La scansione JTAG / perimetrale viene utilizzata per eseguire modelli casuali attraverso i chip tra ciascuno stato bloccato per vedere i percorsi combinatori sono tutti solidi per un progetto. E in caso di dubbi, possono anche verificarsi alcuni test funzionali diretti. Ulteriori test del primo silicio e forse test casuali per assicurarsi che il prodotto sia buono. Se / quando si verificano guasti, ciò potrebbe farti tornare a test più funzionali sulla linea di produzione. Dipende fortemente da statistiche / percentuali. 1/1000000 quelli cattivi che escono possono andare bene o 1/1000 o altro; dipende da quanti pensi che produrrai da quel chip.
Le vulnerabilità sono come menzionato qui e con gli altri. Innanzitutto il chip stesso, quanto è stato buono il design e il processo, quanto vicino al margine è il percorso più debole di un chip specifico nel prodotto acquistato. Se troppo vicino al bordo, il cambiamento di temperatura o altro può causare problemi di temporizzazione e i bit bloccheranno i dati che non si sono stabilizzati in uno o zero. Quindi ci sono sconvolgimenti a singolo evento. E poi c'è rumore. di nuovo cose già menzionate ...