Test della RAM incoerenti: qual è il colpevole più probabile? (cioè cosa dovrei spendere soldi per la sostituzione)


20
  • Scheda madre: GA-B85M-DS3H-A
  • CPU: Core i5 4430
  • RAM: PNY XLR8 DDR3 32 GB (4x8 GB) 1600 MHz (MD32768K4D3-1600-X9)
  • Alimentatore: EVGA 500 W1 80+

Il problema

Con tutti i 32 GB di RAM installati, il sistema MemTest86 + 6.2 non riesce in modo coerente. L'errore si verifica sempre durante il primo passaggio e gli errori salgono rapidamente a milioni di errori. Il tentativo di eseguire Windows provoca riavvii casuali ed errori di arresto (come ci si aspetterebbe con errori RAM).

Quello che ho provato

  • Prova un singolo modulo PNY da 8 GB nello zoccolo DIMM1. Completa con successo 4 passaggi di MemTest.
  • Prova un singolo modulo PNY da 8 GB nello zoccolo DIMM2. Completa con successo 4 passaggi di MemTest.
  • Prova un singolo modulo PNY da 8 GB nella presa DIMM3. Completa con successo 4 passaggi di MemTest.
  • Prova un singolo modulo PNY da 8 GB nella presa DIMM4. Completa con successo 4 passaggi di MemTest.
  • Prova tutti e quattro i DIMM PNY da 8 GB separatamente, singolarmente, nello zoccolo DIMM1. Tutti i moduli completano correttamente 4 passaggi di MemTest.
  • Prova due moduli PNY da 8 GB nelle prese DIMM1 e DIMM2. Completa con successo 4 passaggi di MemTest.
  • Prova due moduli PNY da 8 GB nelle prese DIMM3 e DIMM4. Completa con successo 4 passaggi di MemTest.
  • Testa la scheda madre con quattro DIMM di buona qualità da 2 GB in tutte le prese. Completa con successo 4 passaggi di MemTest.
  • Scambia l'ordinamento dei DIMM PNY nelle prese. Nessuna modifica: si verificano ancora errori MemTest.
  • Aumentare la tensione RAM della scheda madre da 1,5 V a 1,65 V. Nessuna modifica: si verificano ancora errori MemTest.
  • Gioca con varie combinazioni delle impostazioni manuali della RAM nell'utility di configurazione - abilitazione / disabilitazione del profilo XMP, impostazione del preset "maggiore stabilità", ecc. Nessuna modifica, si verificano ancora errori MemTest.

Penso di poter escludere in modo sicuro RAM difettosa e socket RAM danneggiati. L' unica volta che i test MemTest falliscono è se tutti e quattro i moduli da 8 GB vengono installati contemporaneamente.

Ho misurato le tensioni che escono dall'alimentatore e tutto sembra stabile anche con tutte e quattro le levette installate.

Mentre scrivo, ho provato un'ultima risorsa per ridurre manualmente la velocità della RAM a 1066 MHz nel BIOS. Finora, MemTest ha completato un passaggio ed è al secondo senza errori. (Tutti i test di cui sopra sono stati eseguiti alla velocità RAM nativa di 1600 MHz.) Questo potrebbe permettermi di utilizzare il sistema, sebbene con velocità RAM leggermente più lente, ma questa non sembra essere una soluzione permanente.

Ogni volta che si verificano errori MemTest, si verificano sempre nella stessa posizione esatta sul bus degli indirizzi a 64 bit:

Bit Error Mask: 00000000FF000000

Inoltre, non si verificano MAI errori al di sotto della barriera da 4 GB. In altre parole, tutti gli errori si verificano nello spazio degli indirizzi tra 4 GB e 32 GB.

Sto deducendo che si tratta di una sorta di strano problema di interazione o temporizzazione con la CPU, la RAM e la scheda madre, poiché gli errori sono molto coerenti, si verificano solo in una configurazione specifica, sembrano essere mitigati rallentando la RAM e si verificano solo al di sopra della barriera da 4 GB. La mia domanda è: è più probabile che la mia CPU o la mia scheda madre siano i colpevoli?

Ho intenzione di aggiornare questa macchina a un Core i7-4790K, quindi se la CPU è il probabile colpevole (so che il controller di memoria è sulla CPU in questi modelli più recenti), allora funziona bene perché sto progettando di aggiornare comunque, ma mi chiedo se c'è una possibilità che anche la scheda madre stessa possa far parte del problema. cioè non vorrei spendere i soldi sulla CPU i7 solo per sperimentare lo stesso identico problema e scoprire che devo anche sostituire la scheda madre ...

Consigli?


EDIT: la velocità della RAM più lenta ha comunque prodotto errori, ma solo una volta che il test ha raggiunto il terzo passaggio. Ho riavviato il test con una sola CPU attiva solo per testare un'interazione sulla CPU stessa.


L'unico modo per confermare se si tratta di memoria, mobo o cpu è testare ram in un altro sistema compatibile.
Moab,

2
Se il problema non si sposta quando si spostano i chip RAM, la scheda madre è tossica.
Giosuè,

1
Quando si esegue questa memoria in dual o quando si dispone di 4 (8g) moduli, è possibile rimuoverlo da SPD (auto) e modificare un po 'i tempi e farlo funzionare. dire che è 10,11,10,24 sintonizzarlo su 11,12,11,32 e testarlo invece. (sì, questo è indovinare) Se funziona al 100% ininterrottamente, è meno probabile che sia un problema di calore o un problema della scheda madre. Le persone con moduli 4x8gig hanno avuto problemi che descrivi prima, se c'è supporto per la regolazione della tensione e la cpu non ha pin piegati, può essere un modo per far funzionare le cose non nell'elenco di compatibilità. quindi prova questo e torna da noi.
Psycogeek,

2
"La velocità della RAM più lenta ha comunque prodotto errori, ma solo una volta che il test ha raggiunto il terzo passaggio" Durante uno di questi passi ulteriori passi per testare il raffreddamento del pistone? Anche una ventola aggiuntiva temporanea o una ventola esterna che sposta l'aria attraverso il pistone e la sua roba di regolazione della tensione, potrebbe verificare se il calore è uno dei problemi.
Psycogeek,

@Psycogeek +1 per aver suggerito una modifica temporale. Alcuni moduli RAM non funzionano bene con gli altri per quanto riguarda i tempi (anche la stessa marca o lo stesso tipo di modulo). Ho avuto un problema simile a OP e risolto impostando i tempi manualmente.
Amziraro,

Risposte:


18

Non sembra che nessun componente sia difettoso, piuttosto stai usando una combinazione incompatibile.

La presenza di più socket sullo stesso bus di memoria aumenta la capacità su ciascuna linea di dati e rallenta il tempo di salita, il che può far sì che le transizioni arrivino in ritardo e vengano individuate erroneamente. Questo fenomeno è noto agli ingegneri elettrici come "fan-out".

Ciò è ulteriormente complicato a causa della ventola interna a un modulo di memoria. Il numero e la topologia dei dispositivi DRAM sul modulo, chiamati "rank", influenzeranno il numero di moduli che è possibile connettere correttamente in parallelo.

Le schede madri server che supportano molti socket di memoria richiedono effettivamente una memoria buffer, che utilizza una rete a cascata di buffer per limitare il fan-out (e quindi la capacità) visti da ciascuno. C'è un ritardo causato dai buffer stessi, ma aumenta logaritmicamente solo con il numero di carichi, mentre per la capacità di memoria senza buffer aumenta linearmente.

Wikipedia ne discute: https://en.wikipedia.org/wiki/Memory_rank

Alcuni manuali della scheda madre in realtà richiamano questo genere di cose. Per altri è possibile dedurre le informazioni dagli elenchi di compatibilità RAM. Ad esempio, la scheda madre ASUS Z170-A mostra che il dual rank (chiamato DS = double sided nel manuale) può essere usato solo in due slot contemporaneamente su quel board, al contrario della possibilità di usare quattro DIMM single rank contemporaneamente .

inserisci qui la descrizione dell'immagine


Supponendo che questa sia la causa del problema, sarebbe utile disattivare SPD e modificare le impostazioni di temporizzazione un po 'più lentamente per compensare i tempi di salita / discesa più lenti?
brhans,

1
Non sono sicuro che questo sia effettivamente corretto. I processori Consumer Haswell generalmente supportano quattro ranghi di memoria per canale, il che è sufficiente per consentire quattro moduli a doppia faccia in due canali di memoria. Perché questo dovrebbe essere il problema? Anche questo non sembra spiegare il fatto che i problemi si verificano solo oltre la barriera di 4 GB. Inoltre, il manuale della scheda madre afferma che il chipset B85 sottostante supporta 32 GB di memoria e non menziona alcuna limitazione relativa al numero di ranghi di memoria.
bwDraco,

2
@bwDraco: anche se il controller di memoria è nella CPU, anche la scheda madre è importante. Il layout del PCB può influenzarlo, la corrispondenza della lunghezza non ottimale diminuirà il margine di fase sui segnali (questo è anche il motivo per cui gli errori sono correlati a determinati byte o posizioni di bit). Il fatto che il manuale della scheda madre non parli dei ranghi non significa che tutte le combinazioni sono supportate, significa solo che è un manuale di merda che non va nei dettagli.
Ben Voigt,

1
@brhans: non sono i parametri di temporizzazione che contano, ma la frequenza del clock di memoria, perché il problema è nel trasferimento tra CPU e DIMM, non interno alla DRAM. SPD di solito ha un numero di profili corrispondenti a diverse frequenze di clock, sceglierne uno diverso sarebbe meglio che andare completamente in manuale.
Ben Voigt,

1
Sicuramente sembra un problema di integrità del segnale della scheda madre. I moduli più grandi potrebbero avere una capacità per pin maggiore rispetto ai moduli più piccoli, soprattutto se i moduli stessi sono a doppio rango. Ciò potrebbe causare esattamente questo problema quando si popolano completamente i ranghi. È possibile che un modulo abbia più di un rango. Quindi quattro ranghi per canale potrebbero facilmente essere due moduli ad alta densità a doppio rango. Ciò potrebbe essere esacerbato dalle caratteristiche elettriche e dall'instradamento delle tracce sulla scheda madre. Il mio consiglio: prova un'altra scheda madre.
alex.forencich,

9

Sembra un problema nel controller di memoria integrato del processore .

Nei sistemi moderni, le schede madri non svolgono davvero un ruolo nella gestione della memoria oltre a fornire un percorso tra i moduli di memoria e il processore. La memoria è direttamente collegata al processore per ridurre al minimo la latenza; il " northbridge " che collega la memoria al processore nei sistemi più vecchi fa ora parte del processore stesso. (Il firmware o PCH può controllare il modo in cui il processore esegue la RAM, ma non ha senso che provochi errori del tipo che descrivi in ​​quanto è in definitiva la responsabilità del processore.) Quindi, la prima cosa che d sospetto in una situazione come questa è un IMC difettoso.

In effetti, sarei molto sorpreso se la scheda madre o il firmware di sistema fossero responsabili dei problemi che stai riscontrando.


Che dire di un perno piegato?
Michael Hampton,

6
@Michael: un pin piegato comporterebbe errori anche nel test dei singoli moduli.
Ben Voigt,

4

Vedo alcune recensioni negative per il BIOS su quella scheda madre. Vorrei iniziare controllando un aggiornamento del BIOS. Non lesinare mai sulla scheda madre.


BIOS è aggiornato. Certo, la RAM non è nella lista "qualificata", ma ha gli stessi tempi di molti altri moduli elencati lì.
fdmillion,

Vorrei cercare di sostituire la scheda madre allora. Non deve essere al top della gamma, basta iniziare con una fascia di prezzo che puoi permetterti e cercare quelli con il maggior numero di recensioni (leggi anche queste). Quelli con la più grande base di utenti hanno molte più probabilità di avere un supporto a lungo termine per gli aggiornamenti del BIOS e del chipset.
Atoadaso,

Hai verificato se quella scheda madre è anche in grado di gestire correttamente 32 GB di memoria contemporaneamente? Inoltre, è possibile trovare il chip del gestore della memoria sulla scheda madre e cercare la quantità di memoria che dovrebbe essere gestita correttamente.
Miglia

1

È possibile che anche la RAM sia difettosa, anche se potrebbe non sembrare. Ho avuto un recente problema con il mio server di casa che comportava un incidente fatale con del tè freddo ...

Ho attraversato l'intero processo di sostituzione di ciascuna parte singolarmente (2 CPU, mobo, alimentatore e 2 banchi di RAM da 16 GB (2x8 GB)) e tutto è stato testato bene quando ho usato un solo banco di RAM con una singola CPU (tranne per 1 CPU che era toast).

Non importava quale configurazione avessi usato, funzionava sempre quando avevo una singola CPU e un banco di RAM (che fosse 16 GB o 32 GB di RAM), ma quando inserivo la seconda CPU e dividevo la RAM in modo che fosse 16 GB per banca, il server non è stato avviato.

Non è stato fino a quando non ho sostituito completamente un banco di RAM che si è avviato e funzionato correttamente, e da allora è stato.

tl; dr : Come affermato da @moab nel suo commento, non puoi mai dirlo con certezza fino a quando non testerai tutti i componenti di un sistema compatibile

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.