Cosa causa questo? pcieport 0000: 00: 03.0: Errore bus PCIe: AER / Bad TLP


20

Di seguito sono visualizzati messaggi di errore come questi:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Ciò causerà prestazioni degradate anche se sono state (finora) corrette. Ovviamente, questo problema deve essere risolto. Tuttavia, non riesco a trovare molto al riguardo su Internet. (Forse sto cercando nei posti sbagliati.) Ho trovato solo alcuni link che posterò di seguito.

Qualcuno sa di più su questi errori?

È la scheda madre, il Samsung 950 Pro o la GPU (o una combinazione di questi)?

L'hardware è: Asus X99 Deluxe II Samsung 950 Pro NVMe in M2. slot sul mb (che condivide la porta PCIe 3). Nient'altro è collegato alla porta PCIe 3. Una GeForce GTX 1070 nello slot PCIe 1 Core i7 6850K CPU

Un paio di collegamenti che ho trovato menzionano lo stesso hardware (X99 Deluxe II mb e Samsung950 Pro). Sto eseguendo Arch Linux.

Non trovo la stringa "8086: 6f08" in journalctl o in qualsiasi altro posto in cui abbia pensato di cercare finora.

messaggio di errore dispari con nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: la tua scheda è silenziosamente alle prese con i ritrasmissioni TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 Errori del bus PCIe TLP non validi - Forum GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

driver - Errore PCIe nel dmesg log - Chiedi a Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - Errori PCIE - Forum degli sviluppatori NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


ho spostato il mio gtx 710 dallo slot per pc x16 a uno x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

Risposte:


23

Posso fornire almeno alcuni dettagli, anche se non riesco a spiegare completamente cosa succede.

Come descritto ad esempio qui , la CPU comunica con il controller del bus PCIe tramite pacchetti di livelli di transazione (TLP). L'hardware rileva quando ci sono errori e il kernel Linux lo segnala come messaggi.

L'opzione kernel pci=nommconfdisabilita lo spazio di configurazione PCI mappato in memoria, che è disponibile in Linux dal kernel 2.6. Molto approssimativamente, tutti i dispositivi PCI hanno un'area che descrive questo dispositivo (che vedi con lspci -vv) e il metodo originario per accedere a quest'area prevede il passaggio attraverso le porte I / O, mentre PCIe consente di mappare questo spazio in memoria per un accesso più semplice.

Ciò significa che, in questo caso particolare, qualcosa va storto quando il controller PCIe utilizza questo metodo per accedere allo spazio di configurazione di un determinato dispositivo. Potrebbe trattarsi di un bug hardware nel dispositivo, nel controller radice PCIe sulla scheda madre, nell'interazione specifica di questi due o qualcos'altro.

Usando pci=nommconf, si accederà allo spazio di configurazione di tutti i dispositivi nel modo originale e cambiando i metodi di accesso si aggira questo problema. Quindi, se vuoi, è sia risolverlo che reprimerlo.


Posso sapere se è un problema con la mia scheda madre? O il mio problema con la CPU. Devo cambiarli?
user10024395

@ user2675516: non è relativo alla CPU. È un problema del controller radice PCIe (che spesso si trova nel Southbridge) e / o del controller PCIe del dispositivo o della loro interazione. Sì, la sostituzione della scheda madre con una con hardware diverso di solito viene eliminata.
Dirkt

Sono passato da asus e-ws ad asus deluxe, ma il problema persiste ancora. Ecco perché sospetto che sia la CPU. O è perché entrambi sono chipset X99?
user10024395

1
@ user2675516: se il chipset è lo stesso, esp. il controller PCIe, quindi cambiare la scheda madre ovviamente non sarà d'aiuto. Ecco perché ho scritto "scheda madre con hardware diverso ".
Dirkt

il fattore comune per me sembra essere una scheda madre con il chipset X99
MountainX per Monica Cellio

3

L'aggiunta dell'opzione della riga di comando del kernel ha pci=nommconfrisolto il problema per me. Pertanto, suppongo che il problema sia legato alla scheda madre. Succede su tutti i miei computer dotati di scheda madre X99. Non succede sui sistemi Z170 o su qualsiasi altro hardware che possiedo.


1
Ciao, sto affrontando anche questo problema. Posso sapere cosa fa pci-nommconf? Sta solo sopprimendo il problema o risolvendolo?
user10024395

Impossibile confermare - errore su z170i, in esecuzione arch 4.13.12
sitilge

@sitilge - grazie per il tuo commento. Quale marca / modello z170i? Le mie schede madri sono Asus. Uno è X99 Deluxe II
MountainX per Monica Cellio il

È il gioco asus z170i pro.
sitilge,

3

Prova questi passaggi:

  1. cp /etc/default/grub ~/Desktop
  2. Modifica grub. Aggiungi pci=noaeralla fine di GRUB_CMDLINE_LINUX_DEFAULT. La linea sarà così:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Riavvia ora

Ho applicato la tua soluzione ma invece di quella pci=noaerusata pci=nommconfcome suggerito da @dirkt
user3405291

Grazie, pci = noaer ha risolto il mio problema slackware 14.2x64 installato su un laptop hp (l'installazione desktop non presentava affatto questo problema)
John Forkosh,

7
Ti dispiacerebbe elaborare un po '? Cosa fa questa opzione e come prevede che risolva il problema?
Calimo,

Perché non dovresti semplicemente usarlo sudoeditper un editing sicuro? -1 per queste copie qua e là i passaggi sono completi senza senso
LinuxSecurityFreak

4
pci=noaerdisabilita semplicemente la segnalazione errori avanzata. Quindi hai ancora quegli errori, semplicemente non li vedi ...
Dirkt

2

Ottengo gli stessi errori (TLP errato associato al dispositivo 8086: 6f08). Ho X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Questi problemi sembrano essere associati al chipset X99 e al dispositivo M.2, come Samsung Pro.

La scheda madre X99 Deluxe II condivide la larghezza di banda tra lo slot PCIE16_3 e M.2 / U.2. A seguito del commento di @Nic, nel BIOS ho modificato la configurazione dei dispositivi integrati | U.2_2 Larghezza di banda da Auto a U.2_2. Questo ha risolto il problema per me.


Come hai stabilito che è solo quel chipset? Hai provato ogni altro chipset? Si verifica su una vasta gamma di hardware.
doug65536,

2

Ho modificato la configurazione dello slot PCIE16_3 in Bios sul mio x99-E in modo che sia statico impostato sulla modalità x8 invece che su quella predefinita per il supporto del dispositivo M.2. Funziona bene ora senza errori TLP su entrambe le mie schede 1070GTX collegate tramite schede di estensione PCIe da 1x a 16x.

Non ho usato prima la porta 16_3, mi sono trasferito in quello slot per testare ma avevo ancora problemi prima del cambio nel BIOS. Anche cambiato l'impostazione bsleep per tutte le carte a 30 nella configurazione del minatore.

Prima del cambiamento avevo il registro del kernel con errori. Ho anche provato a spegnere e riaccendere il sistema prima e dopo la modifica. Sembra essere abbastanza persistente.


2

Cerca il manuale della scheda madre per "AER". È possibile eliminare l'origine del problema correggendo l'incompatibilità specifica o disabilitando completamente AER. Utilizzalo solo se tutto lo spamming riguarda errori corretti , altrimenti potresti nascondere un problema reale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.