La mia GPU sta morendo?


14

Disattivo temporaneamente la protezione della memoria ECC su un NVIDIA K20m (dispositivo 0 nel mio nodo) e ora non riesco a riportarlo al lavoro. Prima funzionava correttamente con ECC abilitato. Quindi, ecco cosa ho fatto: ho disabilitato ECC con

nvidia-smi -i 0 --ecc-config=0

e riavviato. Quando è arrivato ha mostrato un utilizzo della GPU al 100% e non ha avviato alcun kernel (in realtà ha già fallito durante la creazione del contesto). Il motivo è stato un errore a doppio bit. L'ho resettato con

nvidia-smi -i 0 --reset-ecc-errors=0

e riavviato il nodo. Dopo il riavvio l'utilizzo del dispositivo è stato dello 0% e ho potuto iniziare i lavori come al solito. Alcune ore dopo il dispositivo ha mostrato di nuovo un utilizzo della GPU al 100%. Questa volta non ha segnalato un errore a doppio bit (nemmeno un errore a singolo bit). Tuttavia, poiché non sono riuscito a eseguire alcun lavoro, ho riavviato il nodo e mi è venuto in mente un utilizzo della GPU al 100%, non posso usarlo, ma non riporta errori di bit. Qual è il problema, vero?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
sembra strano; mai notato niente del genere. Anche se potrebbe non aiutare a risolvere il problema, provare a reinstallare i driver, forse?
Ben Franchuk,

Immagino che tu abbia già provato l'ovvio di scartare e reinstallare tutto? Voglio dire, uhm, so poco dell'hardware, quindi il mio approccio è sempre quello di assicurarmi che il software - quello che capisco - dovrebbe funzionare. E poi probabilmente dichiarerò il pezzo rotto fino a quando non sarà contraddetto da un'opinione più consapevole.
Ariane,

L'ho esaminato e ho trascorso un po 'di tempo a ricercare questo problema e le sue cause. Sembra che la soluzione migliore sia quella di sostituire l'hardware.
Adovi,

1
Hai già provato a ripristinare CMOS?
Sergei

Risposte:


2

La mia GPU sta morendo?

Dico che è già morto. Non segnala più errori di bit perché hai disattivato la cosa che li rileva. (L'ECC rileva più di quanto possa correggere.) Tuttavia, potrebbe essere la memoria sulla scheda (o la scheda fisica stessa) a causare un errore.

Ci sono altri due sospetti prima di buttarlo nel cestino "riciclo": raffreddamento e alimentazione. Il raffreddamento è abbastanza facile da controllare; potere, non così tanto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.