interpretazione dell'asse y di un diagramma di dipendenza parziale


22

Ho letto altri argomenti sui diagrammi di dipendenza parziale e la maggior parte di essi riguarda il modo in cui li complottate con pacchetti diversi, non come interpretarli accuratamente, quindi:

Ho letto e creato un buon numero di grafici di dipendenza parziale. So che misurano l'effetto marginale di una variabile χs sulla funzione ƒS (χS) con l'effetto medio di tutte le altre variabili (χc) dal mio modello. Valori y più alti significano che hanno una maggiore influenza sulla previsione accurata della mia classe. Tuttavia, non sono soddisfatto di questa interpretazione qualitativa.

Questo link mostra una delle mie tante trame.  http://imgur.com/RXqlOky

Il mio modello (foresta casuale) prevede due classi discrete. "Sì alberi" e "Nessun albero". TRI è una variabile che ha dimostrato di essere una buona variabile per questo.

Quello che ho iniziato a pensare è che il valore Y sta mostrando una probabilità per una corretta classificazione. Esempio: y (0.2) sta dimostrando che i valori TRI>> 30 hanno una probabilità del 20% di identificare correttamente una classificazione True Positive.

Dove al contrario

y (-0.2) sta dimostrando che i valori TRI <~ 15 hanno una probabilità del 20% di identificare correttamente una classificazione True Negative.

Le interpretazioni generali che vengono fatte in letteratura sembrerebbero così "I valori maggiori di TRI 30 iniziano ad avere un'influenza positiva per la classificazione nel tuo modello" e basta. Sembra così vago e inutile per una trama che può potenzialmente parlare così tanto dei tuoi dati.

Inoltre, tutti i miei grafici sono compresi tra -1 e 1 nell'intervallo per l'asse y. Ho visto altri grafici che vanno da -10 a 10 ecc. È una funzione di quante classi stai cercando di prevedere?

Mi chiedevo se qualcuno potesse parlare a questo problema. Forse mostrami come dovrei interpretare queste trame o della letteratura che mi può aiutare. Forse sto leggendo troppo in questo?

Ho letto molto attentamente Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione ed è stato un ottimo punto di partenza, ma questo è tutto.


La trama mostra in media la probabilità dell'albero sì fino al TRI 30 e aumenta successivamente. Questo collegamento spiega come interpretare la classificazione binaria PDP e i grafici variabili continui.
LazyNearestNeigbour,

Risposte:


13

Ogni punto nel diagramma della dipendenza parziale è la percentuale media di voti a favore della classe "Sì alberi" in tutte le osservazioni, dato un livello fisso di TRI.

Non è una probabilità di una corretta classificazione. Non ha assolutamente nulla a che fare con l'accuratezza, i veri negativi e i veri positivi.

Quando vedi la frase

I valori superiori a TRI 30 iniziano a influenzare positivamente la classificazione nel modello

è un modo gonfio di dire

I valori maggiori di TRI 30 iniziano a prevedere "Sì alberi" più fortemente dei valori inferiori a TRI 30


2

La funzione di dipendenza parziale fornisce sostanzialmente la tendenza "media" di quella variabile (integrando tutte le altre nel modello). È la forma di quella tendenza che è "importante". È possibile interpretare l'intervallo relativo di questi grafici da diverse variabili predittive, ma non l'intervallo assoluto. Spero che sia d'aiuto.


2

Un modo per esaminare i valori dell'asse y è che sono relativi tra loro negli altri grafici. Quando quel numero è maggiore rispetto agli altri grafici in valori assoluti, significa che è più importante perché l'impatto di quella variabile sull'output è maggiore.

Se sei interessato alla matematica dietro i diagrammi di dipendenza parziale e al modo in cui quel numero è stimato, puoi trovarlo qui: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf sezione 8.1

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.