Significato dell'asse y nel diagramma di dipendenza parziale della foresta casuale


13

Sto usando il RandomForestpacchetto R e sono confuso su come interpretare i valori dell'asse Y nei loro grafici di dipendenza parziale. I documenti di aiuto affermano che la trama è una "rappresentazione grafica dell'effetto marginale di una variabile sulla probabilità della classe". Tuttavia, sono ancora confuso su ciò che rappresenta esattamente l'asse y.

  • In particolare, cosa significano i valori negativi?
  • Cosa significa avere un'influenza negativa sulla previsione accurata della classe?
  • E qual è la caratteristica più importante di queste cifre, è il valore massimo, la forma della tendenza ecc?
  • Riesci a confrontare i grafici parziali con i grafici parziali di altre variabili?
  • In che modo questi grafici potrebbero essere confrontati con le curve di risposta create in Maxent (un software di modellazione della distribuzione)?

Alcuni esempi di grafici di dipendenza parziale

Risposte:


7

Rispondere prima a questi due:

In particolare, cosa significano i valori negativi? Cosa significa avere un'influenza negativa sulla previsione accurata della classe?

Se si esamina la definizione di come viene calcolato il diagramma parziale nella documentazione del pacchetto Foresta casuale , si dice che i grafici mostrano il contributo logit relativo della variabile sulla probabilità della classe dal punto di vista del modello. In altre parole, valori negativi (nell'asse y) indicano che la classe positiva è meno probabile per quel valore della variabile indipendente (asse x) secondo il modello. Allo stesso modo valori positivi indicano che la classe positiva è più probabile per quel valore della variabile indipendente secondo il modello. Chiaramente, zero non implica alcun impatto medio sulla probabilità della classe secondo il modello.

E qual è la caratteristica più importante di queste cifre, è il valore massimo, la forma della tendenza ecc?

Esistono molti approcci diversi per determinare l'importanza delle funzionalità e il valore assoluto massimo è solo una misura semplice. In genere, le persone osservano la forma dei grafici parziali per raccogliere la comprensione di ciò che il modello sta suggerendo in merito alla relazione dalle variabili alle etichette delle classi.

Riesci a confrontare i grafici parziali con i grafici parziali di altre variabili?

La risposta a questo è meno in bianco e nero. Puoi certo guardare l'intervallo dell'asse y per ogni grafico; Se la dipendenza parziale da una variabile è vicina allo zero per l'intero intervallo della variabile, ciò indica che il modello non ha alcuna relazione tra la variabile e l'etichetta della classe. Tornando alla tua domanda, maggiore è l'intervallo, maggiore è l'influenza complessiva, quindi in questo senso possono essere confrontate.

Non ho esperienza con Maxent.


Supponiamo che il modello sia per la classificazione di 2 classi, come determinare quale classe è positiva e quale negativa?
Kumar Vaibhav,

Questa è una buona domanda, dovrai sperimentare e vedere. La documentazione dice a pagina 17 qui che se yè un fattore allora assume che sia un problema di classificazione. Tuttavia, non indica quale fattore verrà mappato sulla classe positiva o negativa. Spero che 1 o vero sia mappato sulla classe positiva e 0, -1, o falso sia mappato sulla classe negativa, ma non lo darei per scontato in R.
Chris A.,

c'è un which.classargomento in partialPlote il valore predefinito è il primo livello di fattore y. Quindi, se il primo livello di yè il caso negativo, allora partialPlotsarà prevedere i casi negativi, che potrebbe non essere quello che ci si aspetta.
qoheleth,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.