Ho letto altri argomenti sui diagrammi di dipendenza parziale e la maggior parte di essi riguarda il modo in cui li complottate con pacchetti diversi, non come interpretarli accuratamente, quindi:
Ho letto e creato un buon numero di grafici di dipendenza parziale. So che misurano l'effetto marginale di una variabile χs sulla funzione ƒS (χS) con l'effetto medio di tutte le altre variabili (χc) dal mio modello. Valori y più alti significano che hanno una maggiore influenza sulla previsione accurata della mia classe. Tuttavia, non sono soddisfatto di questa interpretazione qualitativa.
Il mio modello (foresta casuale) prevede due classi discrete. "Sì alberi" e "Nessun albero". TRI è una variabile che ha dimostrato di essere una buona variabile per questo.
Quello che ho iniziato a pensare è che il valore Y sta mostrando una probabilità per una corretta classificazione. Esempio: y (0.2) sta dimostrando che i valori TRI>> 30 hanno una probabilità del 20% di identificare correttamente una classificazione True Positive.
Dove al contrario
y (-0.2) sta dimostrando che i valori TRI <~ 15 hanno una probabilità del 20% di identificare correttamente una classificazione True Negative.
Le interpretazioni generali che vengono fatte in letteratura sembrerebbero così "I valori maggiori di TRI 30 iniziano ad avere un'influenza positiva per la classificazione nel tuo modello" e basta. Sembra così vago e inutile per una trama che può potenzialmente parlare così tanto dei tuoi dati.
Inoltre, tutti i miei grafici sono compresi tra -1 e 1 nell'intervallo per l'asse y. Ho visto altri grafici che vanno da -10 a 10 ecc. È una funzione di quante classi stai cercando di prevedere?
Mi chiedevo se qualcuno potesse parlare a questo problema. Forse mostrami come dovrei interpretare queste trame o della letteratura che mi può aiutare. Forse sto leggendo troppo in questo?
Ho letto molto attentamente Gli elementi dell'apprendimento statistico: data mining, inferenza e previsione ed è stato un ottimo punto di partenza, ma questo è tutto.