Per quello che vale:
entrambi rpart
e ctree
ricorsivamente eseguono divisioni univariate della variabile dipendente in base a valori su un insieme di covariate. rpart
e gli algoritmi correlati di solito impiegano misure informative (come il coefficiente di Gini ) per selezionare l'attuale covariata.
ctree
, secondo i suoi autori (vedi i commenti di chl ) evita il seguente bias di selezione delle variabili di rpart
(e metodi correlati): Tendono a selezionare variabili che hanno molte possibili divisioni o molti valori mancanti. A differenza degli altri, ctree
utilizza una procedura di test di significatività per selezionare le variabili anziché selezionare la variabile che massimizza una misura di informazione (ad es. Coefficiente di Gini).
Il test di significatività, o meglio: i test di significatività multipla calcolati ad ogni inizio dell'algoritmo (seleziona covariata - scegli suddivisione - recurse) sono test di permutazione , cioè la "distribuzione della statistica test sotto l'ipotesi nulla si ottiene calcolando tutti i possibili valori della statistica di prova in base ai riordini delle etichette sui punti dati osservati. " (dall'articolo di Wikipedia).
Ora per la statistica del test: viene calcolata dalle trasformazioni (inclusa l'identità, cioè nessuna trasformazione) della variabile dipendente e delle covariate. Puoi scegliere una delle numerose trasformazioni per entrambe le variabili. Per la DV (Variabile dipendente), la trasformazione è chiamata la funzione di influenza di cui stavi chiedendo.
Esempi (prelevate dalla carta ):
- se sia DV che covariate sono numerici, è possibile selezionare le trasformazioni dell'identità e calcolare le correlazioni tra la covariata e tutte le possibili permutazioni dei valori del DV. Quindi, si calcola il valore p da questo test di permutazione e lo si confronta con i valori p per altre covariate.
- se sia DV che le covariate sono nominali (non ordinate categoriche), la statistica del test viene calcolata da una tabella di contingenza.
- puoi facilmente compilare altri tipi di statistiche di test da qualsiasi tipo di trasformazione (inclusa la trasformazione dell'identità) da questo schema generale.
piccolo esempio per un test di permutazione in R
:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
Supponiamo ora di avere una serie di covariate, non solo una come sopra. Quindi calcola i valori di p per ciascuna delle covariate come nello schema sopra e seleziona quello con il valore di p più piccolo . Volete calcolare i valori p invece delle correlazioni direttamente, perché potreste avere covariate di diverso tipo (ad es. Numerico e categorico).
Dopo aver selezionato una covariata, ora esplora tutte le possibili divisioni (o spesso un numero in qualche modo limitato di tutte le possibili divisioni, ad esempio richiedendo un numero minimo di elementi del DV prima della divisione) valutando nuovamente un test basato sulla permutazione.
ctree
viene fornito con una serie di possibili trasformazioni sia per DV che per covariate (consultare la guida Transformations
nel party
pacchetto).
così generalmente la differenza principale sembra essere quella che ctree
utilizza uno schema di selezione della covariata che si basa sulla teoria statistica (cioè selezione mediante test di significatività basati sulla permutazione) e quindi evita un potenziale pregiudizio rpart
, altrimenti sembrano simili; ad esempio gli alberi di inferenza condizionale possono essere usati come apprendenti di base per le foreste casuali.
Questo è quanto posso. Per ulteriori informazioni, devi davvero leggere i documenti. Nota che ti consiglio vivamente di sapere davvero cosa stai facendo quando desideri applicare qualsiasi tipo di analisi statistica.