CHAID vs CRT (o CART)


23

Sto eseguendo una classificazione dell'albero decisionale utilizzando SPSS su un set di dati con circa 20 predittori (categorico con poche categorie). CHAID (Rilevazione automatica dell'interazione Chi-quadrato) e CRT / CART (alberi di classificazione e regressione) mi danno alberi diversi. Qualcuno può spiegare i meriti relativi di CHAID vs CRT? Quali sono le implicazioni dell'uso di un metodo rispetto all'altro?

Risposte:


23

Elencherò alcune proprietà e in seguito ti darò la mia valutazione per ciò che vale:

  • CHAID utilizza le suddivisioni multiway per impostazione predefinita (le suddivisioni multiway indicano che il nodo corrente è suddiviso in più di due nodi). Questo può o non può essere desiderato (può portare a segmenti migliori o interpretazione più facile). Ciò che fa sicuramente, tuttavia, è ridurre la dimensione del campione nei nodi e quindi portare ad alberi meno profondi. Se utilizzato a fini di segmentazione, questo può fallire non appena CHAID necessita di campioni di grandi dimensioni per funzionare correttamente. CART esegue suddivisioni binarie (ogni nodo è diviso in due nodi secondari) per impostazione predefinita.
  • CHAID ha lo scopo di lavorare con obiettivi categorici / discretizzati (XAID era per la regressione ma forse sono stati uniti da allora). CART può sicuramente fare regressione e classificazione.
  • CHAID utilizza un'idea di pre-potatura . Un nodo viene diviso solo se viene soddisfatto un criterio di significatività. Ciò si ricollega al precedente problema di necessità di campioni di grandi dimensioni poiché il test Chi-Square ha solo poca potenza in piccoli campioni (che è effettivamente ridotto ulteriormente con una correzione Bonferroni per test multipli). D'altra parte, il CARRELLO fa crescere un grande albero e poi pota l'albero nuovamente in una versione più piccola.
  • Pertanto CHAID cerca di prevenire il sovradimensionamento sin dall'inizio (l'unica divisione è che esiste un'associazione significativa), mentre il CART può facilmente sovrautilizzare a meno che l'albero non venga potato indietro. D'altra parte, ciò consente a CART di funzionare meglio di CHAID dentro e fuori dal campione (per una data combinazione di parametri di accordatura).
  • La differenza più importante secondo me è che la selezione di variabili divise e punti di divisione in CHAID è meno fortemente confusa come in CART . Ciò è in gran parte irrilevante quando gli alberi sono usati per la predizione, ma è un problema importante quando gli alberi sono usati per l'interpretazione: Un albero che ha quelle due parti dell'algoritmo altamente confuse si dice che sia "distorto nella selezione variabile" (un nome sfortunato) . Ciò significa che la selezione delle variabili divise preferisce le variabili con molte divisioni possibili (ad esempio predittori di metriche). CART è altamente "di parte" in questo senso, CHAID non tanto.
  • Con le suddivisioni surrogate CART sa come gestire i valori mancanti (suddivisioni surrogate significa che con i valori mancanti (NA) per le variabili predittive l'algoritmo utilizza altre variabili predittive che non sono "buone" come la variabile divisa primaria ma imitano le divisioni prodotte dal primario splitter). CHAID non ha nulla del genere.

Quindi, a seconda di cosa ne hai bisogno, suggerirei di usare CHAID se il campione è di qualche dimensione e gli aspetti dell'interpretazione sono più importanti. Inoltre, se si desiderano spaccature a più vie o alberi più piccoli CHAID è meglio. CART, d'altra parte, è una macchina di previsione ben funzionante, quindi se la previsione è il tuo obiettivo, sceglierei CART.


1
(+1). Bella panoramica. Potresti spiegare cosa sono le "spaccature multiway" e le "spaccature surrogate"? Le divisioni multiway sono se non sono dicotomiche?
COOLSerdash l'

1
@Momo: grazie mille per la risposta aggiornata. Per quanto riguarda le divisioni a più vie, ho trovato la seguente interessante dichiarazione di Hastie et al. (2013) Gli elementi dell'apprendimento statistico : "[...] Sebbene questa [suddivisione a più vie] possa talvolta essere utile, non è una buona strategia generale. [...] Poiché le divisioni a più vie possono essere ottenute da una serie di binari si divide, quest'ultimo è preferito. " Mi chiedo se sia davvero così preciso come affermano (non ho molta esperienza con l'apprendimento automatico) ma d'altra parte, il loro libro è considerato un riferimento.
COOLSerdash

Sì, una serie di divisioni binarie può essere uguale alle divisioni a più vie. Possono anche essere diversi. Tendo ad essere d'accordo con l'affermazione. Un'altra cosa da notare è che la ricerca di punti di divisione con una ricerca esaustiva è algoritmicamente più semplice e veloce per le divisioni binarie di un dato nodo.
Momo,

Risposta molto completa. Ho usato CHAID in una ricerca con oltre 100.000 database. A questo livello, la classificazione è molto precisa, ma consiglio di provare alcune volte con diversi numeri di partizioni e livelli meno profondi dell'albero (il software SPSS consente di determinare precedentemente questi parametri). Questo perché CHAID genera alberi di classificazione con diversi grup (multisplit) e molto peggio se il database è grande. L'albero finale potrebbe essere enorme. Infine, non dimenticare di utilizzare il "controllo interno" della divisione di esempio del database. Vedi anche il manuale degli alberi di classificazione SPSS disponibile su goo
user35523

Che dire di QUEST ??
Madhu Sareen,

8

Tutti i metodi a albero singolo comportano un numero impressionante di confronti multipli che portano grande instabilità al risultato. Ecco perché per ottenere una discreta discriminazione predittiva è necessaria una qualche forma di media degli alberi (insaccamento, potenziamento, foreste casuali) (tranne per il fatto che si perde il vantaggio degli alberi - interpretabilità). La semplicità dei singoli alberi è in gran parte un'illusione. Sono semplici perché hanno torto nel senso che addestrare l'albero a più grandi sottoinsiemi di dati rivelerà un grande disaccordo tra le strutture ad albero.

Non ho esaminato alcuna metodologia CHAID recente, ma CHAID nella sua incarnazione originale è stato un grande esercizio di interpretazione eccessiva dei dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.