Limiti ai metodi di ensemble basati su alberi in piccoli problemi n, grandi p?


10

Metodi di ensemble basati su alberi come Random Forest e derivati ​​successivi (ad esempio, foresta condizionale), tutti pretendono di essere utili nei cosiddetti problemi "small n , large p ", per identificare l'importanza della variabile relativa. In effetti, questo sembra essere il caso, ma la mia domanda è fino a che punto può essere portata questa capacità? Si possono avere, diciamo 30 osservazioni e 100 variabili? Qual è il punto di rottura di un simile approccio e esistono delle regole empiriche decenti? Preferirei e accetterei le risposte supportate da collegamenti a prove reali (non congetture), utilizzando set di dati simulati o reali. Non ho trovato molto su quest'ultimo ( qui e qui), quindi i tuoi pensieri / consigli / (sull'argomento) suggerimenti di riferimento sono i benvenuti!

Risposte:


3

Sospetto che non ci sarà una risposta definitiva a questa domanda fino a quando non saranno condotti alcuni studi di simulazione. Nel frattempo, ho trovato le foreste casuali di Genuer et al : alcune intuizioni metodologiche hanno aiutato a mettere una prospettiva su questa domanda, almeno in termini di test RF su una varietà di set di dati "low n, high p". Molti di questi set di dati hanno> 5000 predittori e <100 osservazioni !!


3

La modalità di errore che incontrerai è che, con abbastanza caratteristiche casuali, ci saranno caratteristiche relative alla destinazione all'interno dei campioni in sacchi utilizzati per ciascun albero ma non all'interno del set di dati più grande. Un problema simile a quello riscontrato nei test multipli.

Le regole empiriche per questo sono difficili da sviluppare poiché il punto esatto in cui ciò accade dipende dalla quantità di rumore e dall'intensità del segnale nei dati. Esistono anche metodi che affrontano questo problema utilizzando più valori p corretti per il test come criteri di suddivisione, facendo un passo di selezione delle caratteristiche basato sull'importanza variabile e / o il confronto delle importazioni delle caratteristiche con le caratteristiche di contrasto artificiale prodotte dalla permutazione casuale della caratteristica effettiva, uso di out di custodie per sacchetti per validare la selezione divisa e altri metodi Questi possono essere estremamente efficaci.

Ho usato foreste casuali (incluse alcune delle modifiche metodologiche sopra) su set di dati con ~ 1000 casi e 30.000-1.000.000 di funzionalità. (Set di dati nella genetica umana con vari livelli di selezione o ingegneria delle caratteristiche). Possono certamente essere efficaci nel recuperare un segnale forte (o effetto batch) in tali dati, ma non riescono a mettere insieme qualcosa come una malattia con cause eterogenee poiché la variazione casuale di quantità supera ogni segnale


0

Dipenderà anche dal segnale e dal rumore nei dati. Se la tua variabile dipendente è spiegata abbastanza bene da una combinazione delle variabili nel tuo modello di quanto penso tu possa cavartela con un rapporto n / p più basso.

Sospetto che sarà richiesto anche un numero minimo assoluto di n per ottenere un modello decente a parte solo il rapporto.

Un modo per vederlo è che ogni albero è costruito usando circa le variabili SQRT (p) e se quel numero è grande e il numero di punti sono piccoli alberi possono essere montati senza avere davvero un modello reale lì. Quindi molti di questi alberi troppo attrezzati daranno un'importanza variabile falsa.

Di solito, se nel diagramma di importanza variabile, vedo molte variabili principali con quasi lo stesso livello di importanza, concludo che mi dà solo rumore.


Da dove viene lo SQRT (p)?
LauriK,

In RandomForest ogni albero è costruito usando un campione delle variabili. Per impostazione predefinita (almeno nel pacchetto R randomForest) il valore che assume è il numero più vicino minore o uguale a SQRT (p) dove p è il numero di colonne.
DeepakML
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.