Sono abbastanza nuovo nell'apprendimento automatico, nelle tecniche CART e simili, e spero che la mia ingenuità non sia troppo ovvia.
In che modo Random Forest gestisce strutture dati multilivello / gerarchiche (ad esempio quando l'interazione tra livelli è interessante)?
Cioè, set di dati con unità di analisi a diversi livelli gerarchici ( ad esempio , gli studenti nidificati all'interno delle scuole, con dati sia sugli studenti che sulle scuole).
Ad esempio, si consideri un set di dati multilivello con individui di primo livello ( ad es. , Con dati sul comportamento di voto, dati demografici ecc.) Nidificati all'interno dei paesi di secondo livello (con dati a livello di paese; ad es . Popolazione):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Diciamo che voted
è la variabile risposta / dipendente e le altre sono predittore / variabili indipendenti. In questi tipi di casi, i margini e gli effetti marginali di una variabile (dipendenza parziale) per alcune variabili di livello superiore ( ad es . population
) Per diverse variabili di livello individuale, ecc., Potrebbero essere molto interessanti. In un caso simile a questo, glm
è ovviamente più appropriato - ma quando ci sono molte variabili, interazioni e / o valori mancanti, e / o set di dati su larga scala ecc., glm
Non è così affidabile.
Domande secondarie: Random Forest può gestire esplicitamente questo tipo di struttura di dati in qualche modo? Se utilizzato indipendentemente, che tipo di distorsione introduce? Se Random Forest non è appropriato, esiste qualche altro metodo di tipo ensemble?
(Domanda La foresta casuale sui dati raggruppati è forse simile, ma non risponde davvero a questo.)