Metodi di ensemble basati su alberi come Random Forest e derivati successivi (ad esempio, foresta condizionale), tutti pretendono di essere utili nei cosiddetti problemi "small n , large p ", per identificare l'importanza della variabile relativa. In effetti, questo sembra essere il caso, ma la mia domanda è fino a che punto può essere portata questa capacità? Si possono avere, diciamo 30 osservazioni e 100 variabili? Qual è il punto di rottura di un simile approccio e esistono delle regole empiriche decenti? Preferirei e accetterei le risposte supportate da collegamenti a prove reali (non congetture), utilizzando set di dati simulati o reali. Non ho trovato molto su quest'ultimo ( qui e qui), quindi i tuoi pensieri / consigli / (sull'argomento) suggerimenti di riferimento sono i benvenuti!