Esiste un'implementazione della foresta casuale R che funziona bene con dati molto sparsi? Ho migliaia o milioni di variabili di input booleane, ma solo centinaia o giù di lì saranno VERE per ogni dato esempio.
Sono relativamente nuovo su R e ho notato che esiste un pacchetto "Matrix" per gestire dati sparsi, ma il pacchetto standard "randomForest" non sembra riconoscere questo tipo di dati. Se è importante, i dati di input verranno prodotti al di fuori di R e importati.
Qualche consiglio? Posso anche esaminare l'utilizzo di Weka, Mahout o altri pacchetti.