Cosa ne pensi dell'applicazione di tecniche di apprendimento automatico, come le foreste casuali o la regressione penalizzata (con penalità L1 o L2, o una loro combinazione) in piccoli studi clinici di esempio quando l'obiettivo è isolare predittori interessanti in un contesto di classificazione? Non è una domanda sulla selezione del modello, né sto chiedendo come trovare stime ottimali di effetto / importanza variabile. Non ho intenzione di fare una forte inferenza, ma solo di utilizzare la modellazione multivariata, evitando quindi di testare ogni predittore contro il risultato di interesse uno alla volta e tenendo conto delle loro interrelazioni.
Mi stavo solo chiedendo se un simile approccio fosse già stato applicato in questo particolare caso estremo, diciamo 20-30 soggetti con dati su 10-15 variabili categoriche o continue. Non è esattamente il caso e penso che il problema qui sia legato al numero di classi che proviamo a spiegare (che spesso non sono ben bilanciate) e al (molto) piccolo n. Sono a conoscenza dell'enorme letteratura su questo argomento nel contesto della bioinformatica, ma non ho trovato alcun riferimento relativo agli studi biomedici con fenotipi misurati psicometricamente (ad esempio, attraverso questionari neuropsicologici).
Qualche suggerimento o suggerimento per documenti pertinenti?
Aggiornare
Sono aperto a qualsiasi altra soluzione per l'analisi di questo tipo di dati, ad esempio l'algoritmo C4.5 o i suoi derivati, i metodi delle regole di associazione e qualsiasi tecnica di data mining per la classificazione supervisionata o semi-supervisionata.