Applicazione di tecniche di apprendimento automatico in studi clinici di piccolo campione


15

Cosa ne pensi dell'applicazione di tecniche di apprendimento automatico, come le foreste casuali o la regressione penalizzata (con penalità L1 o L2, o una loro combinazione) in piccoli studi clinici di esempio quando l'obiettivo è isolare predittori interessanti in un contesto di classificazione? Non è una domanda sulla selezione del modello, né sto chiedendo come trovare stime ottimali di effetto / importanza variabile. Non ho intenzione di fare una forte inferenza, ma solo di utilizzare la modellazione multivariata, evitando quindi di testare ogni predittore contro il risultato di interesse uno alla volta e tenendo conto delle loro interrelazioni.

Mi stavo solo chiedendo se un simile approccio fosse già stato applicato in questo particolare caso estremo, diciamo 20-30 soggetti con dati su 10-15 variabili categoriche o continue. Non è esattamente il caso e penso che il problema qui sia legato al numero di classi che proviamo a spiegare (che spesso non sono ben bilanciate) e al (molto) piccolo n. Sono a conoscenza dell'enorme letteratura su questo argomento nel contesto della bioinformatica, ma non ho trovato alcun riferimento relativo agli studi biomedici con fenotipi misurati psicometricamente (ad esempio, attraverso questionari neuropsicologici).np

Qualche suggerimento o suggerimento per documenti pertinenti?

Aggiornare

Sono aperto a qualsiasi altra soluzione per l'analisi di questo tipo di dati, ad esempio l'algoritmo C4.5 o i suoi derivati, i metodi delle regole di associazione e qualsiasi tecnica di data mining per la classificazione supervisionata o semi-supervisionata.


Giusto per essere chiari: la tua domanda riguarda le dimensioni dei dati, non le impostazioni, giusto?
Shane,

Esattamente, mi chiedo se ci sono riferimenti sul "più piccolo" n (scritto con un numero elevato di variabili), o più precisamente se eventuali tecniche di validazione incrociata (o strategia di ricampionamento come nelle RF) rimangono valide in un caso così estremo .
chl

Risposte:


7

Non l'ho mai visto usato al di fuori della bioinformatica / machine learning, ma forse potresti essere il primo :)

Come buon rappresentante del metodo del piccolo campione dalla bioinformatica, la regressione logistica con la regolarizzazione L1 può dare una buona corrispondenza quando il numero di parametri è esponenziale nel numero di osservazioni, gli intervalli di confidenza non asintotici possono essere realizzati usando le disuguaglianze di tipo Chernoff (cioè, Dudik, (2004) per esempio). Trevor Hastie ha svolto alcuni lavori applicando questi metodi per identificare le interazioni genetiche. Nel documento che segue, lo usa per identificare effetti significativi di un modello con 310.637 parametri regolabili adatti a un campione di 2200 osservazioni

"L'analisi dell'associazione a livello del genoma mediante il lazo ha penalizzato la regressione logistica." Autori: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Edizione: 6 ISSN: 1367-4803 Data: 03/2009 Pagine: 714 - 721

Presentazione correlata di Victoria Stodden ( Selezione del modello con molte più variabili delle osservazioni )


Sì, il Wu et al. Il 2009 è un bel documento. Per inciso, ho lavorato su GWAS e ML negli ultimi due anni; ora sto cercando di tornare agli studi clinici in cui la maggior parte delle volte dobbiamo fare i conti con misurazioni imperfette, dati mancanti e, naturalmente, molte variabili interessanti dal punto di vista del fisico!
chl

A proposito, mi sono appena imbattuto in un documento che mi ha fatto pensare a questa domanda ... è molto raro che i documenti di Machine Learning parlino degli intervalli di confidenza, ma ecco una notevole eccezione ncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov

nnpnp

Questa è una domanda molto interessante Ho raccolto alcuni di questi e altri articoli che ho in un post sul blog (spero non ti dispiaccia). Sono sicuro che ce ne sono altri là fuori.
Andrew,

5

Avrei poca fiducia nella generalizzabilità dei risultati di un'analisi esplorativa con 15 predittori e una dimensione del campione di 20.

  • Gli intervalli di confidenza delle stime dei parametri sarebbero ampi. Ad esempio, l'intervallo di confidenza al 95% su r = .30 con n = 20 è compreso tra -0,17 e 0,66.
  • I problemi tendono ad essere aggravati quando si utilizzano più predittori in modo esplorativo e basato sui dati.

In tali circostanze, il mio consiglio sarebbe generalmente di limitare le analisi alle relazioni bivariate. Se prendi una prospettiva bayesiana, direi che le tue aspettative precedenti sono ugualmente se non più importanti dei dati.


4

Una regola pratica comune è di avere almeno 10 volte il numero di istanze dei dati di allenamento (per non parlare di dati di test / validazione, ecc.) In quanto vi sono parametri regolabili nel classificatore. Tieni presente che hai un problema in cui è necessario non solo disporre di dati adeguati , ma anche di dati rappresentativi . Alla fine, non esiste una regola sistematica perché ci sono così tante variabili quando si prende questa decisione. Come dicono Hastie, Tibshirani e Friedman in The Elements of Statistical Learning (vedere il capitolo 7):

è troppo difficile dare una regola generale sulla quantità di dati di allenamento sufficienti; tra le altre cose, ciò dipende dal rapporto segnale-rumore della funzione sottostante e dalla complessità dei modelli che si adattano ai dati.

Se sei nuovo in questo campo, ti consiglio di leggere questo breve documento "Pattern Recognition" dall'Enciclopedia di ingegneria biomedica che fornisce un breve riassunto di alcuni dei problemi relativi ai dati.


Grazie! Ho il libro di Hastie e quello di C. Bishop (Pattern Recognition and Machine Learning). So che una così piccola n porterebbe ad un'associazione spuria o inaffidabile (vedi il commento di Jeromy Anglim). Tuttavia, l'algoritmo RF implementato da Breiman consente di far fronte a un numero limitato di funzioni ogni volta che viene cresciuto un albero (nel mio caso, 3 o 4) e sebbene il tasso di errore OOB sia piuttosto elevato (ma questo dovrebbe essere previsto), analizzando L'importanza variabile mi porta a concludere che avrei raggiunto conclusioni simili usando i test bivariati (con test di permutazione).
chl

1
Questa regola empirica si applica principalmente a metodi classici come la massima probabilità regolarizzata l2, i metodi regolarizzati L1 possono apprendere in modo efficace quando il numero di parametri regolabili è esponenziale nel numero di osservazioni (cioè Miroslav Dudik, carta COLT del 2004)
Yaroslav Bulatov

3

Posso assicurarvi che RF funzionerebbe in quel caso e la sua misura di importanza sarebbe piuttosto perspicace (perché non ci sarà una grande coda di attributi fuorvianti non importanti come negli standard (n << p) s). Non ricordo ora nessun documento che affronti un problema simile, ma lo cercherò.


1
Grazie! Stavo partecipando alla IV conferenza EAM-SMABS il mese scorso e uno degli oratori ha presentato un'applicazione di ML in uno studio biomedico; sfortunatamente, questo era uno studio un po '"standard" con soggetti N ~ 300 e predittori p = 10. Sta per presentare un documento a Statistics in Medicine . Quello che sto cercando sono semplicemente articoli / riferimenti scritti. studio clinico standard con, ad esempio, ambulatoriali, in cui la generalizzabilità dei risultati non è un problema.
chl

Hai trovato qualche documento finalmente?
chl

@chl Non ancora; ma grazie per il promemoria.

Non c'è fretta :) Non ho trovato nulla di interessante da solo; forse Pubmed non è il motore di ricerca giusto per questo caso particolare ...
chl

@chl Questo è anche il mio problema qui. Sembra davvero che n << p sia diventato sinonimo di dati biomed.

0

Se si dispone di input discreti, sto scrivendo un programma per prevedere i valori mancanti di un input binario, dati gli input precedenti. Qualsiasi categoria, ad esempio "1 di 6", può essere convertita in bit binari e funzionerà perfettamente; non lo influenzerà.

Lo scopo dell'algoritmo che sto scrivendo è quello di imparare il più velocemente matematicamente possibile. Di conseguenza ha una complessità temporale e spaziale molto scarsa (complessità spaziale attorno a O (4 ^ N) !.

Ma per questo ottieni essenzialmente un apprendimento una tantum, per qualsiasi sistema il cui stato può essere espresso come un bit vettore. Ad esempio, un full-adder ha 8 stati di input distinti. L'algoritmo imparerà perfettamente un sommatore completo dopo solo 8 distinti campioni di addestramento. Non solo, ma puoi quindi dargli la risposta e fargli prevedere la domanda, oppure dargli parte della risposta e parte della domanda e fargli compilare il resto.

Se i dati di input hanno molti bit, saranno piuttosto calcolatori e dispendiosi in termini di memoria. Ma se hai pochissimi campioni, o almeno l'obiettivo di progettazione è, ti darà quasi le migliori previsioni possibili.

Lo si allena semplicemente con vettori di bit, incluso un vettore di bit di cui i bit sono sconosciuti. Per ottenere una previsione, allo stesso modo devi solo dargli un po 'di vettore, quali bit sono sconosciuti e quali bit vuoi che preveda.

Codice sorgente disponibile qui: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.