Una discussione più definitiva sulla selezione delle variabili


55

sfondo

Sto facendo ricerche cliniche in medicina e ho seguito numerosi corsi di statistica. Non ho mai pubblicato un articolo usando la regressione lineare / logistica e vorrei fare correttamente la selezione delle variabili. L'interpretazione è importante, quindi nessuna tecnica di apprendimento automatico sofisticata. Ho riassunto la mia comprensione della selezione delle variabili: qualcuno si preoccuperebbe di fare luce su idee sbagliate? Ho trovato due (1) post CV simili (2 ) simili a questo, ma non hanno risposto del tutto alle mie preoccupazioni. Ogni pensiero sarebbe molto apprezzato! Ho 3 domande principali alla fine.

Problema e discussione

Il mio tipico problema di regressione / classificazione ha 200-300 osservazioni, un tasso di eventi avversi del 15% (se la classificazione) e informazioni su 25 su 40 variabili che hanno affermato di avere un effetto "statisticamente significativo" in letteratura o di rendere plausibile senso dalla conoscenza del dominio.

Metto "statisticamente significativo" tra virgolette, perché sembra che tutti e la loro madre usino la regressione graduale, ma a Harrell (3) e Flom (4) non sembrano piacere per una serie di buoni motivi. Ciò è ulteriormente supportato da una discussione post sul blog Gelman (5). Sembra che l'unico momento reale che sia graduale sia accettabile se questa è veramente un'analisi esplorativa, o se uno è interessato alla previsione e ha uno schema di convalida incrociata. Soprattutto dal momento che molte comorbidità mediche soffrono di collinearità E gli studi soffrono di piccole dimensioni del campione, la mia comprensione è che ci saranno molti falsi positivi in ​​letteratura; questo mi rende anche meno propenso a fidarmi della letteratura per includere potenziali variabili.

Un altro approccio popolare è utilizzare una serie di regressioni / associazioni univariate tra predittori e variabili indipendenti come punto di partenza. sotto una determinata soglia (diciamo, p <0,2). Ciò sembra errato o almeno fuorviante per i motivi indicati in questo post StackExchange (6).

Infine, un approccio automatizzato che appare popolare nell'apprendimento automatico è l'uso della penalizzazione come L1 (Lazo), L2 (Ridge) o L1 + L2 combo (Elastic Net). La mia comprensione è che questi non hanno le stesse interpretazioni facili di OLS o regressione logistica.

Gelman + Hill propone quanto segue:

Gelman

Nel mio corso di Statistica, ricordo anche di aver usato i test F o Analysis of Deviance per confrontare i modelli completi e nidificati per fare la selezione del modello / variabile variabile per variabile. Questo sembra ragionevole, ma adattando sistematicamente modelli nidificati sequenziali per trovare variabili che causano il più grande calo di devianza per df sembra che possa essere facilmente automatizzato (quindi sono un po 'preoccupato) e sembra anche che soffra di problemi nell'ordine in cui si verifica l'inclusione variabile. La mia comprensione è che questo dovrebbe essere integrato anche studiando la multicollinearità e i grafici residui (residuo vs previsto).

Domande:

  1. Il riassunto di Gelman è la strada da percorrere? Cosa vorresti aggiungere o modificare nella sua strategia proposta?

  2. A parte il semplice pensiero di potenziali interazioni e trasformazioni (che sembra molto incline / errore / omissione), c'è un altro modo per scoprire quelle potenziali? La spline di regressione adattativa multivariata (MARS) mi è stata raccomandata, ma sono stato informato che le non linearità / trasformazioni non si traducono nelle stesse variabili in un modello di regressione standard.

  3. Supponiamo che il mio obiettivo sia molto semplice: dì "Vorrei stimare l'associazione di X1 su Y, tenendo conto solo di X2". È sufficiente regredire semplicemente Y ~ X1 + X2, riportare il risultato, senza riferimento all'effettiva capacità predittiva (come potrebbe essere misurato mediante RMSE di convalida incrociata o misure di precisione)? Questo cambia a seconda della frequenza degli eventi o della dimensione del campione o se R ^ 2 è super basso (sono consapevole che R ^ 2 non è buono perché puoi sempre aumentarlo con un overfitting)? Sono generalmente più interessato all'inferenza / interpretabilità che all'ottimizzazione del potere predittivo.

Conclusioni di esempio:

  1. "Controllando per X2, X1 non era statisticamente significativamente associato con Y rispetto al livello di riferimento di X1." (coefficiente di regressione logistica)
  2. "X1 non era un predittore statisticamente significativo di Y poiché nel modello il calo della devianza non era abbastanza rispetto al cambiamento di df." (Analisi della devianza)

La convalida incrociata è sempre necessaria? Nel qual caso, si potrebbe anche voler fare un po 'di bilanciamento delle classi tramite SMOTE, campionamento, ecc.



6
Il fatto che qualcosa possa essere automatizzato (al momento - prima dell'avvento di un'intelligenza artificiale intensa) mi colpisce come un'aringa rossa.
gung - Ripristina Monica

7
+1 per una domanda molto ponderata. Una cosa che dimostra la tua recensione è che non esiste una ricetta standard o un libro di cucina per la selezione delle variabili. Ognuno ha un approccio diverso e un insieme di pratiche "migliori". Quindi, c'è un'importantissima distinzione tra un modello teorico o di popolazione rispetto a un modello guidato empiricamente: questi diversi quadri raramente si allineano ed è facile confonderli. La tua preoccupazione di "perdere" qualcosa non è infondata, ma la realtà è che una risposta conclusiva, inequivocabile, semplicemente non esiste. Gli approcci che hai esaminato sono ampiamente documentati, scegline uno
Mike Hunter,

4
Harrell, Flom e Kolassa; è deciso allora.
gung - Ripristina Monica

4
Re Gelman & Hill's 4 (b): Harrell, RMS 1st edn, p60: "Un problema finale con la selezione variabile viene illustrato confrontando questo approccio [sc. Stepwise] con il modo sensato in cui molti economisti sviluppano modelli di regressione. Gli economisti usano spesso la strategia di eliminare solo quelle variabili che sono insignificanti e i cui coefficienti di regressione hanno una direzione insensibile ". E mi sembra di ricordare che Steyerberg avrebbe scritto un articolo su di esso. [Proverà a trovare il rif. quando avrò occasione.]
Scortchi - Reinstalla Monica

Risposte:


46

Andrew Gelman è sicuramente un nome rispettato nel mondo statistico. I suoi principi si allineano strettamente con alcune delle ricerche sulla modellistica causale condotte da altri "grandi nomi" nel settore. Ma penso che dato il tuo interesse per la ricerca clinica, dovresti consultare altre fonti.

Sto usando la parola "causale" liberamente (come fanno gli altri) perché c'è una linea sottile che dobbiamo tracciare tra l'esecuzione di "inferenza causale" da dati osservativi e l'affermazione di relazioni causali tra variabili. Siamo tutti d'accordo sul fatto che gli RCT sono il modo principale di valutare la causalità. Raramente ci adattiamo a qualsiasi cosa in tali prove per ipotesi di randomizzazione, con poche eccezioni ( Senn, 2004 ). Gli studi osservazionali hanno la loro importanza e utilità ( Weiss, 1989 ) e l'approccio controfattuale basato sul fare inferenza dai dati osservativi è accettato come approccio filosoficamente valido per farlo ( Höfler, 2005 ). Si avvicina spesso molto attentamente all'efficacia d'uso misurata negli studi randomizzati ( Anglemyer, 2014 ).

Pertanto, mi concentrerò sugli studi dai dati osservativi. Il mio punto di contesa con le raccomandazioni di Gelman è: tutti i predittori in un modello e la loro relazione causale ipotizzata tra una singola esposizione di interesse e un singolo risultato di interesse dovrebbero essere specificati a priori . Gettare ed escludere le covariate in base alla loro relazione tra una serie di scoperte principali sta effettivamente inducendo un caso speciale di "griglia statistica di Munchausen" ( Martin, 1984 ). Alcune riviste (e la tendenza sta prendendo piede ) rifiuteranno sommariamente qualsiasi articolo che utilizza la regressione graduale per identificare un modello finale ( Babyak, 2004 ), e penso che il problema sia visto in modo simile qui.

La logica dell'inclusione e dell'esclusione delle covariate in un modello è discussa in: Judus Pearl's Causality ( Pearl, 2002 ). È forse uno dei migliori testi in circolazione per comprendere i principi dell'inferenza statistica, della regressione e dell'adeguamento multivariato. Anche praticamente qualsiasi cosa di Sanders e Groenlandia è illuminante, in particolare la loro discussione sul confondimento che è stato purtroppo omesso da questo elenco di raccomandazioni ( Groenlandia et al. 1999). Alle covariate specifiche possono essere assegnate etichette basate su una relazione grafica con un modello causale. Designazioni come variabili prognostiche, confondenti o di precisione giustificano l'inclusione come covariate nei modelli statistici. I mediatori, i collider o le variabili oltre il percorso causale dovrebbero essere omessi. Le definizioni di questi termini sono rese rigorose con numerosi esempi di causalità.

Dato questo piccolo sfondo, affronterò i punti uno per uno.

  1. Questo è generalmente un approccio valido con un avvertimento MAJOR: queste variabili NON devono essere mediatori del risultato. Se, ad esempio, stai ispezionando la relazione tra fumo e forma fisica e ti adegui alla funzione polmonare, questo sta attenuando l'effetto del fumo perché il suo impatto diretto sulla forma fisica è quello di ridurre la funzione polmonare. Questo NON dovrebbeessere confuso con confusione laddove la terza variabile è causale del predittore di interesse E del risultato di interesse. I confonditori devono essere inclusi nei modelli. Inoltre, l'eccessiva regolazione può causare più forme di errore nelle analisi. I mediatori e i confonditori sono considerati come tali NON a causa di ciò che si trova nelle analisi, ma a causa di ciò che SI CREDE come esperto in materia (PMI). Se hai 20 osservazioni per variabile o meno, o 20 osservazioni per evento in analisi time-to-event o logistiche, dovresti invece prendere in considerazione metodi condizionali.

  2. Questo è un eccellente approccio al risparmio energetico che non è così complicato come la regolazione del punteggio di propensione o l'analisi SEM o dei fattori. Consiglio vivamente di farlo ogni volta che è possibile.

  3. Non sono d'accordo con tutto il cuore. Il punto di adattamento per altre variabili nelle analisi è creare strati per i quali sono possibili confronti. La mancata specificazione delle relazioni confondenti in genere non porta ad analisi eccessive, quindi il confondimento residuo da termini di interazione omessi non è, secondo la mia esperienza, un grosso problema. Tuttavia, potresti considerare i termini di interazione tra il predittore di interesse e altre variabili come un'analisi post-hoc. Questa è una procedura che genera ipotesi che ha lo scopo di affinare ogni possibile risultato (o mancanza di ciò) come a. potenzialmente appartenente a un sottogruppo o b. comportando un'interazione meccanicistica tra due fattori ambientali e / o genetici.

  4. Sono anche in disaccordo con questo con tutto il cuore. Non coincide con l'approccio alla regressione basato sull'analisi di conferma. Sei la PMI. Le analisi dovrebbero essere informate dalla DOMANDA e non dai DATI. Indica con fiducia ciò che ritieni stia accadendo, basato su una rappresentazione pittorica del modello causale (utilizzando un DAG e principi correlati di Pearl et al.), Quindi scegli i predittori per il tuo modello di interesse, adattamento e discussione. Solo come analisi secondaria dovresti considerare questo approccio, anche a tutti.

Il ruolo dell'apprendimento automatico in tutto ciò è altamente discutibile. In generale, l'apprendimento automatico si concentra sulla previsione e non sull'inferenza che sono approcci distinti all'analisi dei dati. Hai ragione sul fatto che l'interpretazione degli effetti della regressione penalizzata non è facilmente interpretabile per una comunità non statistica, a differenza delle stime di un OLS, in cui gli IC del 95% e le stime dei coefficienti forniscono una misura di associazione.

L'interpretazione del coefficiente di un modello OLS Y ~ X è semplice: è una pendenza, una differenza attesa in Y confrontando gruppi che differiscono di 1 unità in X. In un modello regolato multivariato Y ~ X1 + X2 lo modifichiamo come un condizionale pendenza: è una differenza attesa in Y confrontando gruppi che differiscono di 1 unità in X1 che hanno lo stesso valore di X2. Dal punto di vista geometrico, la regolazione per X2 porta a strati distinti o "sezioni trasversali" dei tre spazi in cui confrontiamo X1 con Y, quindi calcoliamo la media dei risultati su ciascuno di questi strati. In R, la coplotfunzione è molto utile per visualizzare tali relazioni.


Apprezzo molto il tuo commento dettagliato - non ho mai avuto nessuno che rispondesse alle mie domande in modo così dettagliato prima. Sto esaminando i tuoi link ora!
sharper_image

1
(+1) Al punto n. 1: G&H afferma che si tratta di "principi generali per la costruzione di modelli di regressione per la previsione " [corsivo mio], quindi non è necessario applicare il tuo avvertimento. (Forse quei rari fumatori con una buona funzionalità polmonare in effetti tendono ad essere particolarmente in forma.) Quando iniziano a discutere modelli causali, fanno lo stesso punto (Cap. 9.7).
Scortchi - Ripristina Monica

2
(+1) Risposta eccezionale, AdamO! Apprezzando il fatto che tu abbia già svolto un'enorme quantità di lavoro, mi chiedo se diresti qualcosa di più che sai sullo stato attuale di adozione della politica del giornale che menzioni. Vado ancora in preda alla rabbia nel vedere almeno la parola "graduale" nelle riviste JAMA. Puoi citare un editoriale su questa politica?
David C. Norris,

2
@ DavidC.Norris "Misura educativa e psicologica" è la rivista in questione e, ahimè, l'articolo Babyak discute solo della regressione graduale automatizzata . In alcuni articoli ho visto autori che discutono del loro approccio "pratico" all'inclusione e al refitting dei modelli come "graduale" (anche se non automatizzato). Direi che hanno descritto correttamente la procedura che hanno usato, ma ho ancora grosse contese con questo approccio.
AdamO,

LAU1LU1AU2YU2LLAYAYAYE[Y|A,L]AU1LU2Y

9

Questa magnifica domanda e la risposta esaustiva di @ AdamO sono un ottimo esempio di come il CV rinnova regolarmente la mia fiducia nell'umanità. Intendo qui principalmente offrire alcuni modi per apprezzare quella risposta (e la domanda del PO) in un contesto più ampio.

In primo luogo, mi permetto di affermare che tutti i consigli affidabili riguardanti la pratica statistica sono di natura cautelativa - pro scripting piuttosto che pre scriptive. Il punto 3 di Gelman & Hill, ad esempio, mentre legge in modo superficiale come un consiglio di fare attivamente qualcosa ("considerare"), è davvero meglio inteso come un avvertimento contro il non considerare le interazioni con effetti potenti. Intuito intuitivamente come un appello all'intuizione connessa alla scelta dei termini più importanti in un'espansione (multivariata) della serie Taylor , mi sembra inammissibile.

In secondo luogo, mentre l'OP è impegnato a ottenere un'istruzione migliore rispetto alla maggior parte dei biostatisti di dottorato (seguendo le citazioni di AdamO), l'OP potrebbe anche raccogliere i Modelli statistici e l'inferenza causale di David A. Friedman [1], dove una sfida salutare sarà trovato la presunzione che la regressione dovrebbe essere il nostro strumento principale nella ricerca clinica. Raccomando in particolare il capitolo 3, "Modelli statistici e calzature in pelle", che è disponibile anche in forma precedentemente pubblicata [2] qui . (Non lasciare che il nome del diario ti spenga; le lezioni chiave tratte sono dalle indagini di John Snow sul colera. Vedi anche questa risposta , dove queste lezioni sono esposte in dettaglio.)

Infine - e forse questo è davvero un corollario per Freedman - va detto che le "conclusioni" di esempio offerte dall'OP apparterrebbero effettivamente alla sezione Risultati del documento. Sarebbe molto salutare considerare il più presto possibile come verrebbero formulate le sezioni delle Conclusioni e Discussioni del documento, in modo da essere accessibili ai medici, ai media e persino al numero crescente di pazienti e ai loro sostenitori laici che eroicamente lavorare per leggere la letteratura medica. Mantenere l'attenzione su quell'end point modellerà utilmente il lavoro tecnico dell'analisi statistica e lo terrà radicato nella realtà del mondo che sta cercando di descrivere e dei bisogni che mira a servire.


  1. Freedman, David, David Collier, Jasjeet Singh Sekhon e Philip B. Stark. Modelli statistici e inferenza causale: un dialogo con le scienze sociali. Cambridge; New York: Cambridge University Press, 2010.

  2. Freedman, David A. “Modelli statistici e calzature in pelle.” Metodologia sociologica 21 (1991): 291–313. DOI: 10,2307 / 270.939.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.