Regressione e campionamento logistico graduale


13

Sto adattando una regressione logistica graduale su un set di dati in SPSS. Nella procedura, sto adattando il mio modello a un sottoinsieme casuale di ca. Il 60% del campione totale, che è di circa 330 casi.

Ciò che trovo interessante è che ogni volta che ricampionare i miei dati, ottengo diverse variabili che compaiono nel modello finale. Alcuni predittori sono sempre presenti nel modello finale, ma altri si aprono e si aprono a seconda del campione.

La mia domanda è questa Qual è il modo migliore per gestirlo? Speravo di vedere la convergenza delle variabili predittive, ma non è così. Alcuni modelli hanno un senso molto più intuitivo dal punto di vista operativo (e sarebbero più facili da spiegare ai decisori), mentre altri si adattano leggermente meglio ai dati.

In breve, dal momento che le variabili si mescolano, come consiglieresti di affrontare la mia situazione?

Molte grazie in anticipo.

Risposte:


16

Se hai intenzione di utilizzare una procedura graduale, non ricampionare. Crea un sottocampione casuale una volta per tutte. Esegui la tua analisi su di esso. Convalida i risultati rispetto ai dati dati. È probabile che la maggior parte delle variabili "significative" si rivelerà non significativa.

( Modifica 12/2015: puoi davvero andare oltre un approccio così semplice ricampionando, ripetendo la procedura graduale e riconvalidando: questo ti porterà in una forma di validazione incrociata. Ma in tal caso metodi più sofisticati di variabile selezione, come la regressione della cresta, il lazo e la rete elastica sono probabilmente preferibili alla regressione graduale.)

Concentrati sulle variabili che hanno senso, non su quelle che si adattano un po 'meglio ai dati. Se hai più di una manciata di variabili per 330 record, sei in primo luogo a rischio di overfitting. Prendi in considerazione l'utilizzo di criteri di entrata e uscita piuttosto severi per la regressione graduale. su AIC o invece che sulle soglie per i test o .CpFt

(Suppongo che tu abbia già effettuato l'analisi e l'esplorazione per identificare re-espressioni appropriate delle variabili indipendenti, che tu abbia identificato probabili interazioni e che tu abbia stabilito che esiste davvero una relazione approssimativamente lineare tra il logit della variabile dipendente e i regressori. In caso contrario, svolgere questo essenziale lavoro preliminare e solo successivamente tornare alla regressione graduale.)

A proposito, fai attenzione a seguire i consigli generici come ho appena dato :-). Il tuo approccio dovrebbe dipendere dallo scopo dell'analisi (previsione? Estrapolazione? Comprensione scientifica? Processo decisionale?), Nonché dalla natura dei dati, dal numero di variabili, ecc.


2
+1 per evidenziare l'importanza dell'interpretazione del modello. Non aggiungerò nulla sull'approccio ML non informato (o sui metodi ensemble) con schemi di convalida incrociata più complessi, perché sento che hai già detto ciò che conta davvero qui: (1) la selezione delle caratteristiche attraverso il ricampionamento è difficilmente interpretabile in modo isolato (ad es. confrontando un risultato dopo l'altro) e (2) tutto dipende se stiamo cercando un modello predittivo o esplicativo.
chl

Grazie per la tua comprensione. Ho fatto alcuni pre-screening per restringere il mio spazio di ricerca e voglio semplicemente trovare il modello migliore per la previsione con il minor numero di variabili. Sto solo lanciando 7 predittori nel modello, che a quanto ho capito, dovrebbe essere ok. Capisco l'idea di rimanere con un campione, ma il rovescio della medaglia, il mio modello era fondamentalmente diverso e mostra che i risultati sono interamente dipendenti dal campione, il che mi ha fatto mettere in pausa.
Btibert3,

@ Btibert3 A destra: quando i risultati variano tra sottoinsiemi casuali dei tuoi dati, puoi prenderlo come prova che le variabili indipendenti non sono predittori forti o coerenti della variabile indipendente.
whuber

12

Una domanda importante è "perché mai perché vuoi un modello con il minor numero possibile di variabili?". Se vuoi avere il minor numero possibile di variabili per ridurre al minimo il costo della raccolta dei dati per l'uso operativo del tuo modello, le risposte fornite da whuber e mbq sono un ottimo inizio.

Se le prestazioni predittive sono ciò che è veramente importante, probabilmente è meglio non fare alcuna selezione di funzionalità e utilizzare invece la regressione logistica regolarizzata (cfr. Regressione della cresta). In effetti, se le prestazioni predittive fossero di primaria importanza, utilizzerei la regressione logistica regolarizzata in sacchi come una sorta di strategia "cinghia e bretelle" per evitare il sovra-adattamento di un piccolo set di dati. Millar nel suo libro sulla selezione dei sottoinsiemi in regressione fornisce praticamente quel consiglio nell'appendice, e l'ho trovato un eccellente consiglio per problemi con molte caratteristiche e non molte osservazioni.

Se la comprensione dei dati è importante, non è necessario che il modello utilizzato comprenda i dati per essere gli stessi utilizzati per fare previsioni. In tal caso, ricampionerei più volte i dati e guarderei i modelli delle variabili selezionate tra i campioni per trovare quali variabili fossero informative (come suggerisce mbq, se la selezione delle caratteristiche è instabile, un singolo campione non fornirà il quadro completo), ma avrei comunque usato l'ensemble di modelli di regressione logistica regolarizzata in sacchi per le previsioni.


1
+1 per il puntatore alla regressione logistica regolarizzata. Non è chiaro come si possa formalmente "guardare i modelli" quando si ricampiona i "dati molte volte". Sembra un po 'come lo snooping dei dati e quindi sembra che possa portare a frustrazione ed errore.
whuber

5
La selezione delle funzioni quando la selezione è instabile sarà sempre una ricetta per la frustrazione e l'errore. L'uso di un solo campione riduce la frustrazione, ma aumenta la probabilità di errore in quanto ti incoraggia a trarre conclusioni sulle caratteristiche rilevanti per il problema in base a ciò che funziona meglio sul particolare campione che guardi - che è una forma di over- montaggio. Il ricampionamento ti dà un'idea dell'incertezza nella selezione delle funzionalità, che è spesso altrettanto importante. In questo caso non dovremmo trarre alcuna conclusione forte sulle funzionalità pertinenti in quanto non vi sono dati sufficienti.
Dikran Marsupial,

Buon punto; Odio quando le persone contano solo la media dal ricampionamento, è un tale spreco.

10

In generale, ci sono due problemi nella selezione delle funzionalità:

  • minimo ottimale , dove cerchi l'insieme più piccolo di variabili che ti dia il minimo errore
  • tutti rilevanti , dove si cercano tutte le variabili rilevanti in un problema

La convergenza della selezione dei predittori rientra in un dominio di tutto il problema rilevante, che è un inferno difficile e quindi richiede strumenti molto più potenti di regressione logistica, calcoli pesanti e un trattamento molto accurato.

Ma sembra che tu stia facendo il primo problema, quindi non dovresti preoccuparti di questo. In genere posso rispondere alla seconda risposta di whuber, ma non sono d'accordo con l'affermazione che dovresti abbandonare il ricampionamento: qui non sarà un metodo per stabilizzare la selezione delle funzionalità, ma tuttavia sarà una simulazione per stimare le prestazioni di una selezione di funzionalità accoppiate + formazione , quindi ti darà un'idea della sicurezza della tua precisione.


+1 Temo che molti ricampionamenti saranno solo confusi e fuorvianti. Il ricampionamento in modo controllato, tramite validazione incrociata o un campione di controllo per la verifica, ovviamente non è problematico.
whuber

6

Potresti dare un'occhiata al documento Stability Selection di Meinshausen e Buhlmann in JR Statist. Soc B (2010) 72 Parte 4, e la discussione successiva. Considerano cosa succede quando dividi ripetutamente il tuo set di punti dati in due metà e cercano funzionalità in ogni metà. Partendo dal presupposto che ciò che vedi in una metà è indipendente da ciò che vedi nell'altra metà corrispondente puoi provare i limiti sul numero atteso di variabili falsamente selezionate.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.