Scegliere il modello migliore tra diversi modelli "migliori"

28

Come si sceglie un modello tra diversi modelli scelti con metodi diversi (ad es. Selezione indietro o avanti)?

Inoltre, cos'è un modello parsimonioso?

regression model-selection

— tom
fonte

Ho modificato il titolo per (si spera) di chiarire il punto.

39

Un modello parsimonioso è un modello che raggiunge il livello desiderato di spiegazione o previsione con il minor numero possibile di variabili predittive.

Per la valutazione del modello esistono diversi metodi a seconda di ciò che si desidera sapere. Esistono generalmente due modi per valutare un modello: basato su previsioni e basato sulla bontà di adattamento ai dati attuali. Nel primo caso vuoi sapere se il tuo modello prevede adeguatamente nuovi dati, nel secondo vuoi sapere se il tuo modello descrive adeguatamente le relazioni tra i tuoi dati attuali. Queste sono due cose diverse.

Valutazione basata su previsioni

Il modo migliore per valutare i modelli utilizzati per la previsione è la crossvalidation. Molto brevemente, il tuo set di dati viene tagliato ad es. 10 pezzi diversi, usane 9 per costruire il modello e prevedere i risultati per il decimo set di dati. Una semplice differenza quadratica media tra i valori osservati e previsti fornisce una misura per l'accuratezza della previsione. Quando lo ripeti dieci volte, calcoli la differenza quadratica media su tutte e dieci le iterazioni per arrivare a un valore generale con una deviazione standard. Ciò consente di confrontare nuovamente due modelli sulla loro precisione di previsione utilizzando tecniche statistiche standard (test t o ANOVA).

Una variante sul tema è il criterio PRESS (somma di previsione dei quadrati), definito come

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Dove è il valore previsto per l'ith osservazione usando un modello basato su tutte le osservazioni meno l'ith valore. Questo criterio è particolarmente utile se non si dispone di molti dati. In tal caso, la divisione dei dati come nell'approccio della crossvalidation potrebbe comportare sottoinsiemi di dati troppo piccoli per un adattamento stabile. $\hat{Y}_{i(-i)}$

Valutazione basata sulla bontà di adattamento

Consentitemi innanzitutto di affermare che ciò differisce davvero in base al modello di framework utilizzato. Ad esempio, un test del rapporto di verosimiglianza può funzionare per i modelli misti additivi generalizzati quando si utilizza il gaussiano classico per gli errori, ma non ha senso nel caso della variante binomiale.

Per prima cosa hai i metodi più intuitivi per confrontare i modelli. È possibile utilizzare Aikake Information Criterion (AIC) o Bayesian Information Criterion (BIC) per confrontare la bontà di adattamento per due modelli. Ma nulla ti dice che entrambi i modelli differiscono davvero.

Un altro è il criterio Cp di Mallow. Questo essenzialmente controlla possibili distorsioni nel tuo modello, confrontando il modello con tutti i possibili modelli secondari (o un'attenta selezione di essi). Vedi anche http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Se i modelli che si desidera confrontare sono modelli nidificati (ovvero tutti i predittori e le interazioni del modello più parsimonioso si verificano anche nel modello più completo), è possibile utilizzare un confronto formale sotto forma di un test del rapporto di verosimiglianza (o di un Chi-quadrato o una prova F nei casi appropriati, ad esempio quando si confrontano modelli lineari semplici montati usando il minimo numero di quadrati). Questo test controlla essenzialmente se i predittori o le interazioni extra migliorano davvero il modello. Questo criterio viene spesso utilizzato nei metodi graduali in avanti o all'indietro.

Informazioni sulla selezione automatica del modello

Hai sostenitori e nemici di questo metodo. Personalmente non sono a favore della selezione automatica dei modelli, soprattutto non quando si tratta di descrivere i modelli, e questo per una serie di motivi:

In ogni modello dovresti aver verificato che gestisci adeguatamente il confondimento. In effetti, molti set di dati hanno variabili che non dovrebbero mai essere inserite in un modello contemporaneamente. Spesso le persone dimenticano di controllarlo.
La selezione automatica del modello è un metodo per creare ipotesi, non per testarle. Tutte le inferenze basate su modelli provenienti dalla selezione automatica del modello non sono valide. Non c'è modo di cambiarlo.
Ho visto molti casi in cui a partire da un punto di partenza diverso, una selezione graduale ha restituito un modello completamente diverso. Questi metodi sono tutt'altro che stabili.
È anche difficile incorporare una regola decente, poiché i test statistici per confrontare due modelli richiedono che i modelli siano nidificati. Se si utilizza ad esempio AIC, BIC o PRESS, viene scelto arbitrariamente il valore limite per quando una differenza è veramente importante.

Quindi, fondamentalmente, vedo di più nel confrontare un set selezionato di modelli scelti in anticipo. Se non ti interessa la valutazione statistica del modello e il test delle ipotesi, puoi utilizzare la convalida incrociata per confrontare l'accuratezza predittiva dei tuoi modelli.

Ma se stai davvero cercando la selezione delle variabili per scopi predittivi, potresti voler dare un'occhiata ad altri metodi per la selezione delle variabili, come Support Vector Machines, Neural Networks, Random Forests e simili. Questi sono molto più spesso utilizzati, ad esempio, in medicina per scoprire quale delle mille proteine misurate può prevedere adeguatamente se si ha il cancro o meno. Giusto per fare un esempio (famoso):

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Tutti questi metodi hanno varianti di regressione anche per dati continui.

— Joris Meys
fonte

Quale modello sceglieresti tra Mallows Cp e la selezione all'indietro? Anche i modelli con SSE basso e coefficienti significativi sono buoni?

— Tom,

2

@tom: stai confrontando le mele con le arance. la selezione all'indietro è un metodo, Mallows Cp è un criterio. Il Cp di Mallow può essere usato come criterio per la selezione all'indietro. E come puoi leggere, non faccio una selezione all'indietro. Se devo selezionare le variabili, uso i metodi appropriati per quello. Non ho menzionato i metodi LASSO e LAR cui si riferiva Peter Flom, ma vale sicuramente la pena provarli.

— Joris Meys,

@Jons Mays: Supponiamo che scelga il modello con il Mallows Cp più basso (che ha variabili predittive). Quindi uso la selezione all'indietro per ottenere un altro modello (con variabili predittive ). Sceglierei solo quello con il minor numero di variabili se lo scopo è parsimonia?

x

$x$

x - 1

$x-1$

— Tom,

2

@FrankHarrell una piccola simulazione può dimostrare che la correlazione tra i valori p (presumendo che tu stia parlando del test F o equivalente) e l'AIC è inesistente (0,01 nella mia simulazione). Quindi no, non c'è relazione tra i valori P e l'AIC. Lo stesso per BIC e Cp. Un'altra piccola simulazione dimostrerà anche che si ottengono risultati piuttosto diversi in una procedura graduale a seconda del criterio utilizzato. Quindi no: Cp, AIC, BIC non sono in alcun modo solo trasformazioni di valori P. In effetti, se osservo le formule non posso in alcun modo indicare un collegamento o una trasformazione matematica.

— Joris Meys,

1

@FrankHarrell, il che non significa che io stia sostenendo pro per gradi, al contrario. Ma la tua affermazione è almeno formulata un po 'forte.

— Joris Meys,

20

$\alpha=0.50$

— Frank Harrell
fonte

La domanda non riguarda il graduale, ma la scelta del modello migliore tra i risultati di diversi approcci ...

— Joris Meys,

4

Mi piace molto "la parsimonia è il tuo nemico".

— Peter Flom - Ripristina Monica

1

Grazie Peter. Joris: la selezione tra approcci diversi differisce leggermente dalla selezione graduale, ma non molto.

— Frank Harrell,

16

L'uso della selezione indietro o avanti è una strategia comune, ma non posso consigliarla. I risultati di tale costruzione di modelli sono tutti sbagliati. I valori p sono troppo bassi, i coefficienti sono distorti da 0 e ci sono altri problemi correlati.

Se è necessario eseguire la selezione automatica delle variabili, consiglierei di utilizzare un metodo più moderno, come LASSO o LAR.

Ho scritto una presentazione SAS su questo, intitolata "Arresto graduale: perché i metodi graduali e simili sono male e cosa dovresti usare"

Ma, se possibile, eviterei del tutto questi metodi automatizzati e fare affidamento sulla competenza in materia. Un'idea è quella di generare circa 10 modelli ragionevoli e confrontarli in base a un criterio informativo. @Nick Sabbe ha elencato molti di questi nella sua risposta.

— Peter Flom - Ripristina Monica
fonte

2

+1 per il riferimento dell'articolo. Anche se non scrivo codice in SAS, l'ho letto diversi mesi fa e l'ho trovato un bel trattamento di alto livello del problema.

— Josh Hemann,

11

La risposta a questo dipenderà molto dal tuo obiettivo. È possibile che si stiano cercando coefficienti statisticamente significativi, oppure si potrebbe essere fuori per evitare quante più classificazioni errate possibili quando si prevede il risultato di nuove osservazioni o si potrebbe semplicemente essere interessati al modello con i meno falsi positivi; forse vuoi semplicemente la curva più "vicina" ai dati.

In tutti i casi precedenti, hai bisogno di una sorta di misura per quello che stai cercando. Alcune misure popolari con diverse applicazioni sono AUC, BIC, AIC, errore residuo, ...

Calcolate la misura che meglio corrisponde al vostro obiettivo per ciascun modello, quindi confrontate i "punteggi" per ciascun modello. Questo porta al modello migliore per il tuo obiettivo.

Alcune di queste misure (ad es. AIC) pongono un ulteriore stress sul numero di coefficienti diversi da zero nel modello, perché l'utilizzo di troppi potrebbe semplicemente sovrastimare i dati (in modo che il modello sia inutile se lo si utilizza per nuovi dati, figuriamoci per la popolazione). Potrebbero esserci altri motivi per richiedere che un modello contenga variabili "il meno possibile", ad esempio se è semplicemente costoso misurarle tutte per la previsione. La "semplicità di" o "un numero limitato di variabili in" un modello viene generalmente definita parsimonia.

Quindi in breve, un modello parsimoneous è un modello "semplice", che non contiene troppe variabili.

Come spesso con questo tipo di domande, ti farò riferimento al libro eccellente Elements of Statistical Learning per informazioni più approfondite sull'argomento e sulle questioni correlate.

— Nick Sabbe
fonte

1

Bel libro che consiglieresti lì. Un altro che potrei raccomandare è Modelli statistici lineari applicati che contiene alcune sezioni su criteri di selezione, selezione e confronto dei modelli.

— Joris Meys,

-1

Ho trovato interessante la discussione qui, in particolare il dibattito tra parsimonioso e modello con un numero maggiore di coefficienti e variabili.

Il mio prof. Il compianto Dr. Steve sottolineava un modello parsimonioso con un R ^ 2 basso rispetto ad altri modelli con accoppiamenti migliori / R ^ 2 di grandi dimensioni.

Grazie per tutto il pesce qui!

Akash

— Akash Sondhi - Modellista alle prime armi
fonte