Risposte:
Un modello parsimonioso è un modello che raggiunge il livello desiderato di spiegazione o previsione con il minor numero possibile di variabili predittive.
Per la valutazione del modello esistono diversi metodi a seconda di ciò che si desidera sapere. Esistono generalmente due modi per valutare un modello: basato su previsioni e basato sulla bontà di adattamento ai dati attuali. Nel primo caso vuoi sapere se il tuo modello prevede adeguatamente nuovi dati, nel secondo vuoi sapere se il tuo modello descrive adeguatamente le relazioni tra i tuoi dati attuali. Queste sono due cose diverse.
Il modo migliore per valutare i modelli utilizzati per la previsione è la crossvalidation. Molto brevemente, il tuo set di dati viene tagliato ad es. 10 pezzi diversi, usane 9 per costruire il modello e prevedere i risultati per il decimo set di dati. Una semplice differenza quadratica media tra i valori osservati e previsti fornisce una misura per l'accuratezza della previsione. Quando lo ripeti dieci volte, calcoli la differenza quadratica media su tutte e dieci le iterazioni per arrivare a un valore generale con una deviazione standard. Ciò consente di confrontare nuovamente due modelli sulla loro precisione di previsione utilizzando tecniche statistiche standard (test t o ANOVA).
Una variante sul tema è il criterio PRESS (somma di previsione dei quadrati), definito come
Dove è il valore previsto per l'ith osservazione usando un modello basato su tutte le osservazioni meno l'ith valore. Questo criterio è particolarmente utile se non si dispone di molti dati. In tal caso, la divisione dei dati come nell'approccio della crossvalidation potrebbe comportare sottoinsiemi di dati troppo piccoli per un adattamento stabile.
Consentitemi innanzitutto di affermare che ciò differisce davvero in base al modello di framework utilizzato. Ad esempio, un test del rapporto di verosimiglianza può funzionare per i modelli misti additivi generalizzati quando si utilizza il gaussiano classico per gli errori, ma non ha senso nel caso della variante binomiale.
Per prima cosa hai i metodi più intuitivi per confrontare i modelli. È possibile utilizzare Aikake Information Criterion (AIC) o Bayesian Information Criterion (BIC) per confrontare la bontà di adattamento per due modelli. Ma nulla ti dice che entrambi i modelli differiscono davvero.
Un altro è il criterio Cp di Mallow. Questo essenzialmente controlla possibili distorsioni nel tuo modello, confrontando il modello con tutti i possibili modelli secondari (o un'attenta selezione di essi). Vedi anche http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Se i modelli che si desidera confrontare sono modelli nidificati (ovvero tutti i predittori e le interazioni del modello più parsimonioso si verificano anche nel modello più completo), è possibile utilizzare un confronto formale sotto forma di un test del rapporto di verosimiglianza (o di un Chi-quadrato o una prova F nei casi appropriati, ad esempio quando si confrontano modelli lineari semplici montati usando il minimo numero di quadrati). Questo test controlla essenzialmente se i predittori o le interazioni extra migliorano davvero il modello. Questo criterio viene spesso utilizzato nei metodi graduali in avanti o all'indietro.
Hai sostenitori e nemici di questo metodo. Personalmente non sono a favore della selezione automatica dei modelli, soprattutto non quando si tratta di descrivere i modelli, e questo per una serie di motivi:
Quindi, fondamentalmente, vedo di più nel confrontare un set selezionato di modelli scelti in anticipo. Se non ti interessa la valutazione statistica del modello e il test delle ipotesi, puoi utilizzare la convalida incrociata per confrontare l'accuratezza predittiva dei tuoi modelli.
Ma se stai davvero cercando la selezione delle variabili per scopi predittivi, potresti voler dare un'occhiata ad altri metodi per la selezione delle variabili, come Support Vector Machines, Neural Networks, Random Forests e simili. Questi sono molto più spesso utilizzati, ad esempio, in medicina per scoprire quale delle mille proteine misurate può prevedere adeguatamente se si ha il cancro o meno. Giusto per fare un esempio (famoso):
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Tutti questi metodi hanno varianti di regressione anche per dati continui.
L'uso della selezione indietro o avanti è una strategia comune, ma non posso consigliarla. I risultati di tale costruzione di modelli sono tutti sbagliati. I valori p sono troppo bassi, i coefficienti sono distorti da 0 e ci sono altri problemi correlati.
Se è necessario eseguire la selezione automatica delle variabili, consiglierei di utilizzare un metodo più moderno, come LASSO o LAR.
Ho scritto una presentazione SAS su questo, intitolata "Arresto graduale: perché i metodi graduali e simili sono male e cosa dovresti usare"
Ma, se possibile, eviterei del tutto questi metodi automatizzati e fare affidamento sulla competenza in materia. Un'idea è quella di generare circa 10 modelli ragionevoli e confrontarli in base a un criterio informativo. @Nick Sabbe ha elencato molti di questi nella sua risposta.
La risposta a questo dipenderà molto dal tuo obiettivo. È possibile che si stiano cercando coefficienti statisticamente significativi, oppure si potrebbe essere fuori per evitare quante più classificazioni errate possibili quando si prevede il risultato di nuove osservazioni o si potrebbe semplicemente essere interessati al modello con i meno falsi positivi; forse vuoi semplicemente la curva più "vicina" ai dati.
In tutti i casi precedenti, hai bisogno di una sorta di misura per quello che stai cercando. Alcune misure popolari con diverse applicazioni sono AUC, BIC, AIC, errore residuo, ...
Calcolate la misura che meglio corrisponde al vostro obiettivo per ciascun modello, quindi confrontate i "punteggi" per ciascun modello. Questo porta al modello migliore per il tuo obiettivo.
Alcune di queste misure (ad es. AIC) pongono un ulteriore stress sul numero di coefficienti diversi da zero nel modello, perché l'utilizzo di troppi potrebbe semplicemente sovrastimare i dati (in modo che il modello sia inutile se lo si utilizza per nuovi dati, figuriamoci per la popolazione). Potrebbero esserci altri motivi per richiedere che un modello contenga variabili "il meno possibile", ad esempio se è semplicemente costoso misurarle tutte per la previsione. La "semplicità di" o "un numero limitato di variabili in" un modello viene generalmente definita parsimonia.
Quindi in breve, un modello parsimoneous è un modello "semplice", che non contiene troppe variabili.
Come spesso con questo tipo di domande, ti farò riferimento al libro eccellente Elements of Statistical Learning per informazioni più approfondite sull'argomento e sulle questioni correlate.
Ho trovato interessante la discussione qui, in particolare il dibattito tra parsimonioso e modello con un numero maggiore di coefficienti e variabili.
Il mio prof. Il compianto Dr. Steve sottolineava un modello parsimonioso con un R ^ 2 basso rispetto ad altri modelli con accoppiamenti migliori / R ^ 2 di grandi dimensioni.
Grazie per tutto il pesce qui!
Akash