Problemi di calcolo, interpretazione dei regsubset e domande generali sulla procedura di selezione dei modelli

Voglio selezionare i modelli usando regsubsets(). Ho un dataframe chiamato olympiadaten (dati caricati: http://www.sendspace.com/file/8e27d0 ). Per prima cosa allego questo frame di dati e poi inizio ad analizzare, il mio codice è:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

screenshot della trama:

Il problema ora è che voglio adattare di nuovo il modello migliore "manualmente" e dargli un'occhiata, ma il valore del rettangolo R rettificato non è lo stesso dell'output dei regsubsets? Questo è anche il caso degli altri modelli, ad esempio quando faccio il modello più semplice nella grafica:

summary(lm(Gesamt~ExpHealth))

Il grafico dice che dovrebbe avere un R rettificato di circa 0,14, ma quando guardo l'output, ottengo un valore di 0,06435.

Ecco l'output di summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Non so cosa avrei potuto fare di sbagliato, qualsiasi aiuto sarebbe apprezzato.

E, ultimo ma non meno importante, alcune altre domande:

Qual è la differenza tra la selezione dei modelli di AIC e di adj. R al quadrato?
Entrambi misurano l'adattamento e riconoscono il numero di variabili, quindi non è il modello migliore scelto da AIC anche il modello con il più alto agg. r al quadrato?
Quando ho 12 variabili, questo significa che ci sono possibilità di modelli, giusto? $2^12$
Quindi il regsubsets()comando calcola ciascun modello e mostra i due migliori ( nbest=2) di ogni dimensione?
In tal caso, ottengo davvero il modello "migliore"?
E quando eseguo AIC usando la selezione all'indietro (a partire dal modello che contiene tutte le variabili), questo finisce anche con lo stesso modello che regsubsets()dice che è il migliore?

r multiple-regression model-selection

— user1690846
fonte

La differenza corretto è perché alcune variabili hanno valori mancanti. Credo che otterresti lo stesso aggiustato se adattassi il modello "manualmente" semplicemente usando il sottoinsieme dei dati per i quali mancano tutte le variabili (nella formula in regsubset). Nota: la scelta del modello mediante regsubsets è considerata un metodo scadente.

R^{2}

$R^2$

R^{2}

$R^2$

— mark999,

@ mark999 I tuoi commenti sono buoni e sembra che dia la risposta giusta. Dovresti convertirlo in una risposta.

— Michael R. Chernick,

Grazie @MichaelChernick ma preferisco lasciarlo solo come commento.

— mark999,

@utente1690846 Consiglio di guardare la risposta di Peter Flom a stats.stackexchange.com/questions/8303/…

— mark999

@ mark999 innanzitutto grazie per la risposta, ma perché questo è un metodo scadente? E la selezione con AIC è migliore? Quindi dovrei adattare il modello usando na.omit (olympiadaten)? Se qualcuno ha una risposta alle altre domande, qualsiasi altra risposta sarebbe molto apprezzata, grazie

— user1690846

Risposte:

Per approfondire l'idea di utilizzare tutti i sottoinsiemi o gli strumenti dei migliori sottoinsiemi per trovare un modello di adattamento "migliore", il libro "How to Lie with Statistics" di Darrell Huff racconta una storia di Readers Digest che pubblica un confronto delle sostanze chimiche nel fumo di sigaretta. Il punto del loro articolo era dimostrare che non vi era alcuna reale differenza tra i diversi marchi, ma un marchio era il più basso in alcuni dei prodotti chimici (ma per così poco che la differenza era insignificante) e quel marchio iniziò una grande campagna pubblicitaria basata su essendo il "più basso" o il "migliore" secondo Readers Digest.

Tutti i sottoinsiemi o le regressioni dei sottoinsiemi migliori sono simili, il vero messaggio dal grafico che mostri non è "qui è il migliore" ma in realtà non esiste un modello migliore. Da un punto di vista statistico (usando il rettangolo r rettificato) la maggior parte del tuo modello è praticamente la stessa (le poche in fondo sono inferiori a quelle sopra, ma il resto è tutto simile). Il tuo desiderio di trovare un modello "migliore" da quel tavolo è come la compagnia di sigarette che dice che il loro prodotto era il migliore quando lo scopo era dimostrare che erano tutti simili.

Ecco qualcosa da provare, eliminare in modo casuale un punto dal set di dati ed eseguire nuovamente l'analisi, si ottiene lo stesso modello "Best"? o cambia? ripetere alcune volte l'eliminazione di un punto diverso ogni volta per vedere come cambia il modello "Migliore". Ti senti davvero a tuo agio nel dichiarare che un modello è "Migliore" quando quel piccolo cambiamento nei dati dà un "Migliore" diverso? Guarda anche quanto sono diversi i coefficienti tra i diversi modelli, come interpreti questi cambiamenti?

È meglio comprendere la domanda e la scienza alla base dei dati e utilizzare tali informazioni per aiutare a decidere su un modello "Migliore". Considera 2 modelli molto simili, l'unica differenza è che un modello include e l'altro include invece . Il modello con adatta leggermente meglio (rettangolo r di 0.49 contro 0.48) tuttavia per misurare richiede un intervento chirurgico e in attesa di 2 settimane per i risultati di laboratorio mentre si misura $x_1$ $x_2$ $x_1$ $x_1$ $x_2$ dura 5 minuti e uno sfigmomanometro. Varrebbe davvero la pena il tempo extra, i costi e i rischi per ottenere quel 0,01 extra nel regolatore r-quadrato, o il modello migliore sarebbe il modello più veloce, più economico e più sicuro? Cosa ha senso dal punto di vista scientifico? Nel tuo esempio sopra pensi davvero che aumentare la spesa militare migliorerà le prestazioni olimpiche? o è questo il caso di quella variabile che funge da surrogato di altre variabili di spesa che avrebbero un impatto più diretto?

Altre cose da considerare includono il prendere diversi buoni modelli e combinarli (Model Averaging), o piuttosto che avere ogni variabile sia in tutto o in tutto aggiungendo una qualche forma di penalità (regressione di Ridge, LASSO, elasticnet, ...).

— Greg Snow
fonte

Buona risposta! Aspetti salienti di "È meglio comprendere la domanda e la scienza alla base dei dati e utilizzare tali informazioni per aiutare a decidere su un" modello "migliore" e tutti i paragrafi che seguono.

— Andre Silva,

$^2$

Non so davvero cosa intendi per miglior modello. Ogni criterio essenzialmente fornisce una diversa definizione di migliore. Puoi definire un modello migliore in termini di informazioni, entropia, complessità stocastica, varianza percentuale spiegata (adattata) e altro. Se hai a che fare con una specifica crtierione e intendi catturare al meglio il vero minimo per dire AIC su tutti i possibili modelli, ciò può essere garantito solo guardando tutti i modelli (cioè tutte le selezioni di sottoinsiemi per le variabili). Step-up, step-down e step-sise non trovano sempre il modello migliore nel senso di una specifica crtierion. Con la regressione graduale puoi persino ottenere risposte diverse avviando modelli diversi. Sono sicuro che Frank Harrell avrebbe molto da dire al riguardo.

Per saperne di più, ci sono molti buoni libri sulla selezione del modello / sottoinsieme disponibili e ne ho fatto riferimento alcuni qui su altri post. Anche la monografia di Lacey Gunter con Springer nella loro serie SpringerBrief uscirà presto. Ero coautore con lei in quel libro.

— Michael R. Chernick
fonte