AIC o valore p: quale scegliere per la selezione del modello?


22

Sono nuovo di zecca per questa cosa R ma non sono sicuro di quale modello selezionare.

  1. Ho fatto una regressione graduale selezionando ciascuna variabile in base all'AIC più basso. Ho pensato a 3 modelli di cui non sono sicuro quale sia il "migliore".

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Sono propenso ad andare con il Modello n. 3 perché ha l'AIC più basso (ho sentito che il negativo è ok) e i valori di p sono ancora piuttosto bassi.

    Ho eseguito 8 variabili come predittori di Hatchling Mass e ho scoperto che queste tre variabili sono i migliori predittori.

  2. Il mio prossimo passo avanti scelgo Model 2 perché anche se l'AIC era leggermente più grande, i valori p erano tutti più piccoli. Sei d'accordo che questo sia il migliore?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Grazie!


Potresti dirci la differenza tra (1) e (2)? Chiaramente qualcosa è cambiato, perché Model 3 in (1) e Model 2 in (2) sono nominalmente identici ma i valori p e AIC differiscono.
whuber

2
Questa domanda è stata ripubblicata due volte, il che significa che non solo dobbiamo chiuderli, ma anche le risposte associate che ti sono già state fornite. Potresti registrare il tuo account (vedi le FAQ ) e prestare attenzione alla politica di invio di StackExchange in futuro? Grazie.
chl

@whuber, temo di non comprendere appieno la tua domanda. Probabilmente è la mia mancanza di comprensione statistica. Ma per cercare di chiarire. Il modello 1 ha 4 variabili, il modello 2 ha 3 variabili e il modello 3 ha 2 variabili. Le variabili sono nello stesso ordine in ogni modello (che significa variabile uno = temp in ciascun modello). Penso che @GaBorgulya e @djma abbiano risposto perfettamente alla mia domanda. La variabile 4 È correlata alla variabile 3. AH-HA! Ha senso. grazie una gran quantità!
MEL

Ho convertito la tua risposta al commento sopra. Se ritieni che una delle risposte attuali ti abbia aiutato o abbia risposto alla tua domanda, non dimenticare di accettarla, come gentilmente ricordato da @richiemorrisroe. A proposito, è bello vedere che hai registrato il tuo account.
chl

Risposte:


23

L'AIC è una misura della bontà di adattamento che favorisce un errore residuo più piccolo nel modello, ma penalizza l'inclusione di ulteriori predittori e aiuta a evitare un eccesso di adattamento. Nel tuo secondo set di modelli, il modello 1 (quello con il valore AIC più basso) può funzionare meglio se utilizzato per la previsione al di fuori del set di dati. Una possibile spiegazione del motivo per cui l'aggiunta di Var4 al modello 2 si traduce in un AIC inferiore, ma valori di p più alti è che Var4 è in qualche modo correlato con Var1, 2 e 3. L'interpretazione del modello 2 è quindi più semplice.


31

Osservare i singoli valori p può essere fuorviante. Se hai variabili che sono collineari (hanno un'alta correlazione), otterrai grandi valori p. Ciò non significa che le variabili siano inutili.

Come regola empirica, selezionare il modello con i criteri AIC è meglio che guardare i valori p.

Uno dei motivi per cui è possibile che non si selezioni il modello con AIC più basso è quando il rapporto variabile / punto dati è grande.

Si noti che la selezione del modello e l'accuratezza della previsione sono problemi piuttosto distinti. Se il tuo obiettivo è ottenere previsioni accurate, ti suggerirei di convalidare il tuo modello separando i tuoi dati in un set di formazione e test.

Un documento sulla selezione delle variabili: complessi stocastici graduali per la selezione delle variabili


4
Se il tuo obiettivo è la precisione della previsione, vuoi usare AIC (poiché riduce al minimo la divergenza di KL prevista tra il modello montato e la verità). Se si desidera una procedura di selezione del modello coerente (p fissa, crescente n), è possibile utilizzare, ad esempio, BIC. L'uso di valori p nella regressione graduale per selezionare le ipotesi è decisamente sconsigliato.
emakalic

8
0,154|t|>log(N)

-3

L'AIC è motivato dalla stima dell'errore di generalizzazione (come CP di Mallow, BIC, ...). Se si desidera il modello per le previsioni, utilizzare meglio uno di questi criteri. Se vuoi che il tuo modello spieghi un fenomeno, usa i valori p.

Inoltre, vedi qui .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.