Perché i valori p sono fuorvianti dopo aver eseguito una selezione graduale?


28

Consideriamo ad esempio un modello di regressione lineare. Ho sentito che, nel data mining, dopo aver eseguito una selezione graduale basata sul criterio AIC, è fuorviante guardare i valori p per testare l'ipotesi nulla che ogni coefficiente di regressione reale sia zero. Ho sentito che si dovrebbero considerare invece tutte le variabili rimaste nel modello con un coefficiente di regressione reale diverso da zero. Qualcuno può spiegarmi perché? Grazie.



1
In theoreticalecology.wordpress.com/2018/05/03/… , mostro alcuni codici R che dimostrano l'inflazione di tipo I dopo la selezione AIC. Si noti che non importa se è graduale o globale, il punto è che la selezione del modello è sostanzialmente test multipli.
Florian Hartig,

Risposte:


33

dopo aver eseguito una selezione graduale basata sul criterio AIC, è fuorviante osservare i valori p per verificare l'ipotesi nulla che ogni coefficiente di regressione reale sia zero.

In effetti, i valori p rappresentano la probabilità di vedere una statistica test almeno estrema quanto quella che hai, quando l'ipotesi nulla è vera. Se H0 è vero, il valore p dovrebbe avere una distribuzione uniforme.

Ma dopo la selezione graduale (o in effetti, dopo una varietà di altri approcci alla selezione del modello), i valori p di quei termini che rimangono nel modello non hanno quella proprietà, anche quando sappiamo che l'ipotesi nulla è vera.

Ciò accade perché scegliamo le variabili che hanno o tendono ad avere piccoli valori p (a seconda dei criteri precisi che abbiamo usato). Ciò significa che i valori p delle variabili lasciate nel modello sono in genere molto più piccoli di quanto sarebbero se si inserisse un singolo modello. Si noti che la selezione sceglierà in media modelli che sembrano adattarsi anche meglio del modello reale, se la classe di modelli include il modello reale o se la classe di modelli è abbastanza flessibile da approssimare da vicino il modello reale.

[Inoltre, e sostanzialmente per lo stesso motivo, i coefficienti rimanenti sono distorti da zero e i loro errori standard sono distorti; questo a sua volta influisce anche sugli intervalli di confidenza e sulle previsioni, ad esempio le nostre previsioni saranno troppo strette.]

Per vedere questi effetti, possiamo prendere una regressione multipla in cui alcuni coefficienti sono 0 e altri no, eseguire una procedura graduale e quindi per quei modelli che contengono variabili con coefficienti zero, osservare i valori p che ne risultano.

(Nella stessa simulazione, puoi guardare le stime e le deviazioni standard per i coefficienti e scoprire anche quelli che corrispondono a coefficienti diversi da zero sono interessati.)

In breve, non è appropriato considerare significativi i normali valori p.

Ho sentito che si dovrebbero considerare significative tutte le variabili rimaste nel modello.

Quanto al fatto che tutti i valori nel modello dopo stepwise debbano essere "considerati significativi", non sono sicuro di quale sia un modo utile per esaminarlo. Qual è il significato di "significato" allora?


Ecco il risultato dell'esecuzione di R stepAICcon impostazioni predefinite su 1000 campioni simulati con n = 100 e dieci variabili candidate (nessuna delle quali è correlata alla risposta). In ogni caso è stato contato il numero di termini rimasti nel modello:

inserisci qui la descrizione dell'immagine

Solo il 15,5% delle volte è stato scelto il modello corretto; per il resto del tempo il modello includeva termini che non erano diversi da zero. Se in realtà è possibile che ci siano variabili a coefficiente zero nel set di variabili candidate, è probabile che abbiamo diversi termini in cui il coefficiente reale è zero nel nostro modello. Di conseguenza, non è chiaro che sia una buona idea considerarli tutti diversi da zero.


Con la frase "Ho sentito che si dovrebbero considerare significative tutte le variabili rimaste nel modello". Intendevo: "Ho sentito che si dovrebbero considerare tutte le variabili rimaste nel modello come aventi un vero coefficiente di regressione diverso dalla forma zero"
John M,

Va bene; Ho aggiunto i risultati di una simulazione che ne parla.
Glen_b

10
k=33910k

7
@whuber in effetti, vedendo quale effetto avrebbe avuto un Bonferroni (su una varietà di aspetti del problema) è stata la mia immediata inclinazione a completare anche la simulazione di cui sopra, ma non è quello che le persone tendono effettivamente a fare gradualmente, quindi non ho affrontato qui. Sarei affascinato nel sentirti discutere dei metodi di selezione dei modelli. Mi aspetto che imparerei un bel po '.
Glen_b

@Glen_b: (Citato dalla tua risposta) Ciò significa che i valori p delle variabili lasciate nel modello sono in genere molto più piccoli di quanto sarebbero se avessimo adattato un singolo modello anche "se l'unico modello che adattiamo sembra essere quello che ha generato i dati, indipendentemente dal fatto che il modello vero sia nullo ". Puoi spiegare un po 'la parte evidenziata? Come può essere che i valori p siano più piccoli nel modello con le stesse specifiche del processo di generazione dei dati (modello vero)?
shani,

8

tFp1,np1Fq1,nq1q<pF

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.