Interpretazione dell'uscita drop1 in R


14

In R, il drop1comando genera qualcosa di pulito.
Questi due comandi dovrebbero darti un output:
example(step)#-> swiss
drop1(lm1, test="F")

Il mio assomiglia a questo:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Cosa significa tutto ciò? Suppongo che le "stelle" aiutino a decidere quali variabili di input devono essere mantenute. Guardando l'output sopra, voglio buttare via la variabile "Examination" e concentrarmi sulla variabile "Education", l'interpretazione è corretta?

Inoltre, il valore AIC, inferiore è meglio, sì?

Ed. Si prega di notare la risposta alla Community Wiki di seguito e aggiungerla se si ritiene opportuno, per chiarire questo risultato.


7
l'aiuto in R ha lo scopo di spiegarti come utilizzare la funzione. Non vuole essere un corso di statistica. Inoltre, in generale credo che le pagine di aiuto di R siano tra le più complete e utili di tutti i pacchetti open source che conosco. E pagando pacchetti per quella materia. SPSS e SAS offrono molti mumbo-jumbo con mezze verità e assurdità complete come "guida per l'interpretazione".
Joris Meys,

1
Questa domanda è stata sottovalutata. Non intendevo dare il mio +1, ma ora mi sembra che il voto in giù non sia molto costruttivo: (1) l'OP chiarisce che si tratta di compiti a casa e utilizza un set di dati R incorporato per l'illustrazione, non il suo data, (2) una domanda correlata con step()è stata valutata +2 al momento della stesura di questo documento (quindi perché ?!), (3) l'OP ha riconosciuto l'utilità della risposta di @ Joris.
chl

@chl: sembra che io non sia l'unico con le dita sensibili quando si tratta delle pagine di aiuto R :-). Ma sono d'accordo con tutto il cuore con te. La domanda è valida, posta in modo chiaro e quindi non vi è assolutamente alcun motivo per ridimensionarla.
Joris Meys,

Heh, mi dispiace se ti ho calpestato le dita dei piedi per l'aiuto, non sono molto paziente quando si tratta di qualcosa con una riga di comando. Sono strano in questo modo, lo so. Non saresti il ​​primo a chiamarmi fuori :) Mi piace questo posto, le persone sono oneste.
Gakera,

Eccoci, ho modificato la domanda in modo che non sia scoraggiante per i sostenitori di R e l'aiuto di R :) E ho riformulato la domanda su AIC per evitare fuorvianti solo i lettori di PO.
Gakera,

Risposte:


10

drop1offre un confronto dei modelli basati sul criterio AIC e quando si utilizza l'opzione test="F"si aggiunge un "ANOVA di tipo II", come spiegato nei file della guida . Finché hai solo variabili continue, questa tabella è esattamente equivalente a summary(lm1), poiché i valori F sono solo quei valori T al quadrato. I valori P sono esattamente gli stessi.

Quindi cosa farne? Interpretalo esattamente in quel modo: si esprime in un modo se il modello senza quel termine è "significativamente" diverso dal modello con quel termine. Fai attenzione al "" giro in modo significativo, poiché qui il significato non può essere interpretato come la maggior parte della gente pensa. (problema multi-test e tutto ...)

E per quanto riguarda l'AIC: più basso è, meglio sembra più simile. AIC è un valore che vale per il modello , non per la variabile. Quindi il miglior modello da quell'output sarebbe quello senza l'esame variabile.

Intendiamoci, il calcolo di AIC e la statistica F sono diversi dalle funzioni R AIC(lm1)rispettivamente. anova(lm1). Per AIC(), tali informazioni sono fornite nelle pagine di aiuto di extractAIC(). Per la anova()funzione, è piuttosto ovvio che il tipo I e il tipo II SS non sono gli stessi.

Sto cercando di non essere scortese, ma se non capisci cosa è spiegato nei file della guida lì, non dovresti usare la funzione in primo luogo. La regressione graduale è incredibilmente complicata, mettendo a rischio i tuoi valori p in modo molto profondo. Quindi, non basarti sui valori p. Il tuo modello dovrebbe riflettere le tue ipotesi e non viceversa.


1
Mi piace questo sentimento, "se non capisco cosa sto già facendo, non dovrei provare a impararlo ..." Questo è anche l'approccio adottato nell'aiuto R - non è utile se non sai già cosa sta succedendo. Speravo che questo potesse essere l'inizio di qualcosa di diverso.
Gakera,

Ma posso usare questa parte della tua risposta: "Interpretala esattamente in quel modo: esprime se il modello senza quel termine è significativamente diverso dal modello con quel termine". Per me questo significa che i valori Pr (F) sono il significato di ciascuno di questi termini e un valore piccolo significa che questa variabile è importante. Quindi, un buon modello dovrebbe includere le variabili "***" e non quelle che non hanno stelle.
Gakera,

4
@gakera: mi hai sbagliato. Se non capisci cosa stai facendo, dovresti assolutamente provare a impararlo prima di usarlo . Ciò significa leggere le statistiche e seguire un corso. Quindi, un buon modello dovrebbe includere le variabili che sono formulate nell'ipotesi. Se ti basi sulle variabili "***", devi prima seguire un corso approfondito sulla modellazione. Ovviamente non hai capito il mio ultimo commento. Scusa per la comunicazione diretta, arriva con il ragazzo. Niente di personale.
Joris Meys,

@gakera: ho aggiornato la mia risposta per chiarire alcuni punti importanti. Principalmente perché hai interpretato male la parte che pensavi di poter usare.
Joris Meys,

Sto imparando facendo, dopo tutto sono compiti a casa, nessuno morirà se non riesco a farlo bene - i pesci sono già morti: P Grazie per l'aiuto finora, e non preoccuparti, questo non lo è la mia prima volta su internet :)
gakera il

4

Per riferimento, questi sono i valori inclusi nella tabella: si
Dfriferisce a Gradi di libertà , "il numero di gradi di libertà è il numero di valori nel calcolo finale di una statistica che sono liberi di variare".

La Sum of Sqcolonna si riferisce alla somma dei quadrati (o più precisamente alla somma delle deviazioni quadrate ). In breve, questa è una misura dell'importo che ogni singolo valore devia dalla media complessiva di tali valori.
RSSè la somma residua dei quadrati . Queste sono una misura di quanto il valore previsto della variabile dipendente (o di output) varia dal valore reale per ciascun punto di dati nell'insieme (o più colloquialmente: ogni "linea" nella tabella di dati).

AICè il criterio di informazione di Akaike che è generalmente considerato "troppo complesso per essere spiegato" ma è, in breve, una misura della bontà di adattamento di un modello statistico stimato. Se hai bisogno di ulteriori dettagli, dovrai rivolgerti agli alberi morti con parole su di essi (ad esempio libri). O Wikipedia e le risorse lì.

La F valueviene utilizzato per eseguire ciò che è chiamato un test F e da essa deriva il Pr(F)valore, che descrive la probabilità (o supposto = Pr) che il valore F è. Un valore Pr (F) vicino a zero (indicato da ***) è indicativo di una variabile di input che è in qualche modo importante includere in un buon modello, ovvero un modello che non lo include è "significativamente" diverso da quello Che fa.

Tutti questi valori sono, nel contesto del drop1comando, calcolati per confrontare il modello generale (comprese tutte le variabili di input) con il modello risultante dalla rimozione di quella specifica variabile per ogni riga nella tabella di output.

Ora, se questo può essere migliorato, non esitare ad aggiungerlo o chiarire eventuali problemi. Il mio obiettivo è solo quello di chiarire e fornire un migliore riferimento alla "ricerca inversa" dall'output di un comando R al significato reale di esso.


@gakera Regressione pratica e Anova usando R è un buon punto di partenza per comprendere modelli lineari e metodi relativi alla selezione di variabili / modelli. Come sottolineato da @Joris, la regressione graduale è raramente la panacea.
cl

ah, grazie per aver aggiunto i link @chl mantenendo al contempo la mia dichiarazione di non responsabilità sul motivo per cui non riesco a pubblicarli. Devi essere d'accordo sul fatto che io faccio schifo: D
Gakera il

1
@gakera Penso che sia necessario disporre di più rappresentanti per aggiungere più di un collegamento per modifica. Posso capire che non è molto piacevole quando si avvia un sito Web di domande e risposte. Pensavo che avresti rimosso la tua ultima frase da solo. D'altra parte, penso che non dovresti aspettarti troppi voti per aver fornito una risposta alla tua domanda, dato che si tratta di una sorta di riassunto "(utile, però).
chl

Non lo sto facendo per i voti positivi (è così Reddit: P) - un riepilogo utile è esattamente quello che sto cercando - principalmente per me stesso ma probabilmente utile anche per gli altri.
Gakera,

@gakera Sono sicuro che questo non era per ottenere voti. Il più delle volte, impostiamo la nostra risposta come Community Wiki (CW), quando non aggiungono ulteriori informazioni o contraddittorie. Questo è un modo neutro per riassumere o aggregare le risposte degli altri.
chl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.