Quello che hai fatto è la regressione logistica . Questo può essere fatto praticamente in qualsiasi software statistico e l'output sarà simile (almeno nel contenuto, sebbene la presentazione possa essere diversa). C'è una guida alla regressione logistica con R sull'eccellente sito Web di aiuto per le statistiche dell'UCLA. Se non hai familiarità con questo, la mia risposta qui: la differenza tra i modelli logit e probit , può aiutarti a capire di cosa tratta LR (anche se è scritto in un contesto diverso).
Sembra che tu abbia presentato due modelli, mi concentrerò principalmente su quello in alto. Inoltre, sembra che ci sia stato un errore di copiare e incollare il modello o l'uscita, così sarò scambiare leaves.presence
con Area
nell'output per renderlo coerente con il modello. Ecco il modello a cui mi riferisco (nota che ho aggiunto (link="logit")
, il che è implicito family=binomial
; vedi ? Glm e ? Famiglia ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Esaminiamo questo output (notare che ho cambiato il nome della variabile nella seconda riga sotto Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Proprio come ci sono residui nella regressione lineare (OLS), ci possono essere residui nella regressione logistica e altri modelli lineari generalizzati. Tuttavia, sono più complicati quando la variabile di risposta non è continua. I GLiM possono avere cinque diversi tipi di residui, ma ciò che viene elencato come standard sono i residui di devianza. ( Devianza e la devianza residui sono più avanzate, quindi sarò breve qui; se questa discussione è un po 'difficile da seguire, io non preoccupatevi troppo, si può saltare):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Per ogni punto dati utilizzato nel modello, viene calcolata la devianza associata a quel punto. Fatto questo per ogni punto, hai un insieme di tali residui e l'output sopra è semplicemente una descrizione non parametrica della loro distribuzione.
Successivamente vediamo le informazioni sulle covariate, che è ciò che le persone in genere sono principalmente interessate a:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0.) Nella colonna successiva, vediamo l' errore standard associato a queste stime. Cioè, sono una stima di quanto, in media, queste stime rimbalzerebbero se lo studio venisse ripetuto in modo identico, ma con nuovi dati, ancora e ancora. (Se non si ha molta familiarità con l'idea di un errore standard, può essere utile leggere la mia risposta qui: come interpretare gli errori standard del coefficiente nella regressione lineare .) Se dovessimo dividere la stima per l'errore standard, dovremmo ottenere un quoziente che si presume sia normalmente distribuito con campioni sufficientemente grandi. Questo valore è elencato in sotto z value
. Di seguito Pr(>|z|)
sono elencati i valori p a due codeche corrispondono a quei valori z in una distribuzione normale standard. Infine, ci sono le stelle di significato tradizionali (e nota la chiave sotto la tabella dei coefficienti).
Il Dispersion
linea è stampata di default con GLiMs, ma qui non aggiunge molte informazioni (è più importante con i modelli di conteggio, ad es.). Possiamo ignorarlo.
Infine, otteniamo informazioni sul modello e sulla sua bontà di adattamento:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
La linea su missingness
è spesso mancante. Si presenta qui perché hai avuto 314 osservazioni per il quale sia leaves.presence
, Area
o entrambi mancavano. Tali osservazioni parziali non sono state utilizzate per adattare il modello.
Il Residual deviance
è una misura della mancanza di adattamento del modello considerato nel suo complesso, mentre il Null deviance
è una tale misura per un modello ridotto che solo include l'intercetta. Si noti che i gradi di libertà associati a questi due differiscono di uno solo. Poiché il tuo modello ha una sola covariata, è stato stimato solo un parametro aggiuntivo (il Estimate
for Area
), e quindi è stato consumato solo un ulteriore grado di libertà. Questi due valori possono essere usati per condurre un test del modello nel suo insieme, che sarebbe analogo alla globaleF test che viene fornito con un modello di regressione lineare multipla. Dato che hai una sola covariata, un test del genere non sarebbe interessante in questo caso.
Il AIC è un'altra misura della bontà dell'adattamento che tiene conto della capacità del modello di adattarsi ai dati. Ciò è molto utile quando si confrontano due modelli in cui uno può adattarsi meglio, ma forse solo in virtù della sua maggiore flessibilità e quindi migliore capacità di adattamento di qualsiasi dato. Dal momento che hai un solo modello, questo non è informativo.
Il riferimento Fisher scoring iterations
ha a che fare con la stima del modello. Un modello lineare può essere adattato risolvendo equazioni in forma chiusa. Sfortunatamente, ciò non può essere fatto con la maggior parte dei GLiM, inclusa la regressione logistica. Invece, viene utilizzato un approccio iterativo (l' algoritmo Newton-Raphson di default). Liberamente, il modello si adatta sulla base di un'ipotesi su quali potrebbero essere le stime. L'algoritmo quindi si guarda intorno per vedere se l'adattamento sarebbe migliorato utilizzando invece stime diverse. In tal caso, si sposta in quella direzione (ad esempio, utilizzando un valore più elevato per la stima) e quindi si adatta nuovamente al modello. L'algoritmo si interrompe quando non si accorge che spostarsi di nuovo comporterebbe molti ulteriori miglioramenti. Questa riga indica quante iterazioni c'erano prima che il processo si arrestasse e producesse i risultati.
Per quanto riguarda il secondo modello e l'output che elenchi, questo è solo un modo diverso di visualizzare i risultati. In particolare, questi
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
sono lo stesso tipo di stime discusse sopra (anche se da un modello diverso e presentate con informazioni meno supplementari).