Creazione e selezione di modelli mediante Hosmer et al. 2013. Regressione logistica applicata in R


17

Questo è il mio primo post su StackExchange, ma lo uso da parecchio tempo, farò del mio meglio per utilizzare il formato appropriato e apportare le modifiche appropriate. Inoltre, questa è una domanda in più parti. Non ero sicuro di dover dividere la domanda in più post o in uno solo. Dal momento che le domande provengono tutte da una sezione dello stesso testo, ho pensato che sarebbe stato più rilevante pubblicare una domanda.

Sto studiando l'uso dell'habitat di una grande specie di mammiferi per una tesi di master. L'obiettivo di questo progetto è fornire ai gestori delle foreste (che probabilmente non sono statistici) un quadro pratico per valutare la qualità dell'habitat sulle terre che gestiscono nei confronti di questa specie. Questo animale è relativamente sfuggente, uno specialista dell'habitat e di solito si trova in aree remote. Sono stati condotti relativamente pochi studi sulla distribuzione delle specie, soprattutto stagionalmente. Diversi animali sono stati dotati di collari GPS per un periodo di un anno. Cento posizioni (50 estive e 50 invernali) sono state selezionate casualmente dai dati del collare GPS di ciascun animale. Inoltre, 50 punti sono stati generati casualmente all'interno dell'intervallo di casa di ciascun animale per fungere da posizioni "disponibili" o "pseudo-assenza".

Per ogni posizione, sul campo sono state campionate diverse variabili di habitat (diametro dell'albero, copertura orizzontale, detriti legnosi grossolani, ecc.) E diverse sono state campionate a distanza tramite GIS (elevazione, distanza dalla strada, robustezza, ecc.). Le variabili sono per lo più continue ad eccezione di 1 variabile categoriale che ha 7 livelli.

Il mio obiettivo è utilizzare il modello di regressione per creare funzioni di selezione delle risorse (RSF) per modellare la probabilità relativa di utilizzo delle unità di risorse. Vorrei costruire un RSF stagionale (invernale ed estivo) per la popolazione di animali (tipo di progettazione I) e per ogni singolo animale (tipo di progettazione III).

Sto usando R per eseguire l'analisi statistica.

Il testo principale che ho usato è ...

  • "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Regressione logistica applicata. Wiley, Chicester".

La maggior parte degli esempi in Hosmer et al. uso STATA, sono stato anche utilizzando i seguenti 2 testi per riferimento con R .

  • "Crawley, MJ 2005. Statistiche: un'introduzione con RJ Wiley, Chichester, West Sussex, Inghilterra."
  • "Plant, RE 2012. Analisi dei dati territoriali in ecologia e agricoltura utilizzando R. CRC Press, Londra, GBR."

Attualmente sto seguendo i passaggi del capitolo 4 di Hosmer et al. per la "Selezione intenzionale di covariate" e alcune domande sul processo. Ho delineato i primi passi nel testo qui sotto per aiutare nelle mie domande.

  1. Step 1: Un'analisi univariabile di ogni variabile indipendente (ho usato una regressione logistica univariabile). Qualsiasi variabile il cui test univariabile ha un valore p inferiore a 0,25 deve essere inclusa nel primo modello multivariabile.
  2. Passaggio 2: inserire un modello multivariabile contenente tutte le covariate identificate per l'inclusione nel passaggio 1 e per valutare l'importanza di ciascuna covariata utilizzando il valore p della sua statistica Wald. Le variabili che non contribuiscono ai livelli tradizionali di significatività dovrebbero essere eliminate e un nuovo modello adatto. Il modello più recente, più piccolo, deve essere confrontato con il vecchio modello più grande utilizzando il test del rapporto di verosimiglianza parziale.
  3. Passaggio 3: confrontare i valori dei coefficienti stimati nel modello più piccolo con i rispettivi valori del modello grande. Qualsiasi variabile il cui coefficiente è notevolmente cambiato in grandezza dovrebbe essere aggiunta nel modello in quanto è importante nel senso di fornire un aggiustamento necessario dell'effetto delle variabili che rimangono nel modello. Passare attraverso i passaggi 2 e 3 fino a quando non appare che tutte le variabili importanti sono incluse nel modello e quelle escluse sono clinicamente e / o statisticamente irrilevanti. Hosmer et al. usa il " delta-beta-hat-percent " come misura della variazione di grandezza dei coefficienti. Suggeriscono un cambiamento significativo come percentuale delta-beta-hat del> 20%. Hosmer et al. definire delta-beta-hat-percent come . Doveθ1è il coefficiente dal modello più piccolo eβ1è il coefficiente del modello più grande.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. Passaggio 4: aggiungere ogni variabile non selezionata nel passaggio 1 al modello ottenuto alla fine del passaggio 3, uno alla volta, e verificarne il significato mediante il valore p statistico di Wald o il test del rapporto di verosimiglianza parziale se si tratta di una categoria variabile con più di 2 livelli. Questo passaggio è fondamentale per identificare le variabili che, da sole, non sono significativamente correlate al risultato ma danno un contributo importante in presenza di altre variabili. Ci riferiamo al modello alla fine del Passaggio 4 come modello preliminare degli effetti principali .
  5. Passaggi 5-7: non sono progredito fino a questo punto, quindi per ora lascerò questi passaggi o li salverò per una domanda diversa.

Le mie domande:

  1. Nel passaggio 2, quale sarebbe appropriato come livello di significatività tradizionale, un valore p <0,05 qualcosa di più grande come <0,25?
  2. Nel passaggio 2, desidero assicurarmi che il codice R che ho usato per il test di verosimiglianza parziale sia corretto e voglio assicurarmi di interpretare correttamente i risultati. Ecco cosa ho fatto ... anova(smallmodel,largemodel,test='Chisq')Se il valore p è significativo (<0,05) Aggiungo la variabile al modello, se è insignificante procedo con l'eliminazione?
  3. Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


per curiosità qual è la specie che stai studiando?
previsioni

Risposte:


23

Pβ


3
Sì, conoscenza del dominio + una sana dose di incredulità nella semplicità, ad esempio, non dare per scontato che le variabili continue agiscano in modo lineare a meno che non si disponga di dati precedenti che dimostrino la linearità.
Frank Harrell,

6
L'OP sta citando un testo mainstream nella sua terza edizione con autori che hanno dato un grande contributo al campo. Altri punti sollevati nell'interrogazione sono discussi in altri testi influenti (Agresti, Gelman). Lo sostengo non perché sono d'accordo con questa strategia, ma piuttosto per notare che queste strategie sono consigliate nei recenti testi tradizionali da statistici rispettati. In breve: sebbene ci sia molta letteratura che sconsiglia questo, non sembra essere respinto dalla comunità statistica.
luglio

2
Questo è abbastanza fuorviante secondo la mia modesta opinione. Le strategie spinte così duramente in alcuni testi non sono mai state validate. Gli autori che non credono nella simulazione si mettono a rischio di sostenere l'uso di metodi che non funzionano come pubblicizzato.
Frank Harrell,

2
Si, lo so. Mi riferisco spesso al tuo testo e alle tue pubblicazioni, ed è una delle fonti che ho usato per arrivare alla mia conclusione in disaccordo con la strategia di cui sopra. Sto semplicemente trasmettendo il dilemma dell'utente applicato. Non possiamo testare tutto. Facciamo affidamento su esperti come te.
luglio

3
@GNG: FH si riferisce alla simulazione come un modo per dimostrare che questo approccio alla selezione del modello fa effettivamente ciò che dovrebbe fare (presumibilmente per migliorare la precisione delle previsioni del modello) in applicazioni tipiche. Le tue (astute) domande evidenziano la sua inclusione piuttosto arbitraria, ad hoc, basata sulla natura, su un numero indeterminato di test di significatività a livelli "tradizionali" non può essere dimostrato dalla teoria per garantire l'ottimizzazione di nulla.
Scortchi - Ripristina Monica

5

I metodi specificati per la selezione delle variabili usando statistiche come P, la regressione graduale nel testo classico Hosmer et al dovrebbero essere evitati a tutti i costi.

Di recente mi sono imbattuto in un articolo pubblicato sulla rivista internazionale di previsione intitolata " Illusioni di prevedibilità " e un commento su questo articolo di Keith ord . Consiglio vivamente entrambi questi articoli in quanto mostrano chiaramente che l'uso della statistica di regressione è spesso fuorviante. Il seguente è uno screenshot dell'articolo di Keith Ord che mostra per simulazione perché la regressione saggia per passo (usa la statistica p) per la selezione delle variabili è cattiva.

inserisci qui la descrizione dell'immagine

Un altro meraviglioso articolo di Scott Armstrong che è apparso nello stesso numero della rivista mostra perché si dovrebbe essere molto cauti nell'utilizzare l'analisi di regressione su dati non sperimentali con casi di studio. Da quando ho letto questi articoli, evito di usare l'analisi di regressione per disegnare inferenze causali su dati non sperimentali. Come praticante, vorrei aver letto articoli come questo per molti anni che mi avrebbero salvato dal prendere decisioni sbagliate ed evitare costosi errori.

Per quanto riguarda il tuo problema specifico, non credo che nel tuo caso siano possibili esperimenti randomizzati, quindi ti consiglio di usare la validazione incrociata per selezionare le variabili. Un buon esempio elaborato è disponibile in questo libro online gratuito su come usare l'accuratezza predittiva per selezionare le variabili. Ha anche molti altri metodi di selezione variabili, ma mi limiterei a convalidare in modo incrociato.

Personalmente mi piace la citazione di Armstrong "Da qualche parte ho avuto l'idea che le statistiche avrebbero dovuto favorire la comunicazione. Metodi di regressione complessi e uno stormo di statistiche diagnostiche ci hanno portato nella direzione opposta"

Di seguito è la mia opinione. Non sono uno statistico.

  • Come biologo penso che apprezzerai questo punto. La natura è molto complessa, assumendo una funzione logistica e in natura non si verifica alcuna interazione tra variabili. Inoltre, la regressione logistica ha i seguenti presupposti :

  • Le vere probabilità condizionali sono una funzione logistica delle variabili indipendenti.

  • Non vengono omesse variabili importanti. Non sono incluse variabili estranee.

  • Le variabili indipendenti vengono misurate senza errori.
  • Le osservazioni sono indipendenti.
  • Le variabili indipendenti non sono combinazioni lineari tra loro.

Vorrei raccomandare l'albero di classificazione e regressione (CART (r)) come alternativa alla regressione logistica per questo tipo di analisi perché è privo di presupposti:

  1. Non parametrico / Data Driven / Nessuna ipotesi che le probabilità di output seguano la funzione logistica.
  2. Non lineare
  3. consente complesse interazioni variabili.
  4. Fornisce alberi visivi altamente interpretabili che un non statistico come i gestori delle foreste apprezzerebbe.
  5. Gestisce facilmente i valori mancanti.
  6. Non è necessario essere uno statistico per usare il CARRELLO !!
  7. seleziona automaticamente le variabili usando la validazione incrociata.

CART è un marchio di Salford Systems. Guarda questo video per l'introduzione e la storia di CART. Ci sono anche altri video come ibridi di regressione carrello - logistica nello stesso sito web. Vorrei dare un'occhiata. un'impentazione open source in R si chiama Albero , e ci sono molti altri pacchetti come sonaglio disponibili in R. Se trovo il tempo, posterò il primo esempio nel testo di Homser usando CART. Se insisti nell'utilizzare la regressione logistica, utilizzerei almeno metodi come CART per selezionare le variabili e quindi applicare la regressione logistica.

Personalmente preferisco il CART alla regressione logistica a causa dei vantaggi di cui sopra. Tuttavia, proverei sia la regressione logistica sia l'ibrido di regressione CART o CART-Logistc e vedrei quale offre una migliore precisione predittiva e anche un'interpretazione più importante e scegliere quello che ritieni "comunichi" i dati in modo più chiaro.

Inoltre, FYI CART è stato respinto dalle principali riviste statistiche e alla fine gli inventori di CART sono usciti con una monografia. CART ha spianato la strada a algoritmi di apprendimento automatico moderni e di grande successo come Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Regressione adattiva Splines. Randomforest e GBM sono più precisi di CART ma meno interpretabili (come una scatola nera) di CART.

Speriamo che sia utile Fammi sapere se trovi utile questo post?


8
Y

3
Questa risposta salta da commenti generali, molti dei quali mi sembrano non controversi, almeno per un'approvazione altamente specifica e piuttosto personale di CART come metodo di scelta. Hai diritto alle tue opinioni, in quanto altri avranno diritto alle loro obiezioni. Il mio suggerimento è di contrassegnare in modo piuttosto chiaro il duplice sapore della tua risposta.
Nick Cox,

2
La regressione logistica è un modello lineare generalizzato, ma per il resto è difendibile come, anzi ben motivato come, un modello naturalmente non lineare (nel senso che si adatta a curve o equivalenti, non linee o equivalenti, nel solito spazio) che ben si adatta a risposte binarie. L'appello alla biologia qui è a doppio taglio; i modelli storicamente logistici per le risposte binarie sono stati ispirati dai modelli per la crescita logistica (ad es. delle popolazioni) in biologia!
Nick Cox,

The Soyer et al. carta, carta Armstrong e commenti sono tutti molto buoni. Li ho letti su questo fine settimana. Grazie per averli suggeriti. Non essendo uno statistico, non posso commentare l'uso della CART sulla regressione logistica. Tuttavia, la tua risposta è molto ben scritta, utile e ha ricevuto commenti perspicaci. Ho letto metodi di apprendimento automatico come CART, MaxEnt e ho potenziato gli alberi di regressione e sto pensando di discuterne con il mio comitato per ottenere informazioni dettagliate. Quando avrò del tempo libero, anche il video CART dovrebbe essere interessante.
GNG,

3
Con un sorriso penso che possiamo invertire i tuoi commenti su modelli lineari e insistere sul fatto che lungi dall'essere privo di assunzioni, o persino di assunzione di luce, CART presume che la realtà sia come un albero (cos'altro?). Se pensi che la natura sia un continuum che varia senza intoppi, dovresti correre nella direzione opposta.
Nick Cox,

3

Penso che tu stia cercando di prevedere la presenza della specie con un approccio presenza / sfondo, che è ben documentato su riviste come Metodi in Ecologia ed Evoluzione, Ecografia, ecc. Forse il dismo del pacchetto R è utile per il tuo problema. Include una bella vignetta. Usare la dismo o altri pacchetti simili implica cambiare l'approccio al problema, ma credo che valga la pena dare un'occhiata.


2
Cosa ti impedisce di specificare un modello? Perché la grande incertezza su ciò che dovrebbe essere nel modello? Perché la necessità di selezionare un modello usando GLM?
Frank Harrell,

1
Temo che tu stia mescolando alcuni concetti. (1) in effetti maxent è un dato di presenza / sfondo o dati di presenza / pseudo-assenza. Quindi, maxent utilizza i dati di sola presenza e aggiunge alcuni punti dal panorama, ovvero lo sfondo / pseudo-assenze. Pertanto, può essere utilizzato nel tuo caso. (2) I GLM sono stati progettati per essere utilizzati con assenze "vere". Tuttavia, GLM è stato adattato per i dati di presenza / pseudo-assenza. (3) il pacchetto dismo offre alberi di regressione potenziati ma non solo. Puoi anche inserire GLM, basta seguire una delle vignette del pacchetto (ce ne sono 2).
Hugo,

1
Se la tua domanda riguarda quali variabili dovresti includere come predittori, dai un'occhiata a questi documenti: Sheppard 2013. In che modo la selezione delle variabili climatiche influenza le previsioni delle distribuzioni delle specie? Un caso di studio di tre nuove erbacce in Nuova Zelanda. Weed Research; Harris, et al. 2013. Essere o non essere? La selezione variabile può cambiare il destino previsto di una specie minacciata in un clima futuro. Ecol. Manag. Restor.
Hugo,

2
Il pensiero che le tecniche di selezione delle variabili riducano in qualche modo il sovradimensionamento è strano. L'apparente risparmio di variabili dalla riduzione del modello è completamente un'illusione quando la riduzione viene dai dati stessi.
Frank Harrell,

1
@GNG: "La mia incertezza nel lasciare tutte le variabili nel modello deriva da tutto ciò che mi è stato insegnato sulla collinearità e sull'adattamento eccessivo" - Il tuo modello contiene predittori altamente collineari? Il tuo modello è troppo adatto?
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.