Questo è il mio primo post su StackExchange, ma lo uso da parecchio tempo, farò del mio meglio per utilizzare il formato appropriato e apportare le modifiche appropriate. Inoltre, questa è una domanda in più parti. Non ero sicuro di dover dividere la domanda in più post o in uno solo. Dal momento che le domande provengono tutte da una sezione dello stesso testo, ho pensato che sarebbe stato più rilevante pubblicare una domanda.
Sto studiando l'uso dell'habitat di una grande specie di mammiferi per una tesi di master. L'obiettivo di questo progetto è fornire ai gestori delle foreste (che probabilmente non sono statistici) un quadro pratico per valutare la qualità dell'habitat sulle terre che gestiscono nei confronti di questa specie. Questo animale è relativamente sfuggente, uno specialista dell'habitat e di solito si trova in aree remote. Sono stati condotti relativamente pochi studi sulla distribuzione delle specie, soprattutto stagionalmente. Diversi animali sono stati dotati di collari GPS per un periodo di un anno. Cento posizioni (50 estive e 50 invernali) sono state selezionate casualmente dai dati del collare GPS di ciascun animale. Inoltre, 50 punti sono stati generati casualmente all'interno dell'intervallo di casa di ciascun animale per fungere da posizioni "disponibili" o "pseudo-assenza".
Per ogni posizione, sul campo sono state campionate diverse variabili di habitat (diametro dell'albero, copertura orizzontale, detriti legnosi grossolani, ecc.) E diverse sono state campionate a distanza tramite GIS (elevazione, distanza dalla strada, robustezza, ecc.). Le variabili sono per lo più continue ad eccezione di 1 variabile categoriale che ha 7 livelli.
Il mio obiettivo è utilizzare il modello di regressione per creare funzioni di selezione delle risorse (RSF) per modellare la probabilità relativa di utilizzo delle unità di risorse. Vorrei costruire un RSF stagionale (invernale ed estivo) per la popolazione di animali (tipo di progettazione I) e per ogni singolo animale (tipo di progettazione III).
Sto usando R per eseguire l'analisi statistica.
Il testo principale che ho usato è ...
- "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Regressione logistica applicata. Wiley, Chicester".
La maggior parte degli esempi in Hosmer et al. uso STATA, sono stato anche utilizzando i seguenti 2 testi per riferimento con R .
- "Crawley, MJ 2005. Statistiche: un'introduzione con RJ Wiley, Chichester, West Sussex, Inghilterra."
- "Plant, RE 2012. Analisi dei dati territoriali in ecologia e agricoltura utilizzando R. CRC Press, Londra, GBR."
Attualmente sto seguendo i passaggi del capitolo 4 di Hosmer et al. per la "Selezione intenzionale di covariate" e alcune domande sul processo. Ho delineato i primi passi nel testo qui sotto per aiutare nelle mie domande.
- Step 1: Un'analisi univariabile di ogni variabile indipendente (ho usato una regressione logistica univariabile). Qualsiasi variabile il cui test univariabile ha un valore p inferiore a 0,25 deve essere inclusa nel primo modello multivariabile.
- Passaggio 2: inserire un modello multivariabile contenente tutte le covariate identificate per l'inclusione nel passaggio 1 e per valutare l'importanza di ciascuna covariata utilizzando il valore p della sua statistica Wald. Le variabili che non contribuiscono ai livelli tradizionali di significatività dovrebbero essere eliminate e un nuovo modello adatto. Il modello più recente, più piccolo, deve essere confrontato con il vecchio modello più grande utilizzando il test del rapporto di verosimiglianza parziale.
- Passaggio 3: confrontare i valori dei coefficienti stimati nel modello più piccolo con i rispettivi valori del modello grande. Qualsiasi variabile il cui coefficiente è notevolmente cambiato in grandezza dovrebbe essere aggiunta nel modello in quanto è importante nel senso di fornire un aggiustamento necessario dell'effetto delle variabili che rimangono nel modello. Passare attraverso i passaggi 2 e 3 fino a quando non appare che tutte le variabili importanti sono incluse nel modello e quelle escluse sono clinicamente e / o statisticamente irrilevanti. Hosmer et al. usa il " delta-beta-hat-percent " come misura della variazione di grandezza dei coefficienti. Suggeriscono un cambiamento significativo come percentuale delta-beta-hat del> 20%. Hosmer et al. definire delta-beta-hat-percent come . Doveθ1è il coefficiente dal modello più piccolo eβ1è il coefficiente del modello più grande.
- Passaggio 4: aggiungere ogni variabile non selezionata nel passaggio 1 al modello ottenuto alla fine del passaggio 3, uno alla volta, e verificarne il significato mediante il valore p statistico di Wald o il test del rapporto di verosimiglianza parziale se si tratta di una categoria variabile con più di 2 livelli. Questo passaggio è fondamentale per identificare le variabili che, da sole, non sono significativamente correlate al risultato ma danno un contributo importante in presenza di altre variabili. Ci riferiamo al modello alla fine del Passaggio 4 come modello preliminare degli effetti principali .
- Passaggi 5-7: non sono progredito fino a questo punto, quindi per ora lascerò questi passaggi o li salverò per una domanda diversa.
Le mie domande:
- Nel passaggio 2, quale sarebbe appropriato come livello di significatività tradizionale, un valore p <0,05 qualcosa di più grande come <0,25?
- Nel passaggio 2, desidero assicurarmi che il codice R che ho usato per il test di verosimiglianza parziale sia corretto e voglio assicurarmi di interpretare correttamente i risultati. Ecco cosa ho fatto ...
anova(smallmodel,largemodel,test='Chisq')
Se il valore p è significativo (<0,05) Aggiungo la variabile al modello, se è insignificante procedo con l'eliminazione? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])