Il campionamento per la regressione logistica dovrebbe riflettere il rapporto reale tra 1 e 0?


23

Supponiamo di voler creare un modello di regressione logistica in grado di stimare una probabilità di insorgenza di alcune specie animali che vivono sugli alberi in base alle caratteristiche degli alberi (altezza fe). Come sempre, il mio tempo e denaro sono limitati, quindi sono in grado di raccogliere solo una dimensione del campione limitata.

Ho le seguenti domande: Il rapporto di 1 e 0 nel mio campione dovrebbe riflettere il rapporto reale di 1 e 0? (almeno approssimativamente) Ho notato che è una pratica comune eseguire un modello di regressione logistica con un campione bilanciato (uguale numero di 1 e 0) - ma tali modelli danno probabilità surrealiste di accadimento - giusto?

Ci sono articoli / libri di testo che posso usare per supportare ** l'idea che i modelli che non riflettono il rapporto reale di 1 e 0 siano " sbagliati "? **

E infine: è possibile eseguire il campionamento 1: 1 e successivamente correggere il modello con tau secondo Imai et al. 2007?

Kosuke Imai, Gary King e Olivia Lau. 2007. "recogit: regressione logistica di eventi rari per variabili dipendenti dicotomiche", in Kosuke Imai, Gary King e Olivia Lau, "Zelig: software statistico di tutti", http: //gking.harvard.edu/zelig.

inserisci qui la descrizione dell'immagine

I punti rappresentano gli alberi (rosso = occupato, grigio = non occupato). Sono in grado di identificare tutti gli alberi occupati con una precisione del 100% (1), ma non riesco a misurare tutti gli alberi nella foresta. Il modello è diverso per ciascuna strategia di campionamento (rapporto).

Risposte:


15

Se l'obiettivo di tale modello è la previsione, non è possibile utilizzare la regressione logistica non ponderata per prevedere i risultati: si supererà il rischio. Il punto di forza dei modelli logistici è che il odds ratio (OR) - la "pendenza" che misura l'associazione tra un fattore di rischio e un risultato binario in un modello logistico - è invariante al campionamento dipendente dal risultato. Quindi, se i casi vengono campionati in un rapporto 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 rispetto ai controlli, semplicemente non importa: l'OR rimane invariato in entrambi gli scenari fino a quando il campionamento è incondizionato sull'esposizione (che introdurrebbe il pregiudizio di Berkson). In effetti, il campionamento dipendente dal risultato è uno sforzo per risparmiare sui costi quando il semplice campionamento casuale completo non accadrà.

Perché le previsioni di rischio sono distorte dal campionamento dipendente dal risultato usando modelli logistici? Il campionamento dipendente dal risultato influisce sull'intercettazione in un modello logistico. Ciò fa sì che la curva di associazione a forma di S "scorra verso l'alto l'asse x" dalla differenza delle probabilità di registro di un caso in un semplice campione casuale nella popolazione e le probabilità di registro di campionare un caso in uno pseudo -popolazione del tuo disegno sperimentale. (Quindi se hai controlli 1: 1 da controllare, c'è una probabilità del 50% di campionare un caso in questa pseudo popolazione). In risultati rari, questa è una differenza abbastanza grande, un fattore di 2 o 3.

Quando parli di tali modelli come "sbagliati", allora devi concentrarti sul fatto che l'obiettivo sia inferenza (giusto) o previsione (sbagliato). Questo affronta anche il rapporto tra risultati e casi. La lingua che tendi a vedere intorno a questo argomento è quella di chiamare uno studio di questo tipo uno studio "case control", che è stato ampiamente scritto. Forse la mia pubblicazione preferita sull'argomento è Breslow and Day che come studio di riferimento ha caratterizzato i fattori di rischio per rare cause di cancro (precedentemente non fattibili a causa della rarità degli eventi). Gli studi di controllo dei casi scatenano alcune polemiche sulla frequente errata interpretazione dei risultati: in particolare la fusione dell'OR con il RR (esagera i risultati) e anche la "base di studio" come intermediario del campione e della popolazione che ne migliora i risultati.fornisce un'eccellente critica nei loro confronti. Nessuna critica, tuttavia, ha affermato che gli studi caso-controllo sono intrinsecamente non validi, intendo come potresti? Hanno avanzato la salute pubblica in innumerevoli viali. L'articolo di Miettenen è bravo a sottolineare che, puoi anche utilizzare modelli di rischio relativi o altri modelli nel campionamento dipendente dal risultato e descrivere le discrepanze tra i risultati e i risultati a livello di popolazione nella maggior parte dei casi: non è davvero peggio poiché l'OR è in genere un parametro difficile interpretare.

Probabilmente il modo migliore e più semplice per superare il pregiudizio di sovracampionamento nelle previsioni di rischio è usando la probabilità ponderata. Scott e Wild discutono di ponderazione e dimostrano che corregge il termine di intercettazione e le previsioni di rischio del modello. Questo è l'approccio migliore quando esiste una conoscenza a priori sulla percentuale di casi nella popolazione. Se la prevalenza del risultato è in realtà 1: 100 e si campionano i casi per i controlli in modo 1: 1, è sufficiente ponderare i controlli di una grandezza di 100 per ottenere parametri coerenti con la popolazione e previsioni di rischio imparziali. L'aspetto negativo di questo metodo è che non tiene conto dell'incertezza nella prevalenza della popolazione se è stato stimato con errori altrove. Questa è una vasta area di ricerca aperta, Lumley e Breslowè arrivato molto lontano con qualche teoria sul campionamento a due fasi e lo stimatore doppiamente robusto. Penso che sia roba tremendamente interessante. Il programma di Zelig sembra essere semplicemente un'implementazione della funzione di peso (che sembra un po 'ridondante poiché la funzione glm di R consente i pesi).


(+1) La correzione preventiva merita di essere menzionata come probabilmente il modo più semplice per regolare l'intercettazione per un semplice campionamento caso-controllo?
Scortchi - Ripristina Monica

@Scortchi Intendi la regressione logistica bayesiana con un precedente informativo sull'intercettazione? O ottimizzazione vincolata? In realtà non ho familiarità con quello che potrebbe essere.
AdamO,

1
Solo il semplice calcolo qui: stats.stackexchange.com/a/68726/17230 . (Non sono del tutto sicuro di dove abbia preso quella terminologia o di quanto sia standard.) Ho sentito che la ponderazione funziona meglio per i modelli specificati male.
Scortchi - Ripristina Monica

@Scortchi Ah, sarebbe abbastanza facile! Dovrebbe andare bene per la previsione purché non siano richieste stime di errore. La ponderazione ti darà una SE diversa per l'intercettazione e la pendenza, ma questo metodo non influirà su nessuno dei due.
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.