Regressione logistica o test T?


17

Un gruppo di persone risponde a una domanda. La risposta può essere "sì" o "no". Il ricercatore vuole sapere se l'età è associata al tipo di risposta.

L'associazione è stata valutata facendo una regressione logistica in cui l'età è la variabile esplicativa e il tipo di risposta (sì, no) è la variabile dipendente. È stato affrontato separatamente calcolando l'età media dei gruppi che hanno risposto "sì" e "no", rispettivamente, e conducendo un test T per confrontare le medie .

Entrambi i test sono stati eseguiti seguendo i consigli di diverse persone e nessuno dei due è sicuro di quale sia la strada giusta da percorrere. Alla luce della domanda di ricerca, quale sarebbe il test migliore?

Per i test di ipotesi i valori di p non erano significativi (regressione) e significativi (test T). Il campione è inferiore a 20 casi.


2
Non sono sicuro che questa sia la tua vera domanda. Hai già eseguito entrambe le analisi di cui stai chiedendo. Immagino che ciò che vuoi davvero sapere sia qualcosa sui confronti tra o le relazioni tra quei test, per esempio che è meglio. Modifica la tua domanda per risolverlo.
John,

Entrambi i test sono stati eseguiti seguendo i consigli di diverse persone e nessuno di loro è sicuro se questa sia la strada giusta da percorrere. Alla luce delle domande di ricerca (l'età è associata al tipo di risposta?) Quale sarebbe il test migliore, la regressione logistica del tipo di risposta sull'età o un test T confrontando l'età media delle persone che hanno risposto "sì" con la media età delle persone che hanno risposto "no"?
Gwen,

Risposte:


19

Entrambi i test modellano implicitamente la relazione età-risposta, ma lo fanno in modi diversi. Quale selezionare dipende da come si sceglie di modellare quella relazione. La tua scelta dovrebbe dipendere da una teoria di base, se ce n'è una; su quale tipo di informazioni desideri estrarre dai risultati; e su come viene selezionato il campione. Questa risposta discute questi tre aspetti in ordine.


Descriverò il test t e la regressione logistica usando un linguaggio che suppone che tu stia studiando una popolazione ben definita di persone e desideri fare delle deduzioni dal campione a questa popolazione.

Al fine di supportare qualsiasi tipo di inferenza statistica, dobbiamo supporre che il campione sia casuale.

  • Un test t presuppone che le persone nel campione che rispondono "no" siano un semplice campione casuale di tutti i non rispondenti nella popolazione e che le persone nel campione che rispondono "sì" sono un semplice campione casuale di tutti i rispondenti sì nel popolazione.

    Un test t fa ulteriori ipotesi tecniche sulle distribuzioni delle età all'interno di ciascuno dei due gruppi nella popolazione. Esistono varie versioni del test t per gestire le probabili possibilità.

  • La regressione logistica presuppone che tutte le persone di qualsiasi data età siano un semplice campione casuale delle persone di quell'età nella popolazione. Le fasce di età separate possono presentare tassi diversi di risposte "sì". Queste percentuali, quando espresse come probabilità di log (piuttosto che come proporzioni diritte), si presume siano correlate linearmente con l'età (o con alcune determinate funzioni dell'età).

    La regressione logistica si estende facilmente per adattarsi alle relazioni non lineari tra età e risposta. Tale estensione può essere utilizzata per valutare la plausibilità dell'assunzione lineare iniziale. È praticabile con set di dati di grandi dimensioni, che offrono dettagli sufficienti per visualizzare non linearità, ma è improbabile che possano essere di grande utilità con set di dati di piccole dimensioni. Una regola empirica comune - che i modelli di regressione dovrebbero avere dieci volte più osservazioni dei parametri - suggerisce che sono necessarie sostanzialmente più di 20 osservazioni per rilevare la non linearità (che necessita di un terzo parametro oltre all'intercettazione e alla pendenza di una funzione lineare ).

Un test t rileva se l'età media differisce tra il no e il sì nella popolazione. Una regressione logistica stima come il tasso di risposta varia in base all'età. In quanto tale, è più flessibile e in grado di fornire informazioni più dettagliate rispetto al test t. D'altra parte, tende ad essere meno potente del test t allo scopo di base di rilevare una differenza tra l'età media nei gruppi.

È possibile che la coppia di test mostri tutte e quattro le combinazioni di significato e non significato. Due di questi sono problematici:

  • Il t-test non è significativo ma la regressione logistica lo è. Quando le ipotesi di entrambi i test sono plausibili, un tale risultato è praticamente impossibile, perché il test t non sta cercando di rilevare una relazione così specifica come postulata dalla regressione logistica. Tuttavia, quando tale relazione è sufficientemente non lineare per indurre i soggetti più vecchi e più giovani a condividere un'opinione e i soggetti di mezza età un'altra, allora l'estensione della regressione logistica alle relazioni non lineari può rilevare e quantificare quella situazione, che nessun test t potrebbe rilevare .

  • Il test t è significativo ma la regressione logistica non lo è, come nella domanda. Ciò accade spesso, specialmente quando c'è un gruppo di intervistati più giovani, un gruppo di intervistati più anziani e poche persone in mezzo. Ciò può creare una grande separazione tra i tassi di risposta dei risponditori no e yes. Viene facilmente rilevato dal test t. Tuttavia, la regressione logistica avrebbe informazioni relativamente poco dettagliate su come il tasso di risposta cambia effettivamente con l'età oppure avrebbe informazioni inconcludenti: il caso della "separazione completa" in cui tutte le persone anziane rispondono in un modo e tutti i giovani in un altro modo-- ma in quel caso entrambi i test di solito avrebbero valori p molto bassi.

Si noti che il progetto sperimentale può invalidare alcune delle ipotesi di test. Ad esempio, se hai selezionato le persone in base alla loro età in un disegno stratificato, allora l'assunto del t-test (che ogni gruppo riflette un semplice campione casuale di età) diventa discutibile. Questo progetto suggerirebbe di fare affidamento sulla regressione logistica. Se invece avevi due pool, uno di no-responder e uno di yes-responder, e scelti a caso da quelli per accertare la loro età, allora i presupposti di campionamento della regressione logistica sono dubbi mentre quelli del t-test terranno. Tale progetto suggerirebbe di utilizzare una qualche forma di test t.

(Il secondo disegno potrebbe sembrare sciocco qui, ma in circostanze in cui "l'età" è sostituita da alcune caratteristiche che è difficile, costoso o che richiede tempo per misurarlo, può essere interessante.)


La maggior parte delle preoccupazioni di non linearità e separazione saranno alleviate usando una spline sulla variabile età? A tale proposito, mi scuso ma non riesco a capire perché il progetto "aggregato" invaliderebbe i risultati della regressione logistica. Certo, l'ipotesi di un campione casuale è sparita ma ci preoccupiamo dato che facciamo questa scelta progettuale? Stai alludendo al bias di selezione? (Il design che descrivi mi sembra uno studio caso-controllo, ma potrei sbagliarmi ...) (+1 ovviamente)
usεr11852 dice Reinstate Monic

@ usεr11852 Grazie per i tuoi commenti ponderati. Ho riscritto alcuni passaggi per chiarire i punti sollevati. Sebbene dividere l'età possa far fronte alla non linearità nella regressione logistica, può aumentare la possibilità di una separazione completa. Non sono sicuro di cosa intendi per "progettazione congiunta", ma sarei sospettoso degli sforzi per interpretare i valori p di una regressione logistica in cui un modello di probabilità non può essere giustificato (che è ciò che il campionamento casuale ci consente di fare).
whuber

Grazie per questi Sì, apprezzo pienamente il punto che dedichi sulla completa separazione (effetti Hauck-Donner), non li ho presi in considerazione. OK, capisco cosa intendi ora riguardo ai due pool ora. In tal caso avremmo un concetto di studio osservazionale concordato (osserviamo / definiamo i due pool), quindi dovremmo cercare il modo per controllarlo (punteggi di propensione, ecc.)
usεr11852 dice Reinstate Monic

5

tXY

X|Y=io~N(μio,σ2).
Y~bernoulli(p)YX=X
P(Y=1|X=x)=fX|Y=1(x)P(Y=1)i=01fX|Y=i(x)P(Y=i)=pe12σ2(xμ1)2pe12σ2(xμ1)2+(1p)e12σ2(xμ0)2=11+1ppe12σ2(xμ0)2+12σ2(xμ1)2=logit1(β0+β1x)
β0=lnp1p-12σ2(μ12-μ02)β1=1σ2(μ1-μ0).

Quindi in questo senso i due modelli condizionali sono compatibili.


3

Il test migliore è quello che risponde meglio alla tua domanda. Né è solo meglio sulla sua faccia. Le differenze qui sono equivalenti a quelle trovate quando si regredisce y su xe x su y e le ragioni di risultati diversi sono simili. La varianza da valutare dipende da quale variabile viene trattata come variabile di risposta nel modello.

La tua domanda di ricerca è tremendamente vaga. Forse, se considerassi la direzione della causalità, potresti giungere a una conclusione su quale analisi desideri utilizzare. L'età fa sì che le persone rispondano "sì" o sta rispondendo "sì" facendo invecchiare le persone? È più probabile il primo, nel qual caso la varianza nella probabilità di un "sì" è ciò che desideri modellare e quindi la regressione logistica è la scelta migliore.

Detto questo, dovresti esaminare i presupposti dei test. Questi possono essere trovati online su Wikipedia o nei tuoi libri di testo su di essi. Può darsi che tu abbia buone ragioni per non eseguire la regressione logistica e, quando ciò accade, potresti dover porre una domanda diversa.


1
Intendi "non eseguire la regressione logistica"?
mark999,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.