Entrambi i test modellano implicitamente la relazione età-risposta, ma lo fanno in modi diversi. Quale selezionare dipende da come si sceglie di modellare quella relazione. La tua scelta dovrebbe dipendere da una teoria di base, se ce n'è una; su quale tipo di informazioni desideri estrarre dai risultati; e su come viene selezionato il campione. Questa risposta discute questi tre aspetti in ordine.
Descriverò il test t e la regressione logistica usando un linguaggio che suppone che tu stia studiando una popolazione ben definita di persone e desideri fare delle deduzioni dal campione a questa popolazione.
Al fine di supportare qualsiasi tipo di inferenza statistica, dobbiamo supporre che il campione sia casuale.
Un test t presuppone che le persone nel campione che rispondono "no" siano un semplice campione casuale di tutti i non rispondenti nella popolazione e che le persone nel campione che rispondono "sì" sono un semplice campione casuale di tutti i rispondenti sì nel popolazione.
Un test t fa ulteriori ipotesi tecniche sulle distribuzioni delle età all'interno di ciascuno dei due gruppi nella popolazione. Esistono varie versioni del test t per gestire le probabili possibilità.
La regressione logistica presuppone che tutte le persone di qualsiasi data età siano un semplice campione casuale delle persone di quell'età nella popolazione. Le fasce di età separate possono presentare tassi diversi di risposte "sì". Queste percentuali, quando espresse come probabilità di log (piuttosto che come proporzioni diritte), si presume siano correlate linearmente con l'età (o con alcune determinate funzioni dell'età).
La regressione logistica si estende facilmente per adattarsi alle relazioni non lineari tra età e risposta. Tale estensione può essere utilizzata per valutare la plausibilità dell'assunzione lineare iniziale. È praticabile con set di dati di grandi dimensioni, che offrono dettagli sufficienti per visualizzare non linearità, ma è improbabile che possano essere di grande utilità con set di dati di piccole dimensioni. Una regola empirica comune - che i modelli di regressione dovrebbero avere dieci volte più osservazioni dei parametri - suggerisce che sono necessarie sostanzialmente più di 20 osservazioni per rilevare la non linearità (che necessita di un terzo parametro oltre all'intercettazione e alla pendenza di una funzione lineare ).
Un test t rileva se l'età media differisce tra il no e il sì nella popolazione. Una regressione logistica stima come il tasso di risposta varia in base all'età. In quanto tale, è più flessibile e in grado di fornire informazioni più dettagliate rispetto al test t. D'altra parte, tende ad essere meno potente del test t allo scopo di base di rilevare una differenza tra l'età media nei gruppi.
È possibile che la coppia di test mostri tutte e quattro le combinazioni di significato e non significato. Due di questi sono problematici:
Il t-test non è significativo ma la regressione logistica lo è. Quando le ipotesi di entrambi i test sono plausibili, un tale risultato è praticamente impossibile, perché il test t non sta cercando di rilevare una relazione così specifica come postulata dalla regressione logistica. Tuttavia, quando tale relazione è sufficientemente non lineare per indurre i soggetti più vecchi e più giovani a condividere un'opinione e i soggetti di mezza età un'altra, allora l'estensione della regressione logistica alle relazioni non lineari può rilevare e quantificare quella situazione, che nessun test t potrebbe rilevare .
Il test t è significativo ma la regressione logistica non lo è, come nella domanda. Ciò accade spesso, specialmente quando c'è un gruppo di intervistati più giovani, un gruppo di intervistati più anziani e poche persone in mezzo. Ciò può creare una grande separazione tra i tassi di risposta dei risponditori no e yes. Viene facilmente rilevato dal test t. Tuttavia, la regressione logistica avrebbe informazioni relativamente poco dettagliate su come il tasso di risposta cambia effettivamente con l'età oppure avrebbe informazioni inconcludenti: il caso della "separazione completa" in cui tutte le persone anziane rispondono in un modo e tutti i giovani in un altro modo-- ma in quel caso entrambi i test di solito avrebbero valori p molto bassi.
Si noti che il progetto sperimentale può invalidare alcune delle ipotesi di test. Ad esempio, se hai selezionato le persone in base alla loro età in un disegno stratificato, allora l'assunto del t-test (che ogni gruppo riflette un semplice campione casuale di età) diventa discutibile. Questo progetto suggerirebbe di fare affidamento sulla regressione logistica. Se invece avevi due pool, uno di no-responder e uno di yes-responder, e scelti a caso da quelli per accertare la loro età, allora i presupposti di campionamento della regressione logistica sono dubbi mentre quelli del t-test terranno. Tale progetto suggerirebbe di utilizzare una qualche forma di test t.
(Il secondo disegno potrebbe sembrare sciocco qui, ma in circostanze in cui "l'età" è sostituita da alcune caratteristiche che è difficile, costoso o che richiede tempo per misurarlo, può essere interessante.)