Test di indipendenza vs test di omogeneità


10

Sto insegnando un corso di statistica di base e oggi tratterò il test chi-quadrato di indipendenza per due categorie e il test di omogeneità. Questi due scenari sono concettualmente diversi, ma possono utilizzare la stessa statistica e distribuzione di test. In un test di omogeneità, si presume che i totali marginali per una delle categorie facciano parte del progetto stesso: rappresentano il numero di soggetti selezionati per ciascun gruppo sperimentale. Ma poiché il test chi-quadrato ruota attorno al condizionamento su tutti i totali marginali, non ci sono conseguenze matematiche sulla distinzione tra test di omogeneità e test di indipendenza con dati categorici - almeno nessuno quando viene utilizzato questo test.

La mia domanda è la seguente: esiste qualche scuola di pensiero statistico o approccio statistico che potrebbe produrre analisi diverse, a seconda che stiamo testando l'indipendenza (dove tutti i marginali sono variabili casuali) o un test di omogeneità (dove un insieme di marginali è impostato dal design)?

Nel caso continuo, diciamo dove osserviamo sullo stesso soggetto e testiamo l'indipendenza, oppure osserviamo in popolazioni diverse e testiamo se provengono dalla stessa distribuzione, il metodo è diverso (correlazione analisi vs t-test). E se i dati categorici provenissero da variabili continue discretizzate? I test di indipendenza e omogeneità dovrebbero essere indistinguibili?( X 1 , X 2 )(X,Y)(X1,X2)


2
Potete fornire una fonte che distingue "test di omogeneità" e "test di indipendenza"? Ho pensato che fosse lo stesso (e anche Wikipedia ). Viene anche chiamato il test chi- quadro dell'associazione per la tabella di contigenza a 2 vie o il test di confronto chi-quadrato dei campioni indipendenti da K. Non deve essere confuso con il test del chi-quadro a un campione noto anche come test del chi- quadro di accordo . In esso, testiamo le frequenze osservate rispetto a quelle teoricamente previste che forniamo.
ttnphns,

2
@ttnphns Sembra essere endemico. Sto usando "Aspettatevi l'inaspettato" di Raluca Balan e Gilles Lamothe. L'anno scorso ho insegnato da Business Statistics di Sharpe, De Veaux, et al. Entrambi i testi fanno piuttosto un pasto della distinzione. In entrambi i casi, abbiamo una tabella di contingenza a 2 vie. Inutile dire che nessuno dei due libri di testo ritiene che valga la pena insegnare una dimensione dell'effetto per la tabella di contingenza: un altro caso in cui la sottigliezza trionfa sull'utilità nei corsi di statistica di base.
Placidia,

2
La differenza dovrebbe apparire se hai cercato di ottenere un intervallo di confidenza per la dimensione dell'effetto.
Ray Koopman,

2
Sembra intrigante. Ti dispiace aggiungere alcuni dettagli e renderlo una risposta?
Placidia,

4
Dipende se si desidera torturare gli studenti distinguendo i margini condizionali / incondizionati. Altrimenti potresti semplicemente concentrarti sulla spiegazione che "l'indipendenza di due variabili categoriali" equivale a "omogeneità delle distribuzioni condizionate" e quindi presentare il singolo test . (Di solito lo presento insieme a limiti di confidenza più bassi per la vera di Cramer che misura la forza dell'associazione.) Vχ2V
Michael M

Risposte:


4

Devi semplicemente chiederti: "Come scrivo l'ipotesi nulla?". Considera una tabella di contingenza delle frequenze di alcuni comportamenti (y / n) tra un numero di gruppi. Trattando il 1 ° gruppo come referente, hai rapporti di probabilità ( ) che descrivono l'associazione tra frequenza e gruppo.k k - 1 θ i , i = 1 , 2 , , k - 12×kkk1θi,i=1,2,,k1

Sotto indipendenza come con omogeneità, si assume che tutti i rapporti di probabilità siano 1. Cioè, la probabilità di rispondere "sì" alla condizione è ugualmente probabile indipendentemente dall'assegnazione di gruppo. Se tali presupposti falliscono, almeno un gruppo è diverso.

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

E questo test può essere condotto con il test Chi-quadrato di Pearson usando le frequenze osservate / attese, che è il test del punteggio per il modello di regressione logistica che regola le variabili dell'indicatore per l'appartenenza al gruppo. Quindi strutturalmente possiamo dire che questi test sono gli stessi.k1

Tuttavia, sorgono differenze quando si considera la natura del fattore di raggruppamento. In questo senso, l'applicazione contestuale del test, o meglio il suo nome, è importante. Un gruppo può essere direttamente causale di un risultato, come la presenza o l'assenza di un gene o modelli di allele di un tratto, nel qual caso, quando rifiutiamo il nulla, concludiamo che il risultato dipende dal fattore di raggruppamento in questione.

D'altra parte, quando testiamo l'omogeneità, ci esoneriamo dal fare assunzioni causali. Pertanto, quando il "gruppo" è un costrutto sofisticato come la razza (che provoca ed è causato da determinanti genetici, comportamentali e socioeconomici) possiamo trarre conclusioni come "le minoranze etniche razziali sperimentano disparità abitative come evidenziato dall'eterogeneità dell'indice di deprivazione di quartiere" . Se qualcuno ha contrastato una simile argomentazione dicendo: "Beh, è ​​perché le minoranze ottengono un'istruzione inferiore, guadagnano un reddito più basso e ottengono meno occupazione", si potrebbe dire, "non ho affermato che la loro razza abbia causato queste cose, semplicemente che se guardi alla propria razza, è possibile fare previsioni sulla loro condizione di vita ".

In questo modo, i test di dipendenza sono un caso speciale di test di omogeneità in cui il possibile effetto di fattori in agguato è di interesse e dovrebbe essere gestito in un'analisi stratificata. L'uso dell'aggiustamento multivariato nell'analogo modello di regressione logistica consente di ottenere questo risultato, e possiamo ancora dire che stiamo conducendo un test di dipendenza, ma non necessariamente omogeneità.


3

Esiste una chiara differenza tra i due problemi se li modelli in modo bayesiano. In alcuni articoli il primo caso (omogeneità) è chiamato campionamento con "un margine fisso" e il secondo caso (indipendenza) come "tabella totale fissa". Dai un'occhiata, ad esempio, a Casella et al. (JASA 2009) .
Sto lavorando su questo argomento ma il mio documento - che descrive anche questa distinzione - non è ancora uscito :)


2
C'è anche una chiara differenza anche dal punto di vista del frequentista - è solo che asintoticamente non importa, e gli argomenti sono spesso fatti per condizionare su uno o entrambi i margini in ogni caso.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.