I campioni non casuali possono essere analizzati utilizzando test statistici standard?


24

Molti studi clinici si basano su campioni non casuali. Tuttavia, la maggior parte dei test standard (ad es. T-test, ANOVA, regressione lineare, regressione logistica) si basano sul presupposto che i campioni contengano "numeri casuali". I risultati sono validi se questi campioni non casuali sono stati analizzati mediante test standard? Grazie.

Risposte:


20

Esistono due modelli generali da testare. Il primo, basato sull'ipotesi di campionamento casuale da una popolazione, è generalmente chiamato "modello di popolazione".

Ad esempio, per il test t di due campioni indipendenti, assumiamo che i due gruppi che vogliamo confrontare siano campioni casuali delle rispettive popolazioni. Supponendo che le distribuzioni dei punteggi all'interno dei due gruppi siano normalmente distribuite nella popolazione, possiamo quindi derivare analiticamente la distribuzione campionaria della statistica del test (cioè, per la statistica t). L'idea è che se dovessimo ripetere questo processo (tracciando casualmente due campioni dalle rispettive popolazioni) un numero infinito di volte (ovviamente, non lo facciamo effettivamente), otterremmo questa distribuzione di campionamento per la statistica del test.

Un modello alternativo per i test è il "modello di randomizzazione". Qui, non dobbiamo fare appello al campionamento casuale. Invece, otteniamo una distribuzione randomizzata attraverso permutazioni dei nostri campioni.

Ad esempio, per il test t, hai i tuoi due campioni (non necessariamente ottenuti tramite campionamento casuale). Ora, se davvero non c'è alcuna differenza tra questi due gruppi, allora se una determinata persona "appartiene" effettivamente al gruppo 1 o al gruppo 2 è arbitrario. Quindi, ciò che possiamo fare è permutare il compito del gruppo ancora e ancora, notando ogni volta fino a che punto i mezzi dei due gruppi sono separati. In questo modo, otteniamo una distribuzione campionaria empiricamente. Possiamo quindi confrontare la distanza dei due mezzi nei campioni originali (prima di iniziare a rimescolare le appartenenze al gruppo) e se tale differenza è "estrema" (cioè, cade nelle code della distribuzione campionaria derivata empiricamente), quindi concludiamo l'appartenenza al gruppo non è arbitraria e c'è davvero una differenza tra i due gruppi.

In molte situazioni, i due approcci portano effettivamente alla stessa conclusione. In un certo senso, l'approccio basato sul modello di popolazione può essere visto come un'approssimazione del test di randomizzazione. È interessante notare che Fisher è stato colui che ha proposto il modello di randomizzazione e ha suggerito che dovrebbe essere la base per le nostre inferenze (poiché la maggior parte dei campioni non sono ottenuti tramite campionamento casuale).

Un bell'articolo che descrive la differenza tra i due approcci è:

Ernst, MD (2004). Metodi di permutazione: una base per un'inferenza esatta. Statistical Science, 19 (4), 676-685 (link) .

Un altro articolo che fornisce un bel riassunto e suggerisce che l'approccio alla randomizzazione dovrebbe essere la base per le nostre inferenze:

Ludbrook, J., & Dudley, H. (1998). Perché i test di permutazione sono superiori ai test te F nella ricerca biomedica. American Statistician, 52 (2), 127-132 (link) .

EDIT: dovrei anche aggiungere che è comune calcolare la stessa statistica test quando si utilizza l'approccio di randomizzazione come nel modello di popolazione. Quindi, ad esempio, per testare la differenza nelle medie tra due gruppi, si calcolerebbe la consueta statistica t per tutte le possibili permutazioni delle appartenenze ai gruppi (producendo la distribuzione campionaria derivata empiricamente sotto l'ipotesi nulla) e quindi si verificherebbe quanto estremo la statistica t per l'appartenenza al gruppo originale rientra in tale distribuzione.


8

La tua domanda è molto buona, ma non ha una risposta semplice.

La maggior parte dei test come quelli menzionati si basa sul presupposto che un campione sia un campione casuale, poiché è probabile che un campione casuale sia rappresentativo della popolazione campionata. Se il presupposto non è valido, qualsiasi interpretazione dei risultati deve tenerne conto. Quando il campione è molto non rappresentativo della popolazione, è probabile che i risultati siano fuorvianti. Quando il campione è rappresentativo nonostante sia non casuale, i risultati saranno perfettamente OK.

Il prossimo livello della domanda è quindi chiedere come si può decidere se la non casualità è importante in un caso particolare. Non posso rispondere a quello ;-)


5

Fai una domanda molto generale, quindi la risposta non può essere adatta a tutti i casi. Tuttavia, posso chiarire. I test statistici hanno generalmente a che fare con la distribuzione osservata rispetto a una distribuzione ipotetica (la cosiddetta distribuzione nulla o ipotesi nulla; o, in alcuni casi, una distribuzione alternativa). I campioni possono essere non casuali, ma il test che viene somministrato viene applicato a un valore ottenuto dai campioni. Se quella variabile può avere alcune proprietà stocastiche, la sua distribuzione viene confrontata con una distribuzione alternativa. Ciò che conta quindi è se la statistica del test del campione valga per qualche altra popolazione di interesse e se le ipotesi relative alla distribuzione alternativa o nulla siano rilevanti per l'altra popolazione di interesse.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.