Perché diversi test di ipotesi parametrica (se non tutti) presuppongono un campionamento casuale?


12

Test come Z, t e molti altri presuppongono che i dati siano basati su un campionamento casuale. Perché?

Supponiamo che stia facendo ricerche sperimentali, dove mi preoccupo molto più della validità interna che di quella esterna. Quindi, se il mio campione potrebbe essere un po 'distorto, va bene, dato che ho accettato di non inferire l'ipotesi per l'intera popolazione. E il raggruppamento sarà comunque casuale, cioè sceglierò per comodità i partecipanti del campione, ma li assegnerò casualmente a gruppi diversi.

Perché non posso semplicemente ignorare questo assunto?


Se la tecnica di campionamento introduce un bias, allora non è "casuale". Se non introduce alcun bias, allora è 'random' (per alcune definizioni di random ;-). Ho avuto schemi di campionamento che hanno semplicemente preso ogni settimo campione per creare una dimensione del campione corrispondente al campione contatore. Tuttavia sapevo che non vi era alcun aspetto speciale in quella selezione, quindi quello che si può pensare come un processo di campionamento non casuale era ancora effettivamente casuale. È lo stesso che selezionare le palle 1,2,3,4,5,6 alla lotteria. È casuale come qualsiasi altra sequenza.
Philip Oakley,

1
@PhilipOakley: la selezione dei palloni 1,2,3,4,5,6 alla lotteria ti dà le stesse possibilità di vincere di qualsiasi altra selezione, ma riduce le tue vincite attese in quanto è più probabile che tu debba condividere il premio con altri che ebbe la stessa idea
Henry,

1
Il campionamento sistematico, come descritto da @Philip, viene spesso analizzato come se producesse semplici campioni casuali, ma presenta insidie. Ad esempio, se dovessi misurare un processo di produzione ogni giorno e campionare ogni settima misurazione, saresti soggetto a confondere i risultati con un effetto giorno della settimana, poiché (ovviamente) eseguiresti il ​​campionamento nello stesso giorno ogni settimana. Devi lavorare di più per pensare e affrontare tali sottigliezze quando hai a che fare con campioni non casuali.
whuber

1
@whuber, Assolutamente. Bisogna pensare intensamente (e ampiamente) a queste cose !! Nel mio caso ho avuto ore di video, con centinaia di eventi, con lunghe lacune tra, quindi necessarie per ridurre le dimensioni dei dati del set di non eventi per una semplice regressione logistica (ogni frame considerato in modo indipendente, piccolo cambiamento tra i frame), quindi l'eliminazione di molti frame non di eventi era ragionevole. L'aspetto della sequenza temporale è stato considerato separatamente.
Philip Oakley,

1
@Philip È interessante notare che quasi contemporaneamente stavi scrivendo quel commento sulla casualità inesistente, il NIST ha rilasciato un comunicato stampa affermando che lo fa . Nell'account di Nature (4 aprile 2018) appare un account .
whuber

Risposte:


18

Se non stai facendo alcuna deduzione per un gruppo più ampio del tuo campione reale, allora non c'è l'applicazione di test statistici in primo luogo e la questione del "bias" non si pone. In questo caso dovresti semplicemente calcolare le statistiche descrittive del tuo campione, che sono note. Allo stesso modo, in questo caso non si tratta di "validità" del modello: stai solo osservando le variabili e registrandone i valori e descrizioni degli aspetti di tali valori.

Una volta che decidi di andare oltre il tuo campione, per fare inferenze su un gruppo più ampio, avrai bisogno di statistiche e dovrai considerare problemi come il pregiudizio del campionamento, ecc. In questa applicazione, il campionamento casuale diventa una proprietà utile per aiutare a diventare affidabile inferenze del più ampio gruppo di interessi. Se non si dispone di campionamenti casuali (e non si conoscono le probabilità dei campioni in base alla popolazione), diventa difficile / impossibile fare deduzioni affidabili sulla popolazione.


5

Nella vera ricerca scientifica, è piuttosto raro disporre di dati provenienti da un vero campionamento casuale. I dati sono quasi sempre esempi di convenienza. Ciò riguarda principalmente quale popolazione puoi generalizzare. Detto questo, anche se erano un esempio di praticità, venivano da qualche parte, devi solo essere chiaro su dove e le limitazioni che ciò implica. Se ritieni davvero che i tuoi dati non siano rappresentativi di nulla, il tuo studio non sarà utile a nessun livello, ma probabilmente non è vero 1 . Pertanto, è spesso ragionevole considerare i campioni prelevati da qualche parte e utilizzare questi test standard, almeno in senso coperto o qualificato.

C'è una diversa filosofia di test, tuttavia, che sostiene che dovremmo allontanarci da quei presupposti e dai test che si basano su di essi. Tukey ne era un sostenitore. Invece, la maggior parte della ricerca sperimentale è considerata (internamente) valida perché le unità di studio (ad es. I pazienti) sono state assegnate casualmente alle braccia. Detto questo, è possibile utilizzare i test di permutazione , che presuppongono principalmente che la randomizzazione sia stata eseguita correttamente. La controargomentazione a preoccuparsi troppo di questo è che i test di permutazione mostreranno in genere la stessa cosa dei test classici corrispondenti e sono più lavori da eseguire. Quindi, i test standard possono essere accettabili.

1. Per ulteriori informazioni in questo senso, può essere utile leggere la mia risposta qui: Identificazione della popolazione e dei campioni in uno studio .


3

Test come Z, t e molti altri si basano su distribuzioni di campionamento note delle statistiche pertinenti. Tali distribuzioni di campionamento, come generalmente utilizzate, sono definite per la statistica calcolata da un campione casuale.

Talvolta può essere possibile escogitare una distribuzione di campionamento rilevante per campionamenti non casuali, ma in generale probabilmente non è possibile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.