Test per il campionamento IID


16

Come testereste o verifichereste che il campionamento sia IID (indipendente e distribuito in modo identico)? Nota che non intendo gaussiano e identicamente distribuito, solo IID.

E l'idea che mi viene in mente è quella di dividere ripetutamente il campione in due sottocampioni di uguale dimensione, eseguire il test di Kolmogorov-Smirnov e verificare che la distribuzione dei valori di p sia uniforme.

Qualsiasi commento su tale approccio e ogni suggerimento sono ben accetti.

Chiarimento dopo l'inizio della generosità: sto cercando un test generale che possa essere applicato ai dati delle serie non temporali.


Sono i dati delle serie temporali?
danas.zuokas,

@ gui11aume hai provato il test "bulbo oculare"? Cioè, tracciare i dati e vedere se sembra IID.
Macro,

Non ho Non sono sicuro di cosa intendi: traccia i valori nell'ordine in cui vengono (possibilmente casuali)? E poi controllare l'assenza di uno schema sorprendente?
gui11aume,

1
Hai dato un'occhiata al "test di esecuzione"? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent

1
Scusa. Stavo pensando al seguente test di corsa: apprendre-en-ligne.net/random/run.html (ma questo è scritto in francese)
Stéphane Laurent,

Risposte:


14

Ciò su cui si conclude se i dati sono IID proviene da informazioni esterne, non dai dati stessi. Come scienziato è necessario determinare se è ragionevole assumere l'IID dei dati in base al modo in cui i dati sono stati raccolti e altre informazioni esterne.

Considera alcuni esempi.

Scenario 1: generiamo un insieme di dati indipendentemente da una singola distribuzione che risulta essere una miscela di 2 normali.

Scenario 2: Generiamo prima una variabile di genere da una distribuzione binomiale, quindi all'interno di maschi e femmine generiamo indipendentemente dati da una distribuzione normale (ma le normali sono diverse per maschi e femmine), quindi eliminiamo o perdiamo le informazioni di genere.

Nello scenario 1 i dati sono IID e nello scenario 2 i dati non sono chiaramente distribuiti in modo identico (diverse distribuzioni per maschi e femmine), ma le 2 distribuzioni per i 2 scenari sono indistinguibili dai dati, è necessario sapere come i dati è stato generato per determinare la differenza.

Scenario 3: prendo un semplice campione casuale di persone che vivono nella mia città e gestisco un sondaggio e analizzo i risultati per fare inferenze su tutte le persone in città.

Scenario 4: prendo un semplice campione casuale di persone che vivono nella mia città e gestisco un sondaggio e analizzo i risultati per fare inferenze su tutte le persone nel paese.

Nello scenario 3 i soggetti sarebbero considerati indipendenti (semplice campione casuale della popolazione di interesse), ma nello scenario 4 non sarebbero considerati indipendenti perché selezionati da un piccolo sottoinsieme della popolazione di interesse e la vicinanza geografica probabilmente imporrebbe dipendenza. Ma i 2 set di dati sono identici, è il modo in cui intendiamo utilizzare i dati che determinano se sono indipendenti o dipendenti in questo caso.

Quindi non c'è modo di testare usando solo i dati per mostrare che i dati sono IID, grafici e altri sistemi diagnostici possono mostrare alcuni tipi di non IID, ma la mancanza di questi non garantisce che i dati siano IID. È inoltre possibile confrontare con ipotesi specifiche (IID normale è più facile da confutare rispetto a IID). Qualsiasi test è ancora solo una regola, ma il fallimento nel rifiutare i test non dimostra mai che sia IID.

Le decisioni sul fatto che si è disposti a presumere che le condizioni IID siano valide devono essere prese in base alla scienza di come i dati sono stati raccolti, come si collegano ad altre informazioni e come verranno utilizzati.

modifiche:

Ecco un altro set di esempi per non identici.

Scenario 5: i dati sono residui di una regressione in cui vi è eteroscedasticità (le varianze non sono uguali).

Scenario 6: i dati provengono da una miscela di normali con media 0 ma varianze diverse.

Nello scenario 5 possiamo vedere chiaramente che i residui non sono distribuiti in modo identico se tracciamo i residui rispetto a valori adattati o altre variabili (predittori o potenziali predittori), ma i residui stessi (senza le informazioni esterne) sarebbero indistinguibili dallo scenario 6.


La prima parte di questa risposta, in particolare, mi sembra un po 'confusa (o confusa). Essere iid è una proprietà matematica ben definita di un insieme finito di variabili casuali . I tuoi scenari 1 e 2 sono identici se le variabili casuali nel secondo caso sono ottenute "dopo aver perso le informazioni di genere". Sono iid in entrambi i casi!
cardinale

GregSnow Non sono completamente d'accordo con la tua affermazione. È possibile che tu sappia che i dati provengono da una sequenza di variabili casuali distribuite in modo identico. Non sai esattamente quale modello l'ha generato. Potrebbe essere che siano generati indipendentemente o alternativamente provengano da una serie storica stazionaria. Per decidere qual è il caso supponiamo di sapere che la distribuzione identica è normale. Quindi entrambe le possibilità rientrano nella categoria di una sequenza stazionaria e sarà detto se e solo tutte le autocorrelazioni con ritardo diverso da zero sono 0. È perfettamente ragionevole testare per vedere se la correla
Michael R. Chernick,

2
@cardinal, quindi sei d'accordo che i dati nello scenario 2 non siano distribuiti in modo identico prima di perdere le informazioni di genere? Quindi avremmo un caso in cui non sono identici, ma l'unico modo per dire la differenza è usare le informazioni al di fuori della variabile che si sta guardando (genere in questo caso). Sì, essendo IID è una proprietà matematica ben definita, ma allo stesso modo si tratta di un numero intero, è possibile verificare se il punto dati 3. è un numero intero memorizzato come un numero in virgola mobile o un valore continuo che è stato arrotondato senza informazioni esterne sulla sua provenienza a partire dal.
Greg Snow,

2
ZXiXj,ijXi|ZXj|ZZZ

Ma tutto ciò che dici sopra utilizza informazioni su come i dati sono stati raccolti / generati, non solo i dati stessi. E anche se disponiamo di dati che supportano l'assenza di autocorrelazione di serie temporali che non ci dicono nulla sulla correlazione spaziale o altri tipi di non indipendenza. Possiamo davvero testare ogni possibile tipo di dipendenza e ottenere risultati significativi? o dovremmo usare le informazioni su come i dati sono stati raccolti per guidare quali test hanno più probabilità di essere significativi?
Greg Snow,

5

Se i dati hanno un ordinamento dell'indice, è possibile utilizzare i test del rumore bianco per le serie temporali. In sostanza, ciò significa verificare che le autocorrelazioni in tutti i ritardi diversi da zero siano 0. Questo gestisce la parte di indipendenza. Penso che il tuo approccio stia cercando di affrontare principalmente la parte identicamente distribuita dell'assunzione. Penso che ci siano alcuni problemi con il tuo approccio. Penso che tu abbia bisogno di molte divisioni per ottenere abbastanza valori p per verificare l'uniformità. Quindi ogni test KS perde potenza. Se si utilizzano suddivisioni che si sovrappongono su parti del set di dati, i test saranno correlati. Con un piccolo numero di divisioni il test di uniformità manca di potenza. Ma con molte divisioni il test di uniformità può essere potente, ma i test di KS no. Inoltre sembra che questo approccio non aiuti a rilevare la dipendenza tra le variabili.

@ gu11aume Non sono sicuro di ciò che stai chiedendo con un test generale per le serie non temporali. I dati spaziali forniscono una forma di dati di serie non temporali. Lì si potrebbe esaminare la funzione chiamata variogramma. Per le sequenze monodimensionali non vedo molta differenza tra le sequenze ordinate per tempo rispetto a qualsiasi altro modo di ordinare i dati. Una funzione di autocorrelazione può ancora essere definita e testata. Quando dici che vuoi testare l'indipendenza nel campionamento, penso che tu abbia un ordine in cui i campioni vengono raccolti. Quindi penso che tutti i casi monodimensionali funzionino allo stesso modo.


2
(+1) poiché questo è quello che stavo pensando, ma Re: "Se i dati hanno un indice di ordinamento è possibile utilizzare i test del rumore bianco per le serie temporali. Fondamentalmente ciò significa testare che le autocorrelazioni in tutti i ritardi diversi da zero sono 0." - questa logica si applica solo quando hai a che fare con una serie storica stazionaria, giusto? Altrimenti, potresti ottenere risultati fuorvianti sulle correlazioni ritardate. Ad esempio, cosa succede se solo la parte "successiva" delle serie temporali è stata autocorrelata?
Macro,

1
@Macro Pensavo fosse quello che avevi in ​​mente in base alla tua domanda all'OP. Ma non pensavo che fosse necessario attendere la sua risposta per evidenziarlo. Si applica quando cerchi l'indipendenza. Ma capisco il tuo punto. In pratica, controlli solo i primi k ritardi. Se la serie fosse stazionaria, le correlazioni diminuirebbero con k, ma non così per le serie non stazionarie. Quindi, almeno in teoria, mancherebbe la correlazione a grandi ritardi per una serie non stazionaria.
Michael R. Chernick,

2
cor(yt,ys)=f(s,t)f(s,t)|st|

Grazie per la tua risposta Michael! Hai ragione: nel caso in cui i dati siano una serie temporale, verificare la correlazione automatica è l'approccio migliore. Per quanto riguarda le tue critiche all'approccio KS diviso, hai anche un punto. Quindi, sembra che non ci siano ancora test nel caso generale (non di serie storiche).
gui11aume,

2
La prima autocorrelazione diversa da zero è al ritardo 60 e solo ad altri multipli di 60. Se la serie temporale ha una lunghezza 55 non possiamo nemmeno osservare due punti 60 in ritardo. Sowe non può verificare se la correlazione del ritardo 60 è 0 o no. Se la lunghezza della serie è 65 possiamo stimare la correlazione del ritardo 60 ma basandoci solo su 5 coppie di ritardo 60. Quindi la varianza della stima è grande e non avremo il potere di rilevare questa correlazione diversa da zero.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.