Ciò su cui si conclude se i dati sono IID proviene da informazioni esterne, non dai dati stessi. Come scienziato è necessario determinare se è ragionevole assumere l'IID dei dati in base al modo in cui i dati sono stati raccolti e altre informazioni esterne.
Considera alcuni esempi.
Scenario 1: generiamo un insieme di dati indipendentemente da una singola distribuzione che risulta essere una miscela di 2 normali.
Scenario 2: Generiamo prima una variabile di genere da una distribuzione binomiale, quindi all'interno di maschi e femmine generiamo indipendentemente dati da una distribuzione normale (ma le normali sono diverse per maschi e femmine), quindi eliminiamo o perdiamo le informazioni di genere.
Nello scenario 1 i dati sono IID e nello scenario 2 i dati non sono chiaramente distribuiti in modo identico (diverse distribuzioni per maschi e femmine), ma le 2 distribuzioni per i 2 scenari sono indistinguibili dai dati, è necessario sapere come i dati è stato generato per determinare la differenza.
Scenario 3: prendo un semplice campione casuale di persone che vivono nella mia città e gestisco un sondaggio e analizzo i risultati per fare inferenze su tutte le persone in città.
Scenario 4: prendo un semplice campione casuale di persone che vivono nella mia città e gestisco un sondaggio e analizzo i risultati per fare inferenze su tutte le persone nel paese.
Nello scenario 3 i soggetti sarebbero considerati indipendenti (semplice campione casuale della popolazione di interesse), ma nello scenario 4 non sarebbero considerati indipendenti perché selezionati da un piccolo sottoinsieme della popolazione di interesse e la vicinanza geografica probabilmente imporrebbe dipendenza. Ma i 2 set di dati sono identici, è il modo in cui intendiamo utilizzare i dati che determinano se sono indipendenti o dipendenti in questo caso.
Quindi non c'è modo di testare usando solo i dati per mostrare che i dati sono IID, grafici e altri sistemi diagnostici possono mostrare alcuni tipi di non IID, ma la mancanza di questi non garantisce che i dati siano IID. È inoltre possibile confrontare con ipotesi specifiche (IID normale è più facile da confutare rispetto a IID). Qualsiasi test è ancora solo una regola, ma il fallimento nel rifiutare i test non dimostra mai che sia IID.
Le decisioni sul fatto che si è disposti a presumere che le condizioni IID siano valide devono essere prese in base alla scienza di come i dati sono stati raccolti, come si collegano ad altre informazioni e come verranno utilizzati.
modifiche:
Ecco un altro set di esempi per non identici.
Scenario 5: i dati sono residui di una regressione in cui vi è eteroscedasticità (le varianze non sono uguali).
Scenario 6: i dati provengono da una miscela di normali con media 0 ma varianze diverse.
Nello scenario 5 possiamo vedere chiaramente che i residui non sono distribuiti in modo identico se tracciamo i residui rispetto a valori adattati o altre variabili (predittori o potenziali predittori), ma i residui stessi (senza le informazioni esterne) sarebbero indistinguibili dallo scenario 6.