Come si chiama questo "fenomeno"?


8

Di seguito è riportato un istogramma di alcuni dati, i bin sono numeri interi mentre gli altri parametri sono irrilevanti.

Distribuzioni sovrapposte

Come puoi vedere, sembrano esserci due distribuzioni normali separate ma sovrapposte per numeri pari e dispari.

La probabilità di essere un numero pari è 1/3, allo stesso modo 2/3 per un numero dispari.

Non ho idea del reale significato statistico di questo per essere onesti, quindi sto cercando di scoprire cos'è anche per saperne di più, ma non riesco a trovare nulla, ho provato così tanti termini di ricerca per trovare questo e anche ricerche di immagini inverse ma tutto ciò che ottengo sono informazioni sulle distribuzioni multimodali ecc. e non riesco a trovare nulla su quando le distribuzioni multimodali si sovrappongono in questo modo

C'è un nome per questo?

Per chi è interessato, i dati provengono da 1.000.000 di giochi casuali di goofspiel (N = 13) usando lo script matlab

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Un esempio più generale (sebbene artificiale) sarebbe il seguente

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

Esempio generale

Come nel primo esempio ci sono due distribuzioni sovrapposte (triangolare e normale), ma in questo caso invece di alternarsi in ciascun punto, è casuale.

So che questo è un esempio esagerato (e nemmeno un istogramma) ma ci devono essere esempi di questo tipo di cose che accadono effettivamente con i dati statistici, giusto? Allora di nuovo forse no, o è completamente irrilevante?

La vera domanda è duplice:
la domanda generale: come si chiama questo tipo di "cosa"? - in modo che io (o chiunque altro possa trovarlo) possa saperne di più e se è necessario apportare modifiche.
La domanda in quanto si riferisce specificamente al mio primo set di dati: dovrei separare i valori pari e dispari o adattare una distribuzione normale all'intero set?


Sembra un modello di miscuglio funky, in cui il pdf è 1/3 (pdf di pari) +2/3 (pdf di probabilità). Non so come lavorare la distribuzione normale in esso però perché chiaramente non è continua.
Huy Pham,

Qual è esattamente la domanda? Sembri simulare alcuni dati, che seguono una strana distribuzione, ma qual è esattamente il problema?
Tim

1
@Tim l'ho modificato per essere un po 'più chiaro. Suppongo di supporre che questo sia meno raro di quello che è, ed è stato studiato in precedenza. In caso contrario, la domanda è semplicemente come descriverei / modellando la distribuzione della mia prima serie di dati
Benjamin Tilbury,

@BenjaminTilbury riguardo alla tua ultima domanda, adatta. È possibile adattare più facilmente una curva di densità normale all'istogramma quando si aumenta la dimensione del contenitore a due. Un altro approccio sarebbe quello di adattarsi alla distribuzione cumulativa. L'opzione che scegli dipende un po 'da cosa ne farai. Forse il tuo interesse è più nella funzione di distribuzione cumulativa.
Sesto Empirico

Si chiama "aliasing". I modelli moiré sono uno dei (moltissimi) esempi.
whuber

Risposte:


4

Questa risposta non è una risposta diretta alla tua domanda, perché si riferisce a una causa diversa del modello.

Ma si riferisce allo stesso aspetto grafico, e quindi lo pubblico come una risposta piuttosto che come un commento (prima di leggere la tua sceneggiatura di Matlab pensavo davvero che lo schema nel tuo istogramma fosse dovuto a questa diversa causa).


La tua domanda mi ha fatto rivisitare un istogramma che ho tracciato in una risposta a una domanda recente.

vecchia illustrazione

Ho usato il binsize 1, mentre la distanza tra i risultati (discreti) era 0,538. Rendere le barre dell'istogramma da stampare occasionalmente con i conteggi per un singolo valore anziché i conteggi per due valori.

Dopo aver regolato le dimensioni del cestino, l'istogramma è apparso più tipico

nuova illustrazione

In questo caso, potremmo chiamare il modello un modello Moiré , che è l'aspetto di bande chiare e scure artificiali a causa di un disallineamento di due scale discrete.

Nel tuo caso, tuttavia, il modello periodico non è un effetto artificiale nell'istogramma ma un comportamento veramente periodico nella funzione di massa di probabilità. Comunque, ho pensato che fosse utile menzionare questo modello Moiré correlato.


2
Se cerchi un po 'su Google trovi molti istogrammi con motivi moiré simili. Ad esempio, su questo blog SAS questo articolo sulle indagini sugli uccelli o questo articolo sullo stress
Sesto Empirico

-1

Spiacenti, non conosco un nome definito, ma per affrontare la tua seconda domanda:

dovrei separare i valori pari e dispari o adattare una distribuzione normale all'intero set?

Penso che dovresti separarli. La tua analisi ha scoperto che il fattore / predittore più importante è se l'input è pari o dispari, quindi unirli sarebbe sfocare entrambe le distribuzioni e renderle meno utili (*).

*: Certo, dipende davvero dalla tua definizione di utile. Mi sto avvicinando dal punto di vista del fatto che hai degli input e voglio creare un modello per prevedere alcuni output. Una volta che sappiamo che è significativo, vorrei dare al modello il suggerimento che la parità di uno / alcuni degli input è importante.

A proposito, come nella risposta di Martijn Weterings, quando in precedenza avevo avuto istogrammi frastagliati come questo, era legato alla scelta della dimensione del cestino. Mi ha fatto capire che la sperimentazione con la dimensione del cestino è un altro strumento nella cassetta degli attrezzi Lying With Stats :-)


Caro downvoter: non sei d'accordo con qualcosa in particolare? Se è così, per favore educami.
Darren Cook,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.