"Tutti questi punti dati provengono dalla stessa distribuzione." Come testare?


16

Mi sembra di aver visto questo argomento discusso qui prima, ma non sono riuscito a trovare nulla di specifico. Inoltre, non sono nemmeno sicuro di cosa cercare.

Ho un set monodimensionale di dati ordinati. Ipotizzo che tutti i punti nel set siano tratti dalla stessa distribuzione.

Come posso verificare questa ipotesi? È ragionevole testare un'alternativa generale di "le osservazioni in questo set di dati sono tratte da due diverse distribuzioni"?

Idealmente, vorrei identificare quali punti provengono dalla "altra" distribuzione. Dato che i miei dati sono ordinati, potrei cavarmela con l'identificazione di un punto di taglio, dopo aver in qualche modo testato se è "valido" per tagliare i dati?

Modifica: secondo la risposta di Glen_b, sarei interessato a distribuzioni unimodali strettamente positive. Sarei anche interessato al caso speciale di assumere una distribuzione e quindi testare parametri diversi .


Cosa intendi con "stessa distribuzione"? Le osservazioni di Gamma sono considerate come provenienti dalla stessa distribuzione o sono considerate come la somma delle distribuzioni esponenziali?
Metariat,

+1 questa è davvero una bella domanda da porsi.
user541686

@Metallica fintanto che ogni osservazione è una somma esponenziale, direi che provengono dalla stessa distribuzione
Shadowtalker

@Mehrdad Non ho una formazione formale in statistica oltre il mio corso di laurea e alcune lezioni varie nei miei master. Se osservi la mia cronologia delle risposte, è chiaro che so molto sulla regressione lineare e non molto su qualsiasi altra cosa 🤐
shadowtalker

2
Un possibile modo di affrontare questa domanda è considerare una miscela finita, ad esempio una classe di distribuzioni, e vedere se è necessario più di un componente della miscela per descrivere bene i dati. Tuttavia, la domanda è se esiste una classe di distribuzioni sufficientemente flessibile per descrivere la tua "ipotesi nulla" da parte di un singolo componente della miscela (ad es. Se usi una miscela finita di distribuzioni gamma queste potrebbero non essere flessibili in termini di inclinazione o coda comportamento a seconda di ciò che si sta tentando di fare), pur contenendo la potenziale alternativa come miscela multicomponente.
Björn,

Risposte:


29

Immagina due scenari:

  1. i punti dati sono stati tutti disegnati dalla stessa distribuzione - uno che era uniforme su (16,36)

  2. i punti dati sono stati estratti da un mix 50-50 di due popolazioni:

    un. popolazione A, che ha la forma in questo modo:

inserisci qui la descrizione dell'immagine

b. popolazione B, a forma di così:

inserisci qui la descrizione dell'immagine

... tale che la miscela dei due sembra esattamente come nel caso in 1.

Come potevano essere separati?

Qualunque forma scegliate per due popolazioni, ci sarà sempre una singola distribuzione della popolazione che ha la stessa forma. Questo argomento dimostra chiaramente che per il caso generale non puoi semplicemente farlo. Non è possibile differenziare.

Se si introducono informazioni sulle popolazioni (ipotesi, in modo efficace), ci possono essere spesso modi per procedere *, ma il caso generale è morto.

* Ad esempio, se si presume che le popolazioni siano unimodali e abbiano mezzi sufficientemente diversi, è possibile arrivare da qualche parte

[Le restrizioni aggiunte alla domanda non sono sufficienti per evitare una versione diversa del tipo di problema che descrivo sopra - possiamo ancora scrivere un nullo unimodale sulla semiretta positiva come una miscela 50-50 di due distribuzioni unimodali sulla semiretta positiva. Ovviamente se hai un null più specifico, questo diventa molto meno un problema. In alternativa, dovrebbe essere ancora possibile limitare ulteriormente la classe di alternative fino a quando non saremo in grado di testare qualche alternativa di miscela. Oppure alcune restrizioni aggiuntive potrebbero essere applicate sia a null che a alternative che le renderebbero distinguibili.]


1
Grazie, ottimo controesempio. Quindi si riduce a limitare appropriatamente l'ipotesi alternativa, giusto?
Shadowtalker,

@ssdecontrol sì, in sostanza; se (date le ipotesi) l'alternativa è distinguibile dal nulla, hai qualche speranza di un test con un potere superiore al tuo livello di significatività.
Glen_b

0

Ovviamente devi avere qualche teoria per parlare di distribuzione (s) e ipotesi di stato da verificare. Qualcosa che raggruppa i soggetti in uno o più gruppi e qualcosa che rende le misure distanti.

Come puoi arrivare là? Vedo tre opzioni:

  • Se lo sai già dal tuo argomento, devi solo tradurlo nella lingua dell'ipotesi statistica
  • Traccia i grafici e riconosci i modelli per diventare ipotesi da testare
  • Crea un elenco di distribuzioni che potresti adattare e fare un esperimento matematico. La programmazione probabilistica è la parola chiave qui

L'esercizio ti permetterebbe quindi di concludere che ci sono uno o più gruppi rappresentati nel tuo campione o solo uno. O nessun gruppo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.