Come verificare se un campione di dati si adatta alla famiglia della distribuzione Gamma?


13

Ho un campione di dati che è stato generato da una variabile casuale continua X. E dall'istogramma che disegno usando R, immagino che forse la distribuzione di X obbedisca a una certa distribuzione Gamma. Ma non conosco i parametri esatti di questa distribuzione gamma.

La mia domanda è come verificare se la distribuzione di X appartiene a una famiglia di distribuzione Gamma? Esistono alcuni test di idoneità come il test di Kolmogorov-Smirnov, il test di Anderson-Darling e così via, ma una delle limitazioni nell'uso di questi test è che i parametri della distribuzione teorica dovrebbero essere conosciuti in anticipo. Qualcuno potrebbe dirmi come risolvere questo problema?


Forse mi manca qualcosa, ma se conosci già un test per testare l'adattamento della distribuzione e tutto ciò che devi sapere sono i valori della distribuzione teorica, allora potresti semplicemente usare gli stimatori della massima verosimiglianza dei parametri della gamma distribuzione sui dati per ottenere stime dei parametri. È quindi possibile utilizzare tali stime per definire la distribuzione teorica nel test.
David

David, grazie per la tua risposta. La risposta è anche ciò a cui stavo pensando, ma non sono sicuro che ci siano alcune teorie che possono supportare questa idea, potresti rispondere per me?
user8363

Se usi R, potresti essere interessato a dare un'occhiata al pacchetto fitdistrplus , che ha le strutture per fare questo genere di cose.
gung - Ripristina Monica

Risposte:


8

Penso che la domanda richieda un test statistico preciso, non un confronto dell'istogramma. Quando si utilizza il test Kolmogorov-Smirnov con parametri stimati , la distribuzione delle statistiche del test sotto il valore nullo dipende dalla distribuzione testata, al contrario del caso senza parametri stimati. Ad esempio, usando (in R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

porta a

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

mentre arriviamo

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

per lo stesso campione x. Il livello di significatività o il valore p devono quindi essere determinati dalla simulazione Monte Carlo sotto il valore null, producendo la distribuzione delle statistiche di Kolmogorov-Smirnov da campioni simulati sotto la distribuzione stimata (con una leggera approssimazione nel risultato dato che il campione osservato proviene da un'altra distribuzione, anche sotto il valore null).


1
(+1) Non riesco a capire perché sia ​​corretto simulare i campioni nella distribuzione stimata. Avrei pensato che avessimo bisogno di un precedente per i parametri e di un campione da tutte le possibili distribuzioni ... puoi spiegarci un po 'di più?
Elvis,

1
Xi'an, la tua risposta è esattamente ciò di cui mi preoccupavo. Intendi che "Quando si utilizza il test Kolmogorov-Smirnov con parametri stimati, la distribuzione delle statistiche del test sotto il valore nullo dipende dalla distribuzione testata". Tuttavia, non conosciamo la distribuzione di X, più precisamente, non conosciamo il parametro della distribuzione di X sotto l'ipotesi nulla, quindi la distribuzione della statistica test, quindi, usiamo monte carlo. Avresti altri modi per risolverlo non usando Monte Carlo per ottenere il valore P? Grazie
user8363

Per tenere conto del fatto che "il campione osservato proviene da un'altra distribuzione anche sotto il valore null", non sarebbe appropriato avviare il bootstrap del campione, rivalutando i parametri ad ogni replica?
Elvis,

1
@Elvis (1): si tratta di statistiche classiche, non di una risoluzione bayesiana della bontà del problema di adattamento. Per le distribuzioni con parametri di scala di posizione, la scelta dei parametri utilizzati per simulare i campioni simulati non ha importanza.
Xi'an,

1
@Elvis (2): Di nuovo qualcosa di cui ho appena discusso con i miei studenti! Bootstrap aiuterebbe a valutare il comportamento della distanza di Kolmogorov-Smirnov sotto la vera distribuzione dei dati, non sotto il nulla! Il principio di Fisher-Neyman-Pearson è che ciò che conta è il comportamento della distanza di Kolmogorov-Smirnov sotto il nulla, quindi viene respinto se la distanza osservata è troppo estrema e questa distribuzione sotto il nulla.
Xi'an,

4

Calcola MLE dei parametri assumendo una distribuzione gamma per i tuoi dati e confronta la densità teorica con l'istogramma dei tuoi dati. Se i due sono molto diversi, la distribuzione gamma è una scarsa approssimazione dei dati. Per un test formale è possibile calcolare, ad esempio, la statistica del test di Kolmogorov-Smirnoff confrontando la distribuzione gamma più adatta con la distribuzione empirica e test di significatività.


3
+1, questa è una risposta solida. Tuttavia, suggerirei di esaminare un diagramma qq rispetto alla gamma teorica anziché a un istogramma: sarà più facile valutare le deviazioni.
gung - Ripristina Monica

1
Il problema è che il test KS presuppone che la distribuzione teorica sia data in anticipo, non stimata dai dati. Xi'an (parzialmente) rispose a quel punto ...
Elvis il

vuoi dire che utilizziamo innanzitutto questo campione di dati per ottenere uno stimatore MLS e usare il valore dello stimatore MLS nella distribuzione Gamma, e quindi confrontare i dati con la distribuzione Gamma (con parametro stimato) usando il test KS?
user8363

Elvis, per favore, mi dica come risolvere il problema che quando il parametro della distribuzione teorica è sconosciuto e deve essere stimato. In questo caso, come si può usare il test KS per ottenere un giudizio relativamente accurato sull'ipotesi, grazie!
user8363

1
@Elvis: non credo che l'esatta derivazione sia possibile nel caso della distribuzione gamma. Il cdf stesso non è disponibile in forma chiusa. Inoltre, il fatto che il parametro di forma non sia né scala né posizione significa che esiste una distribuzione diversa per ogni valore del parametro di forma ...
Xi'an
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.