Statistiche sufficienti, problemi specifici / intuizione


16

Mi sto insegnando delle statistiche per divertimento e ho un po 'di confusione riguardo a statistiche sufficienti . Scriverò le mie confusioni in formato elenco:

  1. Se una distribuzione ha n parametri allora avrà n statistiche sufficienti?

  2. Esiste una sorta di corrispondenza diretta tra le statistiche sufficienti e i parametri? Oppure le statistiche sufficienti servono solo come un pool di "informazioni" in modo da poter ricreare l'impostazione in modo da poter calcolare le stesse stime per i parametri della distribuzione sottostante.

  3. Tutte le distribuzioni hanno statistiche sufficienti? vale a dire. il teorema di fattorizzazione può mai fallire?

  4. Usando il nostro campione di dati, ipotizziamo una distribuzione da cui è più probabile che i dati provengano e quindi possiamo calcolare le stime (ad esempio il MLE) per i parametri per la distribuzione. Statistiche sufficienti sono un modo per poter calcolare le stesse stime per i parametri senza dover fare affidamento sui dati stessi, giusto?

  5. Tutte le serie di statistiche sufficienti avranno una statistica minima sufficiente?

Questo è il materiale che sto usando per cercare di capire l'argomento: https://onlinecourses.science.psu.edu/stat414/node/283

Da quello che ho capito abbiamo un teorema di fattorizzazione che separa la distribuzione congiunta in due funzioni, ma non capisco come siamo in grado di estrarre la statistica sufficiente dopo aver fattorizzato la distribuzione nelle nostre funzioni.

  1. La domanda di Poisson fornita in questo esempio aveva una chiara fattorizzazione, ma poi si affermò che le statistiche sufficienti erano la media del campione e la somma del campione. Come facevamo a sapere che quelle erano le statistiche sufficienti solo guardando la forma della prima equazione?

  2. Come è possibile condurre le stesse stime MLE usando statistiche sufficienti se la seconda equazione del risultato della fattorizzazione dipenderà talvolta dai valori dei dati stessi? Ad esempio, nel caso di Poisson, la seconda funzione dipendeva dall'inverso del prodotto dei fattoriali dei dati e non avremmo più i dati!Xi

  3. Perché la dimensione del campione non dovrebbe essere una statistica sufficiente, in relazione all'esempio di Poisson sulla pagina Web ? Avremmo bisogno di n per ricostruire alcune parti della prima funzione, quindi perché non è anche una statistica sufficiente?nn


Solo una rapida domanda di chiarimento: da quale "angolo" vieni sufficientemente? Massima verosimiglianza? Bayesiano? Entropia massima? Teoria del campionamento? Qualcos'altro?
probabilityislogic

Venivo dal punto di vista dell'MLE, scusate se il mio post non è stato il massimo, è il mio primo post su questo forum!
Kimchi,

Risposte:


12

Probabilmente trarrai beneficio dalla lettura della sufficienza in qualsiasi libro di testo sulle statistiche teoriche, in cui la maggior parte di queste domande sarà trattata in dettaglio. Brevemente

  1. Non necessariamente. Questi sono casi speciali: delle distribuzioni in cui il supporto (l'intervallo di valori che i dati possono assumere) non dipende dai parametri sconosciuti, solo quelli della famiglia esponenziale hanno una statistica sufficiente della stessa dimensionalità del numero di parametri. Quindi, per stimare la forma e la scala di una distribuzione di Weibull o la posizione e la scala di una distribuzione logistica da osservazioni indipendenti, la statistica dell'ordine (l'intero insieme di osservazioni che trascura la loro sequenza) è minima sufficiente: non è possibile ridurla ulteriormente senza perdere informazioni sui parametri. Laddove il supporto dipende da parametri sconosciuti, varia: per una distribuzione uniforme su , il massimo del campione è sufficiente per θ(0,θ)θ; per una distribuzione uniforme su il minimo e il massimo del campione sono insieme sufficienti.(θ1,θ+1)

  2. Non so cosa intendi per "corrispondenza diretta"; l'alternativa che dai sembra un modo giusto per descrivere statistiche sufficienti.

  3. Sì: banalmente i dati nel loro insieme sono sufficienti. (Se senti qualcuno dire che non esiste una statistica sufficiente, significa che non esiste una statistica a bassa dimensione.)

  4. Sì, questa è l'idea. (Ciò che resta - la distribuzione dei dati subordinata alla statistica sufficiente - può essere utilizzato per verificare l'assunzione distributiva indipendentemente dai parametri sconosciuti.)

  5. Apparentemente no, anche se raccolgo i contro-esempi non sono distribuzioni che probabilmente vorrai usare in pratica. [Sarebbe bello se qualcuno potesse spiegarlo senza entrare troppo nella teoria delle misure.]

In risposta alle ulteriori domande ...

  1. Il primo fattore, , dipende da λ solo attraverso x i . Quindi qualsiasi funzione uno a uno di x i è sufficiente: x i , x i / n , ( x i ) 2 e così via.enλλxiλxixixixi/n(xi)2

  2. Il secondo fattore, , non dipende daλe quindi non influenzerà il valore diλa cuif(x;λ)è un massimo. Deriva il MLE e guarda tu stesso.1x1!x2!xn!λλf(x;λ)

  3. La dimensione del campione è una costante nota piuttosto che un valore realizzato di una variabile casuale , quindi non è considerata parte della statistica sufficiente; lo stesso vale per parametri noti diversi da quelli su cui vuoi dedurre le cose.n

† In questo caso la quadratura è uno a uno perché è sempre positivo.xi

n N(xi,n)nθxi


1
Mi piacerebbe vedere i controesempi a 5. Ho provato a provare il contrario per un po 'con il Lemma di Zorn ma a un certo punto si rompe. Ma da quello che ho raccolto il controesempio dovrebbe essere davvero pessimo. Hai qualche punto di riferimento dove potrei trovarlo? Non mi dispiace che sia pesante sulla teoria delle misure.
sjm.majewski,

@ sjm.majewski: Lehmann dà a Pitcher (1957), "Serie di misure che non ammettono statistiche o sottocampi necessari e sufficienti", Ann. Matematica. Statist. , 28 , p267-268; e Landers & Rogge (1973). "Su sufficienza e invarianza", Ann. Statist. , 1 , p543-544.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.