Mi sto insegnando delle statistiche per divertimento e ho un po 'di confusione riguardo a statistiche sufficienti . Scriverò le mie confusioni in formato elenco:
Se una distribuzione ha parametri allora avrà statistiche sufficienti?
Esiste una sorta di corrispondenza diretta tra le statistiche sufficienti e i parametri? Oppure le statistiche sufficienti servono solo come un pool di "informazioni" in modo da poter ricreare l'impostazione in modo da poter calcolare le stesse stime per i parametri della distribuzione sottostante.
Tutte le distribuzioni hanno statistiche sufficienti? vale a dire. il teorema di fattorizzazione può mai fallire?
Usando il nostro campione di dati, ipotizziamo una distribuzione da cui è più probabile che i dati provengano e quindi possiamo calcolare le stime (ad esempio il MLE) per i parametri per la distribuzione. Statistiche sufficienti sono un modo per poter calcolare le stesse stime per i parametri senza dover fare affidamento sui dati stessi, giusto?
Tutte le serie di statistiche sufficienti avranno una statistica minima sufficiente?
Questo è il materiale che sto usando per cercare di capire l'argomento: https://onlinecourses.science.psu.edu/stat414/node/283
Da quello che ho capito abbiamo un teorema di fattorizzazione che separa la distribuzione congiunta in due funzioni, ma non capisco come siamo in grado di estrarre la statistica sufficiente dopo aver fattorizzato la distribuzione nelle nostre funzioni.
La domanda di Poisson fornita in questo esempio aveva una chiara fattorizzazione, ma poi si affermò che le statistiche sufficienti erano la media del campione e la somma del campione. Come facevamo a sapere che quelle erano le statistiche sufficienti solo guardando la forma della prima equazione?
Come è possibile condurre le stesse stime MLE usando statistiche sufficienti se la seconda equazione del risultato della fattorizzazione dipenderà talvolta dai valori dei dati stessi? Ad esempio, nel caso di Poisson, la seconda funzione dipendeva dall'inverso del prodotto dei fattoriali dei dati e non avremmo più i dati!
Perché la dimensione del campione non dovrebbe essere una statistica sufficiente, in relazione all'esempio di Poisson sulla pagina Web ? Avremmo bisogno di n per ricostruire alcune parti della prima funzione, quindi perché non è anche una statistica sufficiente?