Qualcuno può spiegare statistiche sufficienti in termini molto basilari? Vengo da un background ingegneristico e ho passato molte cose ma non sono riuscito a trovare una spiegazione intuitiva.
Qualcuno può spiegare statistiche sufficienti in termini molto basilari? Vengo da un background ingegneristico e ho passato molte cose ma non sono riuscito a trovare una spiegazione intuitiva.
Risposte:
Una statistica sufficiente sintetizza tutte le informazioni contenute in un campione in modo da fare una stima dello stesso parametro se ti abbiamo fornito il campione o solo la statistica stessa. Riduzione dei dati senza perdita di informazioni.
Ecco un esempio. Supponiamo che abbia una distribuzione simmetrica di circa zero. Invece di darti un campione, ti passo invece un campione di valori assoluti (questa è la statistica). Non riesci a vedere il segno. Ma sai che la distribuzione è simmetrica, quindi per un dato valore x , - x e x sono ugualmente probabili (la probabilità condizionata è 0,5 ). Quindi puoi lanciare una moneta giusta. Se esce testa, rendi quella x negativa. Se esce croce, rendilo positivo. Questo ti dà un campione da X ′ , che ha la stessa distribuzione dei dati originali X. Fondamentalmente sei stato in grado di ricostruire i dati dalla statistica. Questo è ciò che lo rende sufficiente.
In termini bayesiani, hai una proprietà osservabile e un parametro . La distribuzione congiunta per è specificata, ma considerata come distribuzione condizionale di e distribuzione precedente di . Una statistica è sufficiente per questo modello se e solo se la distribuzione posteriore di è uguale a quella di , per ogni precedente distribuzione di . In parole, la tua incertezza aggiornata su dopo aver conosciuto il valore di è uguale alla tua incertezza aggiornata su dopo aver conosciuto il valore di ,qualunque informazione precedente tu abbia di . Tieni presente che la sufficienza è un concetto dipendente dal modello.
Supponi di avere una moneta e non sai se è giusto o no. In altre parole, ha probabilità di salire le teste ( ) e di salire le code ( ), e non conosci il valore di .
Cerchi di farti un'idea del valore di lanciando la moneta più volte, diciamo volte.
Diciamo e il risultato che ti capita di ottenere è la sequenza .
Ora vuoi che il tuo amico statistico valuti il valore di per te e forse ti dica se è probabile che la moneta sia giusta o no. Di quali informazioni hai bisogno per dire loro in modo che possano fare i loro calcoli e trarre le loro conclusioni?
Potresti dire loro tutti i dati, cioè . È necessario però? Potresti riassumere questi dati senza perdere alcuna informazione rilevante?
È chiaro che l'ordine dei lanci delle monete è irrilevante, perché stavi facendo la stessa cosa per ogni lancio delle monete, e i lanci delle monete non si influenzano a vicenda. Se il risultato fosse invece, per esempio, le nostre conclusioni non sarebbero diverse. Ne consegue che tutto ciò di cui hai veramente bisogno per dire al tuo amico statistico è il conteggio di quante teste c'erano.
Esprimiamo questo dicendo che il numero di teste è una statistica sufficiente per p .
Questo esempio dà il sapore del concetto. Continua a leggere se desideri vedere come si connette con la definizione formale.
Formalmente, una statistica è sufficiente per un parametro se, dato il valore della statistica, la distribuzione di probabilità dei risultati non coinvolge il parametro.
In questo esempio, prima di conoscere il numero di teste, la probabilità di qualsiasi risultato è . Ovviamente questo dipende da .