Se prendi un approccio bayesiano e tratti i parametri che descrivono la distribuzione di come una variabile / vettore casuale, allora le osservazioni non sono indipendenti, ma sarebbero condizionatamente indipendenti data la conoscenza di θ quindi P ( X n ∣ X n - 1 , … X 1 , θ ) = P ( X n ∣ θ ) sarebbe valido.XθP(Xn∣Xn−1,…X1,θ)=P(Xn∣θ)
In un approccio statistico classico, non è una variabile casuale. I calcoli vengono eseguiti come se sapessimo cos'è θ . In un certo senso, stai sempre condizionando θ (anche se non conosci il valore).θθθ
Quando hai scritto, "... fornisci informazioni sulla struttura di distribuzione e, di conseguenza, su " hai implicitamente adottato un approccio bayesiano ma non lo hai fatto esattamente. Stai scrivendo una proprietà di campioni IID che un frequentatore scriverebbe, ma la dichiarazione corrispondente in un setup bayesiano implicherebbe il condizionamento su θ .Xnθ
Statisti bayesiani e classici
Sia il risultato del lancio di una moneta sbilenca e ingiusta. Non conosciamo la probabilità che la moneta atterra.xi
- Per lo statistico classico, il frequentista, è un parametro, chiamiamolo θ . Osserva che θ qui è uno scalare, come il numero 1/3. Potremmo non sapere quale sia il numero, ma è un numero! E ' non è casuale!P(xi=H)θθ
- Per lo statistico bayesiano, stesso è una variabile casuale! Questo è estremamente diverso!θ
L'idea chiave qui è che lo statistico bayesiano estende gli strumenti della probabilità a situazioni in cui lo statistico classico non lo fa . Per il frequentatore, non è una variabile casuale perché ha un solo valore possibile ! Non sono possibili risultati multipli! Nell'immaginazione del bayesiano, tuttavia, sono possibili più valori di θ e il bayesiano è disposto a modellare quell'incertezza (nella sua mente) usando gli strumenti della probabilità.θθ
Dove sta andando?
Diciamo che lanciamo la moneta volte. Una vibrazione non influisce sul risultato dell'altra. Lo statistico classico chiamerebbe questi lanci indipendenti (e in effetti lo sono). Avremo:
P ( x n = H ∣ x n - 1 , x n - 2 , … , x 1 ) = P ( x n = H ) = θ
Dove θ è un parametro sconosciuto. (Ricorda, non sappiamo cosa sia, ma non è una variabile casuale! È un numero.)n
P(xn=H∣xn−1,xn−2,…,x1)=P(xn=H)=θ
θ
Una bayesiana nel profondo della probabilità soggettiva direbbe che ciò che conta è la probabilità dalla sua prospettiva! . Se vede 10 teste di fila, una 11a testa è più probabile perché 10 teste di fila portano a credere che la moneta sia sbilenco a favore delle teste.
P(x11=H∣x10=H,x9=H,…,x1=H)>P(x1=H)
θθθ
P(x11=H∣x10=H,x9=H,…,x1=H,θ)=P(x1=H∣θ)=θ
θθ
Ulteriori note
Ho fatto del mio meglio per dare una breve introduzione qui, ma quello che ho fatto è, nella migliore delle ipotesi, abbastanza superficiale e i concetti sono in qualche modo piuttosto profondi. Se vuoi fare un tuffo nella filosofia della probabilità, il libro di Savage del 1954, Foundation of Statistics è un classico. Google per bayesiano contro frequentista e un sacco di cose verranno fuori.
Un altro modo di pensare ai disegni dell'IID è il teorema di de Finetti e la nozione di scambiabilità . In un quadro bayesiano, la scambiabilità è equivalente all'indipendenza subordinata a qualche variabile casuale latente (in questo caso, la sbilenco della moneta).