Il paradosso dei dati iid (almeno per me)


24

Per quanto riguarda la mia aggregati (e scarse) conoscenze sulle statistiche permessi, ho capito che se X1,X2,...,Xn sono variabili casuali, quindi come implica il termine sono indipendenti e identicamente distribuite.

La mia preoccupazione qui è l'ex di proprietà di campioni iid, in cui si legge:

p(Xn|Xi1,Xi2,...,Xik)=p(Xn),

per qualsiasi collezione di ij 's dist 1ij<n .

Tuttavia si sa che l'aggregato di campioni indipendenti di distribuzioni identiche fornisce informazioni sulla struttura di distribuzione e, di conseguenza, su Xn nel caso precedente, quindi non dovrebbe essere il caso che:

p(Xn|Xi1,Xi2,...,Xik)=p(Xn).

So di essere vittima di un errore ma non so perché. Per favore, aiutami su questo.


Conosci la regola di Bayes? Sentito parlare di classici. vs statistiche bayesiane? Priori?
Matthew Gunn,

1
Non seguo l'argomento alla fine della tua domanda. Puoi essere più esplicito?
Glen_b -Restinata Monica,

@Glen_b cos'è che non segui esattamente? Cosa intendi per fine? Sto cercando di dire con diverse logiche sia un'uguaglianza che una disuguaglianza sembrano plausibili, il che è un paradosso.
Cupitor,

Non c'è paradosso qui - semplicemente un fallimento nell'applicazione delle definizioni appropriate. Non puoi pretendere di avere un paradosso quando ignori il significato delle parole che usi! In questo caso, il confronto tra la definizione di indipendente e quella di probabilità rivelerà l'errore.
whuber

@whuber, presumo tu abbia notato l'esplicito "(almeno per me)" nel titolo della mia domanda e anche il fatto che chiedo aiuto per trovare l '"errore" della mia tesi, il che indica il fatto che questo non è davvero un vero paradosso.
Cupitor,

Risposte:


30

Penso che stai confondendo un modello stimato di una distribuzione con una variabile casuale . Riscriviamo l'assunto di indipendenza come segue: che dice che se conosci la distribuzione sottostante di X n ( e, ad esempio, può identificarlo con una serie di parametri θ

(1)P(Xn|θ,Xi1,Xi2,,Xik)=P(Xn|θ)
Xnθ) quindi la distribuzione non cambia dato che ne sono stati osservati alcuni campioni.

Ad esempio, si pensi come variabile casuale che rappresenta il risultato della n -esimo lancio di una moneta. Conoscere la probabilità di testa e coda per la moneta (che, tra l'altro, assume sia codificato in θ ) è sufficiente per conoscere la distribuzione di X n . In particolare, i risultati dei lanci precedenti non modifica la probabilità di testa o di coda per l' n -esimo lancio, e ( 1 ) contiene.XnnθXnn(1)

Si noti, tuttavia, che .P(θ|Xn)P(θ|Xi1,Xi2,,Xik)


Grazie mille. Abbastanza fino al punto. Abbastanza divertente che ho indovinato una risposta del genere qualche tempo fa, ma me ne sono dimenticato .... Per quanto ho capito, l'errore fallace presuppone implicitamente "un modello" che può parametrizzare la distribuzione di variabili casuali. Ho capito bene?
Cupitor,

1
@Cupitor: sono contento che sia stato utile. Sì, condizionato dal modello, le variabili casuali indipendenti non si influenzano a vicenda. Tuttavia, la probabilità che una determinata distribuzione abbia generato una sequenza di risultati cambia quando vedi più campioni dalla distribuzione (vera) sottostante (indipendentemente dal presupposto di indipendenza).
Sobi,

15

Se prendi un approccio bayesiano e tratti i parametri che descrivono la distribuzione di come una variabile / vettore casuale, allora le osservazioni non sono indipendenti, ma sarebbero condizionatamente indipendenti data la conoscenza di θ quindi P ( X nX n - 1 , X 1 , θ ) = P ( X nθ ) sarebbe valido.XθP(XnXn1,X1,θ)=P(Xnθ)

In un approccio statistico classico, non è una variabile casuale. I calcoli vengono eseguiti come se sapessimo cos'è θ . In un certo senso, stai sempre condizionando θ (anche se non conosci il valore).θθθ

Quando hai scritto, "... fornisci informazioni sulla struttura di distribuzione e, di conseguenza, su " hai implicitamente adottato un approccio bayesiano ma non lo hai fatto esattamente. Stai scrivendo una proprietà di campioni IID che un frequentatore scriverebbe, ma la dichiarazione corrispondente in un setup bayesiano implicherebbe il condizionamento su θ .Xnθ

Statisti bayesiani e classici

Sia il risultato del lancio di una moneta sbilenca e ingiusta. Non conosciamo la probabilità che la moneta atterra.xi

  • Per lo statistico classico, il frequentista, è un parametro, chiamiamolo θ . Osserva che θ qui è uno scalare, come il numero 1/3. Potremmo non sapere quale sia il numero, ma è un numero! E ' non è casuale!P(xi=H)θθ
  • Per lo statistico bayesiano, stesso è una variabile casuale! Questo è estremamente diverso!θ

L'idea chiave qui è che lo statistico bayesiano estende gli strumenti della probabilità a situazioni in cui lo statistico classico non lo fa . Per il frequentatore, non è una variabile casuale perché ha un solo valore possibile ! Non sono possibili risultati multipli! Nell'immaginazione del bayesiano, tuttavia, sono possibili più valori di θ e il bayesiano è disposto a modellare quell'incertezza (nella sua mente) usando gli strumenti della probabilità.θθ

Dove sta andando?

Diciamo che lanciamo la moneta volte. Una vibrazione non influisce sul risultato dell'altra. Lo statistico classico chiamerebbe questi lanci indipendenti (e in effetti lo sono). Avremo: P ( x n = H x n - 1 , x n - 2 , , x 1 ) = P ( x n = H ) = θ Dove θ è un parametro sconosciuto. (Ricorda, non sappiamo cosa sia, ma non è una variabile casuale! È un numero.)n

P(xn=Hxn1,xn2,,x1)=P(xn=H)=θ
θ

Una bayesiana nel profondo della probabilità soggettiva direbbe che ciò che conta è la probabilità dalla sua prospettiva! . Se vede 10 teste di fila, una 11a testa è più probabile perché 10 teste di fila portano a credere che la moneta sia sbilenco a favore delle teste.

P(x11=Hx10=H,x9=H,,x1=H)>P(x1=H)

θθθ

P(x11=Hx10=H,x9=H,,x1=H,θ)=P(x1=Hθ)=θ

θθ

Ulteriori note

Ho fatto del mio meglio per dare una breve introduzione qui, ma quello che ho fatto è, nella migliore delle ipotesi, abbastanza superficiale e i concetti sono in qualche modo piuttosto profondi. Se vuoi fare un tuffo nella filosofia della probabilità, il libro di Savage del 1954, Foundation of Statistics è un classico. Google per bayesiano contro frequentista e un sacco di cose verranno fuori.

Un altro modo di pensare ai disegni dell'IID è il teorema di de Finetti e la nozione di scambiabilità . In un quadro bayesiano, la scambiabilità è equivalente all'indipendenza subordinata a qualche variabile casuale latente (in questo caso, la sbilenco della moneta).


In sostanza, l'approccio bayesiano tratterebbe un'affermazione "iid variabili variabili" non come un assioma secondo cui devono essere IID, ma solo come un'ipotesi molto forte precedente che lo sono - e se prove ancora più forti suggeriscono che è estremamente improbabile che il dato le ipotesi sono vere, quindi questa "incredulità nelle condizioni date" si rifletterà nei risultati.
Peteris,

Grazie mille per la tua risposta approfondita. L'ho votato a fondo, ma penso che la risposta di Sobi, sottolinei più esplicitamente dove si trova il problema, ovvero assumendo implicitamente la struttura del modello (o questo è per quanto ho capito)
Cupitor

1
@Matthew Gunn: pulito, accurato e molto ben spiegato! Ho imparato alcune cose dalla tua risposta, grazie!
Sobi,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.