Concetto di set tipico

14

Ho pensato che il concetto di set tipico fosse piuttosto intuitivo: una sequenza di lunghezza sarebbe appartenuta al set tipico se la probabilità che la sequenza venisse fuori era alta. Quindi, qualsiasi sequenza che probabilmente sarebbe stata in . (Sto evitando la definizione formale relativa all'entropia perché sto cercando di capirla qualitativamente.) $n$ $A_\epsilon ^{(n)}$ $A_\epsilon ^{(n)}$

Tuttavia, ho letto che, in generale, la sequenza più probabile non appartiene all'insieme tipico. Questo mi ha confuso alla grande.

Esiste una definizione intuitiva di set tipico? O è solo uno strumento matematico che non ha molto a che fare con il buon senso?

entropy intuition information-theory

— Tendero
fonte

11

So che hai chiesto esplicitamente una spiegazione intuitiva e di tralasciare la definizione formale, ma penso che siano piuttosto correlati, quindi vorrei ricordare la definizione di set tipico:

$X_1, X_2 ,...$ sonoiidvariabili casuali $\sim$ $p(x)$ , allora il tipico insieme $A_\epsilon^{(n)}$ rispetto al $p(x)$ è l'insieme di sequenze $(x_1,x_2,...,x_n) \in \chi^n$ con la proprietà

\begin{matrix} (1) & 2^{- n (H (X) + ϵ)} \leq p (x_{1}, x_{2}, . . ., x_{n}) \leq 2^{- n (H (X) - ϵ)} \end{matrix}

$2^{-n(H(X)+\epsilon)}\le p(x_1,x_2,...,x_n) \le 2^{-n(H(X)-\epsilon)} \tag{1}$ Ciò significa che per un fissato

ϵ

$\epsilon$ , il set tipico è composto da tutte le sequenze le cui probabilità sonovicinea

2^{- n H (X)}

$2^{-nH(X)}$ . Quindi, affinché una sequenza appartenga all'insieme tipico, deve solo avere una probabilità vicina a

2^{- n H (X)}

$2^{-nH(X)}$ , di solito non lo fa. Per capire perché, mi permetta di riscrivere l'equazione 1 applicando

l o g_{2}

$log_2$ su di esso.

\begin{matrix} (2) & H (X) - ϵ \leq \frac{1}{n} \log_{2} (\frac{1}{p (x_{1}, x_{2}, . . ., x_{n})}) \leq H (X) + ϵ \end{matrix}

$H(X)-\epsilon\le \frac{1}{n}\log_2\left(\frac{1}{p(x_1,x_2,...,x_n)}\right) \le H(X)+\epsilon \tag{2}$

Ora la definizione tipica dell'insieme è più direttamente correlata al concetto di entropia, o dichiarata in un altro modo, l'informazione media della variabile casuale. Il medio termine può essere pensato come l'entropia campione della sequenza, quindi l'insieme tipico è costituito da tutte le sequenze che ci stanno fornendo una quantità di informazioni vicine all'informazione media della variabile casuale $X$ . La sequenza più probabile di solito ci fornisce meno informazioni rispetto alla media. Ricorda che, minore è la probabilità di un risultato, maggiore sarà l'informazione che ci fornisce. Per capire perché mi permetta di fare un esempio:

Supponiamo che tu viva in una città il cui clima è molto probabile che sia soleggiato e caldo, tra 24 ° C e 26 ° C. Puoi guardare il bollettino meteorologico ogni mattina, ma non ti importerebbe molto, voglio dire, è sempre soleggiato e caldo. Ma se un giorno il tempo uomo / donna ti dicesse che oggi pioverà e farà freddo, questo è un punto di svolta. Dovrai usare alcuni vestiti diversi, prendere un ombrello e fare altre cose che di solito non fai, quindi l'uomo del tempo ti ha dato delle informazioni davvero importanti.

Per riassumere, la definizione intuitiva dell'insieme tipico è che consiste in sequenze che ci forniscono una quantità di informazioni vicine a quella prevista della sorgente (variabile casuale).

— diegobatt
fonte

1

... o meglio $$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...

— Cbhihe

OK, ma qual è lo scopo del set tipico definito in questo modo, quindi? In precedenza pensavo di aver creato una nozione di set tipico per avere un'intuizione che il sottoinsieme di sequenze PIÙ PICCOLO che dobbiamo prendere per assicurarci di "coprire" (1 - \ eps)% casi. In questo modo, prendere la sequenza più probabile è una scelta ovvia. Cosa mi sto perdendo?

— tomwesolowski,

10

La risposta di Diegobatt fa un buon lavoro nel spiegare intuitivamente quale sia il set tipico. Questa risposta affronterà l'altra domanda del PO, ribadita da @tomwesolowski: perché definirebbe l'insieme tipico in un modo che possa escludere gli elementi più probabili?

La risposta breve è che l' insieme tipico è principalmente uno strumento matematico. È stato definito per aiutare a dimostrare qualcosa, e questa definizione è la più conveniente per la prova. È un buon esempio di come i bisogni teorici possano talvolta superare le preferenze intuitive in matematica.

L'insieme tipico è stato definito dal padre della teoria dell'informazione , Claude Shannon . Voleva determinare in che modo efficiente uno possa codificare un flusso di simboli da un alfabeto fisso, supponendo che ogni simbolo è un IID campione casuale da una qualche distribuzione. Le sue intuizioni chiave erano che:

Esiste una serie di sequenze "tipiche" facilmente identificabili, relativamente piccole, che si presentano sproporzionatamente spesso nel flusso.
Assegnando questo "insieme tipico" di sequenze, le codifiche più brevi producono una codifica ottimamente efficiente (asintoticamente, poiché l'output del flusso cresce arbitrariamente lungo).

L'insieme tipico che Shannon ha scoperto è composto precisamente dalle sequenze la cui autoinformazione , o "sorpresa", è all'incirca uguale all'autoinformazione prevista , in media, per la distribuzione della sorgente del flusso. Tali sequenze sono "tipiche" nel senso che le loro informazioni sono nella media, ma questa definizione esclude implicitamente quelle sequenze che hanno significativamente meno informazioni della media. Queste sequenze meno informative sono anche le più probabili.

Come osserva l'OP, questo non è intuitivamente attraente! A prima vista, il tipico set suona come se dovesse contenere tutte le sequenze più probabili fino ad una certa soglia. Ciò rappresenterebbe meglio ciò che viene generalmente visualizzato nel flusso.

Ma Shannon non voleva il set tipico più "tipico" possibile; ne voleva uno che rendesse facile dimostrare il risultato che voleva dimostrare. Il set tipico definito da Shannon è garantito per esistere, è garantito per essere piccolo, ed è garantito per essere piccolo come qualsiasi altro set che potresti proporre, come sottolinea questa risposta . L'aggiunta degli elementi più probabili rende più probabile l'insieme, il che è positivo, ma rende anche l'insieme più grande, il che è negativo. Se tutto ciò che ti interessa è fare la prova, perché risolvere ciò che non è rotto?

Se hai obiettivi diversi da Shannon, anche il tuo concetto preferito di tipicità potrebbe essere diverso. Ad esempio, nella codifica Huffman , i simboli più probabili (o sequenze di simboli) ottengono i codici più brevi. In un certo senso tecnico, la codifica Huffman è la soluzione ottimale al problema originale di Shannon e cattura meglio la nostra intuizione sulla tipicità. D'altra parte, la definizione di tipicità di Shannon è più conveniente per provare le cose.

— Paolo
fonte

1

Eccellente ragionamento e complimenti per un lavoro ben fatto che affronta il divario tra intuizione e definizione. Direi che questa discrepanza si verifica a causa di una carenza linguistica dalla vita di tutti i giorni in cui tipico e medio di solito significano la stessa cosa, ma in termini di statistiche, il tipico (nel senso di probabilità, cioè la modalità) non è necessariamente uguale alla media , ovvero valore atteso.

— Emil,

Una domanda però, quando dici che la definizione esclude quelle sequenze che hanno "significativamente meno informazioni rispetto alla media", non dovrebbe essere "significativamente inferiore o maggiore" poiché il limite inferiore e superiore è rispettivamente

H (x) - ε

$H(x)-\varepsilon$ e

H (x) + ε

$H(x)+\varepsilon$ ?

— Emil,

@Emil, suppongo che l'autore l'abbia detto in questo modo, perché siamo tutti d'accordo sul fatto che le sequenze con più informazioni (meno probabili) non dovrebbero essere contenute nel set tipico.

— tomwesolowski,

1

L'idea di un set tipico tratta implicitamente le sequenze di risultati come multiset, ovvero presuppone che ti interessi solo all'istogramma di ogni sequenza, ad esempio considera tutte le 10 sequenze di lancio di monete con 7 teste e 3 code come equivalenti.

Immagina di avere una moneta molto distorta, diciamo $p(H) = .9$ . Questa è solo la distribuzione binomiale. La sequenza più probabile di 100 lanci è di 100 teste, ma c'è solo 1 100 sequenza di teste. Esistono in modo esponenziale molte più sequenze che contengono 10 code, ma sono molto meno probabili singolarmente. Le sequenze di numeri più grandi sono con mezze teste e mezze code, ma sono ancora meno probabili. Quindi c'è una tensione tra la probabilità di singole sequenze e il numero di sequenze equivalenti in una classe. La massima probabilità viene raggiunta quando le frequenze nelle sequenze corrispondono alle probabilità.

Il risultato importante è che per sequenze sufficientemente lunghe quasi tutte le sequenze campionate saranno arbitrariamente vicine alle frequenze previste, vale a dire che la distribuzione diventa estremamente alta quando aumenta la lunghezza delle sequenze considerate.

Ad esempio osservato $10^5$ gettare sequenze di $P(H)=.9$ la moneta otterrà sequenze con $10^4{+/-}300$ code 99% delle volte da quando la deviazione standard sul numero di code in un sequnce è di circa 100. La probabilità di tutte le teste è trascurabile nonostante sia la sequenza specifica più probabile.

L'insieme tipico è una versione più generale e teoricamente definita di questa idea.

— Daniel Mahler
fonte

0

Secondo il teorema 6.3 in queste note di lezione non importa se prendiamo un sottoinsieme di sequenze con la più alta probabilità o quelle con probabilità vicine a $2^{-nH(X)}$ (dal set tipico) dobbiamo prendere circa $2^{nH}$ per assicurarsi che il sottoinsieme scelto contenga una sequenza casuale con alta probabilità. Di solito prendiamo elementi tipici del set, perché possiamo limitarne la dimensione più facilmente.

— tomwesolowski
fonte

1

Potresti spiegare come questo affronta la richiesta di "definizione intuitiva di set tipico"?

— whuber

Non sono sicuro, ma voleva dire "Comunque, ho letto che, in generale, la sequenza più probabile non appartiene al set tipico. Questo mi ha confuso alla grande." parte della domanda :)

— tomwesolowski,