Cosa significa precisamente prendere in prestito informazioni?


11

Spesso le persone parlano di prestito di informazioni o condivisione di informazioni in modelli gerarchici bayesiani. Non riesco a ottenere una risposta diretta su cosa significhi effettivamente questo e se sia univoco per i modelli gerarchici bayesiani. Ho capito l'idea: alcuni livelli nella tua gerarchia condividono un parametro comune. Non ho idea di come ciò si traduca in "prestito di informazioni".

  1. "Prestito di informazioni" / "condivisione di informazioni" è una parola d'ordine che le persone amano buttare fuori?

  2. Esiste un esempio con elementi a forma chiusa che illustra questo fenomeno di condivisione?

  3. Questo è unico per un'analisi bayesiana? Generalmente, quando vedo esempi di "prestito di informazioni", sono solo modelli misti. Forse ho imparato questi modelli in un modo vecchio stile, ma non vedo alcuna condivisione.

Non mi interessa iniziare un dibattito filosofico sui metodi. Sono solo curioso dell'uso di questo termine.


1
Per la tua domanda 2., potresti trovare questo link illuminante: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Isabella Ghement,

Mi piacerebbe vedere qualche menzione della teoria dell'informazione nelle risposte qui.
Shadowtalker,

Risposte:


10

Questo è un termine che deriva specificamente da Bayes empirico (EB), in realtà il concetto a cui si riferisce non esiste nella vera inferenza bayesiana. Il termine originale era "forza di prestito", che fu coniato da John Tukey negli anni '60 e reso popolare da Bradley Efron e Carl Morris in una serie di articoli statistici sul paradosso di Stein e sull'EB parametrico negli anni '70 e '80. Molte persone ora usano "prestito di informazioni" o "condivisione di informazioni" come sinonimi per lo stesso concetto. Il motivo per cui è possibile ascoltarlo nel contesto di modelli misti è che le analisi più comuni per i modelli misti hanno un'interpretazione EB.

EB ha molte applicazioni e si applica a molti modelli statistici, ma il contesto è sempre che hai un gran numero di casi (possibilmente indipendenti) e stai provando a stimare un parametro particolare (come la media o la varianza) in ciascun caso. Nell'inferenza bayesiana, si fanno inferenze posteriori sul parametro in base sia ai dati osservati per ciascun caso sia alla distribuzione precedente per quel parametro. Nell'inferenza EB la distribuzione precedente per il parametro è stimata dall'intera raccolta di casi di dati, dopodiché l'inferenza procede come per l'inferenza bayesiana. Quindi, quando si stima il parametro per un caso particolare, si utilizzano sia i dati per quel caso sia anche la distribuzione preventiva stimata, e quest'ultimo rappresenta le "informazioni" o "forza"

Ora puoi capire perché EB ha "prestiti", ma Bayes no. Nel vero Bayes, la distribuzione precedente esiste già e quindi non ha bisogno di essere richiesta o presa in prestito. In EB, la distribuzione precedente è stata creata dai dati osservati stessi. Quando facciamo deduzione su un caso particolare, usiamo tutte le informazioni osservate da quel caso e un po 'di informazioni da ciascuno degli altri casi. Diciamo che è solo "preso in prestito", perché le informazioni vengono restituite quando passiamo a fare deduzione sul caso successivo.

L'idea di EB e "prestito di informazioni" è ampiamente utilizzata nella genomica statistica, quando ogni "caso" è di solito un gene o una caratteristica genomica (Smyth, 2004; Phipson et al, 2016).

Riferimenti

Efron, Bradley e Carl Morris. Il paradosso di Stein nelle statistiche. Scientific American 236, n. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Modelli lineari e metodi empirici di Bayes per la valutazione dell'espressione differenziale negli esperimenti di microarray. Applicazioni statistiche in genetica e biologia molecolare Volume 3, Numero 1, Articolo 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS e Smyth, GK (2016). La robusta stima dell'iperparametro protegge dai geni ipervariabili e migliora il potere di rilevare l'espressione differenziale. Annali delle statistiche applicate 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920


1
Non penso che questa interpretazione sia corretta. Ad esempio, i modelli di effetti misti prendono in prestito informazioni, ma possono essere analizzati in un tradizionale contesto bayesiano
Cliff AB,

1
@CliffAB Se approfondisci analisi di modelli misti, scoprirai che l'analisi è praticamente sempre bayes empirica piuttosto che reale. La maggior parte degli autori ovviamente dirà che stanno facendo Bayes quando in realtà è EB perché la maggior parte degli autori non fa la distinzione. Se pensi di poter dare un esempio di una vera analisi del modello misto Bayes, allora ti invito a farlo.
Gordon Smyth,

1
@CliffAB Nella minoranza dei casi in cui viene utilizzata un'analisi Bayes vera per modelli misti (ad esempio, da MCMC o Winbugs), l'uso del termine "informazioni sui prestiti" sarebbe IMO fuori posto. Sarebbe sicuramente in disaccordo con ciò che Tukey ed Efron intendevano per "prestito".
Gordon Smyth,

1
@CliffAB Concordo sul fatto che brms è un pacchetto bayesiano, motivo per cui il termine "informazioni sui prestiti" non appare nella documentazione di brms.
Gordon Smyth,

1
I semplici modelli bayesiani non "prendono in prestito informazioni", ma i modelli multilivello sì, anche se penso che il termine più popolare in quel campo sia "pool parziale". Ecco una discussione classica di questo da A. Gelman. In generale, se si accetta l'idea che i modelli di effetti misti "prendano in prestito informazioni", non sono sicuro di come si possa dire che gli effetti misti bayesiani non lo fanno; il precedente appare a livello inferiore alle informazioni prese in prestito. Se stai dicendo che i modelli di effetti misti non prendono in prestito informazioni, questo spiega la mia confusione sulla tua richiesta.
Cliff AB,

5

Considera un problema semplice come stimare le medie di più gruppi. Se il tuo modello li considera completamente non correlati, l'unica informazione che hai su ogni media è l'informazione all'interno di quel gruppo. Se il tuo modello considera i loro mezzi in qualche modo correlati (come in alcuni modelli di tipo a effetti misti), le stime saranno più precise perché le informazioni di altri gruppi informano (regolarizzano, si restringono verso una media comune) la stima per un determinato gruppo. Questo è un esempio di "informazioni sul prestito".

La nozione emerge nel lavoro attuariale relativo alla credibilità (non necessariamente con quel termine specifico di "prestito" sebbene il prestito in quel senso sia esplicito nelle formule); questo risale a molto tempo fa, almeno un secolo fa, con chiari precursori che risalgono alla metà del diciannovesimo secolo. Ad esempio, vedi Longley-Cook, LH (1962) Un'introduzione alla teoria della credibilità PCAS, 49, 194-221.

Ecco Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):

Ecco un rischio, ad esempio, che deve essere chiaramente classificato come un'officina meccanica. In assenza di altre informazioni, è pertanto necessario falsificare la tariffa dell'officina meccanica, ovvero la tariffa media per tutti i rischi di questa classe. D'altra parte il rischio ha avuto un'esperienza a sé stante. Se il rischio è elevato, questa potrebbe essere una guida migliore al suo rischio rispetto all'esperienza di classe. In ogni caso, sia che il rischio sia grande o piccolo, entrambi questi elementi hanno il loro valore come prova ed entrambi devono essere presi in considerazione. La difficoltà deriva dal fatto che in generale l'evidenza è contraddittoria; il problema quindi è trovare e applicare un criterio che dia a ciascuno il proprio peso.

Mentre il termine prestito è assente qui, l'idea di utilizzare le informazioni a livello di gruppo per informarci su questa officina meccanica è chiaramente lì. [Le nozioni rimangono invariate quando "forza di prestito" e "informazioni di prestito" iniziano ad essere applicati a questa situazione]


1
Apprezzo l'esempio, in quanto spiega chiaramente cosa fa il prestito, ma sto cercando una definizione più precisa.
EliK,

Una definizione precisa di un termine impreciso e intuitivo? Suppongo che uno potrebbe essere possibile - si potrebbe forse definirlo in termini di riduzione della varianza relazionando i parametri tra i gruppi, ma si potrebbe facilmente escludere usi plausibili della nozione in tal modo
Glen_b -Reinstate Monica

Non mi era chiaro se l'intuizione imprecisa avesse o meno una definizione reale.
EliK

3

σR2

σR2σR2

σR2σR2σRσR2. Meno informazioni nei dati, tanto più importanti diventano le informazioni precedenti. Se non l'hai ancora fatto, ti suggerisco di provare a simulare modelli di effetti misti con solo pochi soggetti. Potresti essere sorpreso da quanto siano instabili le stime dei metodi Frequentist, specialmente quando aggiungi solo uno o due valori anomali ... e con quale frequenza vengono visualizzati set di dati reali senza valori anomali? Credo che questo problema sia trattato in Bayesian Data Analysis di Gelman et al, ma purtroppo non penso che sia disponibile pubblicamente, quindi nessun collegamento ipertestuale.

Infine, la modellazione multilivello non è solo effetti misti, sebbene siano i più comuni. Qualsiasi modello in cui i parametri sono influenzati non solo da priori e dati, ma anche altri parametri sconosciuti può essere definito un modello multilivello. Naturalmente, questo è un set di modelli molto flessibile, ma può essere scritto da zero e adattarsi con una minima quantità di lavoro utilizzando strumenti come Stan, NIMBLE, JAGS, ecc. In questa misura, non sono sicuro che direi multilivello la modellazione è "hype"; in sostanza, è possibile scrivere qualsiasi modello che può essere rappresentato come un grafico aciclico direttoe adattarlo immediatamente (supponendo che abbia un tempo di esecuzione ragionevole, cioè). Ciò offre molta più potenza e potenziale creatività rispetto alle scelte tradizionali (ad es. Pacchetti di modelli di regressione), ma non richiede di costruire da zero un intero pacchetto R solo per adattarsi a un nuovo tipo di modello.


Grazie per la risposta. Per chiarire che non stavo suggerendo che la modellazione multilivello sia "hype". Mi chiedevo se "il prestito di informazioni" ha un significato preciso o se quel particolare termine è solo una campagna pubblicitaria.
EliK,

@EliK: non sono sicuro che abbia un significato preciso ; Gordon Smyth dà quello che alcuni potrebbero considerare un significato preciso, cioè Empirical Bayes, ma il modo in cui vedo quel termine comunemente usato ora non sembra adattarsi a quel significato. Personalmente, non penso sia solo un termine pubblicitario; è esattamente la motivazione per l'utilizzo di modelli di effetti misti rispetto a modelli di effetti fissi, sebbene ciò si estenda oltre il semplice modello standard di regressione. Penso che molte persone affermino che la "modellazione multilivello" è più vaga invece della più precisa "modellazione a effetti misti" perché ora è più di moda.
Cliff AB,

Direi che l'hype è nei giornali e nei blog ML, dove si sostiene che per implementare modelli multilivello siano necessari modelli bayesiani. Sarei interessato a un esempio funzionante - in cui si confronta con un modello regolarizzato crossvalidato (per la previsione)
seanv507,

Per quello che vale, l'unica alternativa a Bayesian è la massima verosimiglianza, che è solo bayesiana con un precedente uniforme. Quindi non è proprio sbagliato.
Shadowtalker,

1
@shadowtalker: se si considerano i metodi MLE in bayesiano, la parola bayesiano è sostanzialmente insignificante nelle statistiche. Tuttavia, questo è coerente con alcuni degli errori che vedo nella letteratura ML.
Cliff AB,

2

Sto assumendo, dal momento che hai taggato l'apprendimento automatico che sei interessato alla previsione, piuttosto che all'inferenza (credo di essere in linea con la risposta di @Glen_b, ma sto solo traducendo in questo contesto / vocabolario)

Direi che in questo caso è una parola d'ordine. Un modello lineare regolarizzato con una variabile di gruppo prenderà in prestito informazioni: la previsione a livello individuale sarà una combinazione della media del gruppo e dell'effetto individuale. Un modo di pensare alla regolarizzazione l1 / l2 è che sta assegnando un costo coefficiente per riduzione dell'errore totale, poiché una variabile di gruppo influenza più campioni di una singola variabile, ci sarà una pressione per stimare un effetto di gruppo, lasciando una deviazione minore da effetto di gruppo per ogni singola variabile.

Per i singoli punti con dati sufficienti, l'effetto individuale sarà "forte", per quelli con pochi dati l'effetto sarà debole.

Penso che il modo più semplice per vederlo sia considerando la regolarizzazione L1 e 3 individui dello stesso gruppo con lo stesso effetto. Non regolamentato, il problema ha un numero infinito di soluzioni, mentre la regolarizzazione offre una soluzione unica.

L'assegnazione di tutti gli effetti al coefficiente di gruppo ha la norma l1 più bassa, poiché abbiamo bisogno di solo 1 valore per coprire 3 individui. Viceversa, assegnare tutto l'effetto ai singoli coefficienti ha il peggio, vale a dire 3 volte la norma l1 di assegnare l'effetto al coefficiente di gruppo.

Nota che possiamo avere tutte le gerarchie che vogliamo e le interazioni sono influenzate in modo simile: la regolarizzazione spingerà gli effetti sulle variabili principali, piuttosto che sulle interazioni più rare.

Il blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - collegato da @IsabellaGhement fornisce un preventivo per indebitarsi

"Questo effetto è talvolta chiamato restringimento, perché il restringimento di valori più estremi viene portato verso un valore più ragionevole, più medio. Nel libro di lme4 , Douglas Bates offre un'alternativa al restringimento [nome]"

Il termine "restringimento" può avere connotazioni negative. John Tukey ha preferito riferirsi al processo come le stime per i singoli soggetti "forza di prestito" l'uno dall'altro. Questa è una differenza fondamentale nei modelli alla base dei modelli a effetti misti rispetto ai modelli a effetti rigorosamente fissi. In un modello a effetti misti supponiamo che i livelli di un fattore di raggruppamento siano una selezione da una popolazione e, di conseguenza, ci si può aspettare che condividano le caratteristiche in una certa misura. Di conseguenza, le previsioni di un modello a effetti misti sono attenuate rispetto a quelle dei modelli a effetti rigorosamente fissi.


Qual è la previsione se non un tipo specifico di inferenza?
Shadowtalker,

0

Un'altra fonte che vorrei raccomandare su questo argomento, che trovo particolarmente istruttiva, è Introduzione a Empirical Bayes di David Robinson .

Il suo esempio di corsa è se un giocatore di baseball riuscirà a colpire la palla successiva lanciata contro di lui. L'idea chiave è che se un giocatore è in circolazione da anni, si ha una visione abbastanza chiara di quanto sia capace e, in particolare, si può usare la sua media battuta osservata come una stima abbastanza buona della probabilità di successo nel prossimo tiro.

Al contrario, un giocatore che ha appena iniziato a giocare in un campionato non ha ancora rivelato gran parte del suo vero talento. Quindi sembra una scelta saggia aggiustare la stima della sua probabilità di successo verso una media generale se ha avuto particolarmente successo o meno nei suoi primi giochi, dato che probabilmente è, almeno in una certa misura, a causa di buona o sfortuna .

Come punto minore, il termine "prestito" non sembra certamente essere usato nel senso che qualcosa che è stato preso in prestito dovrebbe essere restituito ad un certo punto ;-).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.