Statistiche e Big Data prior

2

Perché Laplace produce precedentemente soluzioni sparse?

Stavo esaminando la letteratura sulla regolarizzazione e spesso vedevo paragrafi che collegano la regolarizzazione L2 con il priore gaussiano e L1 con Laplace centrato su zero. So come appaiono questi priori, ma non capisco, come si traduca, ad esempio, in pesi nel modello lineare. In L1, se capisco correttamente, ci …

22 regression bayesian prior regularization laplace-distribution

3

Come può un precedente improprio portare a una corretta distribuzione posteriore?

Sappiamo che nel caso di un'adeguata distribuzione precedente, P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) . La solita giustificazione per questo passaggio è che la distribuzione marginale di , , è costante rispetto a e può quindi essere ignorata quando si ottiene la distribuzione posteriore.XXXP(X)P(X)P(X)θθ\theta …

22 distributions bayesian prior posterior

6

Posteriore molto diverso dal precedente e dalla probabilità

Se la priorità e la probabilità sono molto diverse tra loro, a volte si verifica una situazione in cui il posteriore è simile a nessuno dei due. Vedi ad esempio questa immagine, che utilizza distribuzioni normali. Anche se questo è matematicamente corretto, non sembra concordare con la mia intuizione - …

21 bayesian prior posterior likelihood

4

Distribuzioni precedenti debolmente informative per i parametri di scala

Ho usato le distribuzioni log normali come distribuzioni precedenti per i parametri di scala (per distribuzioni normali, t distribuzioni ecc.) Quando ho un'idea approssimativa di come dovrebbe essere la bilancia, ma voglio sbagliare sul lato del dire che non lo so molto al riguardo. Lo uso perché quell'uso ha un …

21 distributions bayesian modeling prior maximum-entropy

2

Interpretazione naturale per iperparametri LDA

Qualcuno può spiegare qual è la naturale interpretazione degli iperparametri LDA? ALPHAe BETAsono parametri delle distribuzioni di Dirichlet rispettivamente per (per documento) argomento e (per argomento). Tuttavia qualcuno può spiegare cosa significa scegliere valori più grandi di questi iperparametri rispetto a valori più piccoli? Ciò significa mettere delle credenze precedenti …

21 interpretation prior topic-models hyperparameter

2

Perché una

sfondo Uno dei punti deboli più comunemente usati prima della varianza è la gamma inversa con i parametri (Gelman 2006) .α = 0,001 , β= 0,001α=0.001,β=0.001\alpha =0.001, \beta=0.001 Tuttavia, questa distribuzione ha un IC al 90% di circa .[ 3 × 1019, ∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, …

21 bayesian multilevel-analysis prior

2

Quali sono / sono i priori impliciti nelle statistiche frequentiste?

Ho sentito l'idea che Jaynes afferma che i frequentatori operano con un "precedente implicito". Che cosa sono o sono questi priori impliciti? Questo significa che i modelli frequentisti sono tutti casi speciali di modelli bayesiani che aspettano di essere trovati?

20 bayesian prior posterior frequentist

2

Qual è il problema con i priori empirici?

In letteratura a volte inciampo sull'osservazione, che la scelta dei priori che dipendono dai dati stessi (ad esempio Zellners g-prior) può essere criticata da un punto di vista teorico. Dov'è esattamente il problema se il precedente non viene scelto indipendentemente dai dati?

18 bayesian prior hierarchical-bayesian

4

In che modo la struttura bayesiana è migliore nell'interpretazione quando di solito usiamo priori non informativi o soggettivi?

Si sostiene spesso che il framework bayesiano abbia un grande vantaggio nell'interpretazione (rispetto al frequentista), perché calcola la probabilità di un parametro dati i dati - invece di p ( x | θ ) come nel quadro frequentista . Fin qui tutto bene.p ( θ | x )p(θ|X)p(\theta|x)p ( x …

18 bayesian interpretation prior likelihood posterior

1

Esiste un'interpretazione bayesiana della regressione lineare con la regolarizzazione simultanea L1 e L2 (nota anche come rete elastica)?

È noto che la regressione lineare con una penalità equivale a trovare la stima MAP data un precedente gaussiano sui coefficienti. Allo stesso modo, usare una penalità l 1 equivale a usare una distribuzione di Laplace come precedente.l2l2l^2l1l1l^1 Non è raro usare una combinazione ponderata di e l 2 regolarizzazione. …

17 regression bayesian regularization prior elastic-net

2

Qual è la relazione dietro Jeffreys Priors e una varianza che stabilizza la trasformazione?

Stavo leggendo del precedente di Jeffreys su wikipedia: Jeffreys Prior e ho visto che dopo ogni esempio, descrive come una trasformazione stabilizzatrice della varianza trasforma il priore di Jeffreys in un precedente uniforme. Ad esempio, per il caso di Bernoulli, si afferma che per una moneta che è lanciata con …

17 bayesian prior jeffreys-prior

2

Qual è la relazione tra la dimensione del campione e l'influenza del priore sul posteriore?

Se abbiamo una piccola dimensione del campione, la distribuzione precedente influenzerà molto la distribuzione posteriore?

17 bayesian sample-size prior

2

Frequentismo e priori

Robby McKilliam dice in un commento a questo post: Va sottolineato che, dal punto di vista dei frequentisti, non vi è alcun motivo per cui non è possibile incorporare le conoscenze precedenti nel modello. In questo senso, la visione frequentista è più semplice, hai solo un modello e alcuni dati. …

17 bayesian prior regularization frequentist

4

In che modo le statistiche bayesiane gestiscono l'assenza di priori?

Questa domanda è stata ispirata da due interazioni recenti che ho avuto, una qui in CV , l'altra su economics.se. Lì avevo pubblicato in risposta al ben noto "Busta Paradox" (si mente, non come la "risposta corretta", ma come la risposta che scorre da specifiche ipotesi circa la struttura della …

16 bayesian mathematical-statistics prior theory philosophical

2

Quali distribuzioni precedenti potrebbero / dovrebbero essere utilizzate per la varianza in un modello gerarchico bayesisan quando la varianza media è interessante?

Nel suo ampiamente citato documento Distribuzioni precedenti per parametri di varianza in modelli gerarchici (916 citazione finora su Google Scholar) Gelman propone che buone distribuzioni precedenti non informative per la varianza in un modello bayesiano gerarchico siano la distribuzione uniforme e la distribuzione della mezza t. Se capisco bene le …

16 bayesian variance prior jags hierarchical-bayesian

Domande taggate «prior»