un metodo per stimare i parametri di un modello statistico scegliendo il valore del parametro che ottimizza la probabilità di osservare il campione dato.
Ho letto questa pagina: http://neuralnetworksanddeeplearning.com/chap3.html e diceva che lo strato di output sigmoideo con entropia incrociata è abbastanza simile allo strato di output softmax con verosimiglianza logaritmica. cosa succede se utilizzo sigmoid con verosimiglianza log o softmax con entropia incrociata nel livello di output? va bene? perché vedo che c'è …
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
Supponiamo di avere una variabile casuale X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta) . Se θ0θ0\theta_0 fosse il parametro vero, la funzione di verosimiglianza dovrebbe essere massimizzata e la derivata uguale a zero. Questo è il principio alla base dello stimatore della massima verosimiglianza. A quanto ho capito, le informazioni di Fisher sono definite …
Considerare campioni indipendenti ottenuta da una variabile casuale che si presume seguire una distribuzione troncata (ad esempio un tronco distribuzione normale ) di nota (finito) valori minimo e massimo e ma di parametri ignoti e . Se seguisse una distribuzione non troncata, gli stimatori della massima verosimiglianza e per e …
Ho sentito parlare della probabilità empirica di Owen, ma fino a poco tempo fa non ho prestato attenzione fino a quando non l'ho incontrato in un documento di interesse ( Mengersen et al. 2012 ). Nei miei sforzi per capirlo, ho raccolto che la probabilità dei dati osservati è rappresentata …
La stima della massima verosimiglianza si traduce spesso in stimatori distorti (ad esempio, la sua stima per la varianza del campione è distorta per la distribuzione gaussiana). Cosa lo rende quindi così popolare? Perché esattamente è usato così tanto? Inoltre, cosa lo rende in particolare migliore rispetto all'approccio alternativo: il …
Ho una confusione sugli stimatori di massima verosimiglianza (ML) distorti . La matematica dell'intero concetto mi è abbastanza chiara, ma non riesco a capire il ragionamento intuitivo alla base. Dato un determinato set di dati che contiene campioni da una distribuzione, che è esso stesso una funzione di un parametro …
Ho incontrato un paio di guide che suggeriscono di usare R's nlm per la massima stima della probabilità. Ma nessuno di essi (inclusa la documentazione di R ) fornisce molte indicazioni teoriche su quando utilizzare o meno la funzione. Per quanto ne so, nlm sta solo facendo una discesa gradiente …
Ho appena iniziato a studiare cose su statistiche e modelli. Attualmente, la mia comprensione è che usiamo MLE per stimare i parametri migliori per un modello. Tuttavia, quando provo a capire come funzionano le reti neurali, sembra invece che comunemente utilizzino un altro approccio per stimare i parametri. Perché non …
Mi chiedo se esiste sempre un massimizzatore per qualsiasi problema di stima della massima verosimiglianza? In altre parole, esiste una distribuzione e alcuni dei suoi parametri, per i quali il problema MLE non ha un massimizzatore? La mia domanda deriva da una dichiarazione di un ingegnere secondo cui la funzione …
Quali sono gli stimatori della massima verosimiglianza per i parametri della distribuzione t di Student? Esistono in forma chiusa? Una rapida ricerca su Google non mi ha dato alcun risultato. Oggi sono interessato al caso univariato, ma probabilmente dovrò estendere il modello a più dimensioni. EDIT: In realtà sono principalmente …
So che per problemi regolari, se abbiamo uno stimatore imparziale regolare migliore, deve essere lo stimatore di massima verosimiglianza (MLE). Ma in generale, se abbiamo un MLE imparziale, sarebbe anche il miglior stimatore imparziale (o forse dovrei chiamarlo UMVUE, purché abbia la varianza più piccola)?
Secondo la probabilità e le statistiche di Miller e Freund per gli ingegneri, 8ed (pp.217-218), la funzione di probabilità da massimizzare per la distribuzione binomiale (prove di Bernoulli) è data come L ( p ) = ∏ni = 1pXio( 1 - p )1 - xioL(p)=Πio=1npXio(1-p)1-XioL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Come arrivare a …
Dato un output da optim con una matrice hessiana, come calcolare gli intervalli di confidenza dei parametri usando la matrice hessian? fit<-optim(..., hessian=T) hessian<-fit$hessian Sono principalmente interessato al contesto della massima verosimiglianza, ma sono curioso di sapere se il metodo può essere esteso oltre.
Supponiamo di avere il seguente modello yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i dove , è un vettore di variabili esplicative, sono i parametri della funzione non lineare e , dove è naturalmente matrice.yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K L'obiettivo è il solito per stimare e \ Sigma . La scelta ovvia è il metodo della massima verosimiglianza. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.