Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Sto eseguendo una convalida incrociata nidificata. Ho letto che la validazione incrociata lasciata in sospeso può essere parziale (non ricordo perché). È meglio utilizzare la convalida incrociata 10 volte o la convalida incrociata con esclusione a parte oltre al tempo di esecuzione più lungo per la convalida incrociata con interruzione …
In una domanda recente, ben accolta, Tim chiede quando i dati sbilanciati sono davvero un problema in Machine Learning ? La premessa della domanda è che c'è molta letteratura sull'apprendimento automatico che discute dell'equilibrio delle classi e del problema delle classi squilibrate . L'idea è che i set di dati …
Sia l'entropia incrociata che la divergenza di KL sono strumenti per misurare la distanza tra due distribuzioni di probabilità. Qual è la differenza? Inoltre, la minimizzazione di KL equivale alla minimizzazione di Cross-Entropy.H(P,Q)=−∑xP(x)logQ(x)H(P,Q)=−∑xP(x)logQ(x) H(P,Q) = -\sum_x P(x)\log Q(x) KL(P|Q)=∑xP(x)logP(x)Q(x)KL(P|Q)=∑xP(x)logP(x)Q(x) KL(P | Q) = \sum_{x} P(x)\log {\frac{P(x)}{Q(x)}} Voglio conoscerli istintivamente. Grazie …
Sono un po 'confuso riguardo ai vantaggi dei modelli misti rispetto alla modellazione predittiva. Poiché i modelli predittivi sono generalmente intesi per prevedere i valori di osservazioni precedentemente sconosciute, mi sembra ovvio che l'unico modo in cui un modello misto può essere utile è attraverso la sua capacità di fornire …
Sto cercando di capire la regressione quantile, ma una cosa che mi fa soffrire è la scelta della funzione di perdita. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) So che il minimo dell'aspettativa di ρτ(y−u)ρτ(y−u)\rho_\tau(y-u) è uguale a τ%τ%\tau\% -quantile, ma qual è la ragione intuitiva per iniziare con questa funzione? Non vedo la …
Quindi ho appena finito di leggere un grande libro Introduzione a Empirical Bayes . Ho pensato che il libro fosse eccezionale, ma la costruzione di priori dai dati sembrava sbagliata. Mi è stato insegnato che ti viene in mente un piano di analisi, quindi raccogli i dati e poi verifica …
In base a questa e questa risposta, gli autoencoder sembrano essere una tecnica che utilizza reti neurali per la riduzione delle dimensioni. Vorrei inoltre sapere cos'è un autoencoder variazionale (le sue principali differenze / benefici rispetto a un autoencoder "tradizionale") e anche quali sono i principali compiti di apprendimento per …
La distribuzione binomiale negativa (NB) è definita su numeri interi non negativi e ha la funzione di massa di probabilitàHa senso considerare una distribuzione continua su reali non negativi definiti dalla stessa formula (sostituendo con x \ in \ mathbb R _ {\ ge 0} )? Il coefficiente binomiale può …
Sto cercando di rintracciare chi ha inventato la struttura e l'algoritmo dei dati dell'albero decisionale. Nella voce di Wikipedia sull'apprendimento dell'albero decisionale si afferma che "ID3 e CART sono stati inventati indipendentemente nello stesso periodo (tra il 1970 e il 1980)". ID3 è stato presentato più tardi in: Quinlan, JR …
Attualmente sto lavorando a un problema, in cui ho bisogno di sviluppare un algoritmo Monte Carlo (MCMC) della catena Markov per un modello spaziale statale. Per essere in grado di risolvere il problema, mi è stata data la seguente probabilità di : p ( ) = 2I ( > 0) …
Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Bengio, Goodfellow e Courville: Adam è generalmente considerato abbastanza robusto per la scelta dei parametri iper, sebbene il tasso di apprendimento a volte debba essere modificato rispetto al valore predefinito …
Sto scrivendo un breve saggio teorico per un corso di Statistica Bayesiana (in un Master in Economia) su priori non informativi e sto cercando di capire quali sono i passi nello sviluppo di questa teoria. Ormai, la mia linea temporale è composta da tre fasi principali: principio di indifferenza di …
C'è qualcosa di significativo in una media geometrica e media aritmetica che si avvicinano molto, diciamo ~ 0,1%? Quali congetture possono essere fatte su tale set di dati? Ho lavorato sull'analisi di un set di dati e noto ironicamente che i valori sono molto, molto vicini. Non esatto, ma vicino. …
Questa è una domanda ricorrente (vedi questo post , questo post e questo post ), ma ho una rotazione diversa. Supponiamo di avere un sacco di campioni da un campionatore MCMC generico. Per ogni campione θθ\theta , conosco il valore del registro verosimiglianza logf(x|θ)logf(x|θ)\log f(\textbf{x} | \theta) e del registro …
L'ispirazione per questa domanda proviene dal noto articolo di Leo-Breiman, Modellistica statistica: le due culture (accesso aperto disponibile). L'autore confronta ciò che vede come due approcci disparati all'analisi dei dati, toccando idee chiave nelle statistiche classiche e nell'apprendimento automatico. Tuttavia, l'articolo è comprensibile a un vasto pubblico, probabilmente a chiunque …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.