Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati



3
Qual è la differenza Cross-entropy e KL divergence?
Sia l'entropia incrociata che la divergenza di KL sono strumenti per misurare la distanza tra due distribuzioni di probabilità. Qual è la differenza? Inoltre, la minimizzazione di KL equivale alla minimizzazione di Cross-Entropy.H(P,Q)=−∑xP(x)logQ(x)H(P,Q)=−∑xP(x)log⁡Q(x) H(P,Q) = -\sum_x P(x)\log Q(x) KL(P|Q)=∑xP(x)logP(x)Q(x)KL(P|Q)=∑xP(x)log⁡P(x)Q(x) KL(P | Q) = \sum_{x} P(x)\log {\frac{P(x)}{Q(x)}} Voglio conoscerli istintivamente. Grazie …

2
I modelli misti sono utili come modelli predittivi?
Sono un po 'confuso riguardo ai vantaggi dei modelli misti rispetto alla modellazione predittiva. Poiché i modelli predittivi sono generalmente intesi per prevedere i valori di osservazioni precedentemente sconosciute, mi sembra ovvio che l'unico modo in cui un modello misto può essere utile è attraverso la sua capacità di fornire …

2
Regressione quantile: funzione di perdita
Sto cercando di capire la regressione quantile, ma una cosa che mi fa soffrire è la scelta della funzione di perdita. ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) So che il minimo dell'aspettativa di ρτ(y−u)ρτ(y−u)\rho_\tau(y-u) è uguale a τ%τ%\tau\% -quantile, ma qual è la ragione intuitiva per iniziare con questa funzione? Non vedo la …


1
Cosa sono gli autoencodificatori variazionali e a quali compiti di apprendimento vengono utilizzati?
In base a questa e questa risposta, gli autoencoder sembrano essere una tecnica che utilizza reti neurali per la riduzione delle dimensioni. Vorrei inoltre sapere cos'è un autoencoder variazionale (le sue principali differenze / benefici rispetto a un autoencoder "tradizionale") e anche quali sono i principali compiti di apprendimento per …


2
Chi ha inventato l'albero delle decisioni?
Sto cercando di rintracciare chi ha inventato la struttura e l'algoritmo dei dati dell'albero decisionale. Nella voce di Wikipedia sull'apprendimento dell'albero decisionale si afferma che "ID3 e CART sono stati inventati indipendentemente nello stesso periodo (tra il 1970 e il 1980)". ID3 è stato presentato più tardi in: Quinlan, JR …
24 cart  history 


3
Qual è la ragione per cui Adam Optimizer è considerato robusto per il valore dei suoi iper parametri?
Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Bengio, Goodfellow e Courville: Adam è generalmente considerato abbastanza robusto per la scelta dei parametri iper, sebbene il tasso di apprendimento a volte debba essere modificato rispetto al valore predefinito …

3
Storia della teoria precedente non informativa
Sto scrivendo un breve saggio teorico per un corso di Statistica Bayesiana (in un Master in Economia) su priori non informativi e sto cercando di capire quali sono i passi nello sviluppo di questa teoria. Ormai, la mia linea temporale è composta da tre fasi principali: principio di indifferenza di …



7
Raccomandazioni per articoli non tecnici ma profondi nelle statistiche
L'ispirazione per questa domanda proviene dal noto articolo di Leo-Breiman, Modellistica statistica: le due culture (accesso aperto disponibile). L'autore confronta ciò che vede come due approcci disparati all'analisi dei dati, toccando idee chiave nelle statistiche classiche e nell'apprendimento automatico. Tuttavia, l'articolo è comprensibile a un vasto pubblico, probabilmente a chiunque …
24 references 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.