Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


1
Perché utilizziamo la divergenza di Kullback-Leibler anziché l'entropia incrociata nella funzione obiettivo t-SNE?
Nella mia mente, la divergenza di KL dalla distribuzione del campione alla distribuzione vera è semplicemente la differenza tra entropia incrociata ed entropia. Perché utilizziamo l'entropia incrociata come funzione di costo in molti modelli di apprendimento automatico, ma utilizziamo la divergenza di Kullback-Leibler in t-sne? C'è qualche differenza nella velocità …

5
La minimizzazione dell'errore al quadrato equivale alla minimizzazione dell'errore assoluto? Perché l'errore al quadrato è più popolare di quest'ultimo?
Quando eseguiamo la regressione lineare per adattare un gruppo di punti dati , l'approccio classico minimizza l'errore al quadrato. Sono stato a lungo perplesso da una domanda che minimizzando l'errore al quadrato produrrà lo stesso risultato di minimizzare l'errore assoluto ? In caso contrario, perché è meglio ridurre al minimo …

5
LDA vs word2vec
Sto cercando di capire cos'è la somiglianza tra Allocazione latente di Dirichlet e word2vec per calcolare la somiglianza delle parole. A quanto ho capito, LDA associa le parole a un vettore di probabilità di argomenti latenti , mentre word2vec le associa a un vettore di numeri reali (relativi alla scomposizione …

4
Replica dell'opzione "robusta" di Stata in R
Ho cercato di replicare i risultati dell'opzione Stata robustin R. Ho usato il rlmcomando dal pacchetto MASS e anche il comando lmrobdal pacchetto "robustbase". In entrambi i casi i risultati sono abbastanza diversi dall'opzione "robusta" di Stata. Qualcuno può suggerire qualcosa in questo contesto? Ecco i risultati che ho ottenuto …


4
Statistiche dell'ordine approssimativo per normali variabili casuali
Esistono formule ben note per le statistiche degli ordini di determinate distribuzioni casuali? Soprattutto le statistiche del primo e dell'ultimo ordine di una normale variabile casuale, ma sarebbe apprezzata anche una risposta più generale. Modificare: per chiarire, sto cercando formule approssimative che possono essere valutate più o meno esplicitamente, non …

1
Posizione in R - ordine decrescente [chiuso]
Sto cercando di classificare i dati che, in alcuni casi, il valore più grande ha il rango di 1. Sono relativamente nuovo su R, ma non vedo come posso regolare questa impostazione nella funzione di rango. x <- c(23,45,12,67,34,89) rank(x) genera: [1] 2 4 1 5 3 6 quando voglio …
39 r 


1
Qual è la varianza della miscela ponderata di due gaussiani?
Supponiamo che io abbia due distribuzioni normali A e B con mezzi e e varianze e . Voglio prendere una miscela ponderata di questi due distribuzioni utilizzando pesi e dove e . So che la media di questa miscela sarebbe .μAμA\mu_AμBμB\mu_BσAσA\sigma_AσBσB\sigma_Bpppqqq0≤p≤10≤p≤10\le p \le 1q=1−pq=1−pq = 1-pμAB=(p×μA)+(q×μB)μAB=(p×μA)+(q×μB)\mu_{AB} = (p\times\mu_A) + (q\times\mu_B) …

3
Giustificazione empirica dell'unica regola di errore standard quando si utilizza la convalida incrociata
Esistono studi empirici che giustificano l'uso dell'unica regola di errore standard a favore della parsimonia? Ovviamente dipende dal processo di generazione dei dati, ma tutto ciò che analizza un ampio corpus di set di dati sarebbe una lettura molto interessante. La "regola dell'errore standard" viene applicata quando si selezionano i …





Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.