Statistiche e Big Data

1

Le prestazioni allo stato dell'arte riportate nell'uso dei vettori di paragrafo per l'analisi del sentiment sono state replicate?

Sono rimasto impressionato dai risultati del documento ICML 2014 " Rappresentazioni distribuite di frasi e documenti " di Le e Mikolov. La tecnica che descrivono, chiamata "vettori di paragrafo", apprende rappresentazioni senza supervisione di paragrafi / documenti arbitrariamente lunghi, basati su un'estensione del modello word2vec. Il documento riporta prestazioni all'avanguardia …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

4

Quanto è grave l'ottimizzazione dell'iperparametro al di fuori della convalida incrociata?

So che eseguire l'ottimizzazione dell'iperparametro al di fuori della convalida incrociata può portare a stime distorte della validità esterna, poiché il set di dati utilizzato per misurare le prestazioni è lo stesso utilizzato per ottimizzare le funzionalità. Quello che mi chiedo è quanto sia grave questo problema . Posso capire …

20 cross-validation validation hyperparameter

2

Come interpretare questi grafici acf e pacf

Di seguito sono riportati i grafici acf e pacf di una serie di dati mensile. La seconda trama è acf con ci.type = 'ma': La persistenza di valori elevati nel diagramma acf rappresenta probabilmente una tendenza positiva a lungo termine. La domanda è se questo rappresenta una variazione stagionale? Ho …

20 time-series

1

Perché i valori stimati di un migliore predittore lineare non polarizzato (BLUP) differiscono da un miglior stimatore lineare parziale (BLU)?

Comprendo che la differenza tra loro è correlata al fatto che la variabile di raggruppamento nel modello sia stimata come un effetto fisso o casuale, ma non mi è chiaro perché non siano gli stessi (se non sono uguali). Sono particolarmente interessato a come funziona quando si utilizza la stima …

20 mixed-model blue blup small-area-estimation

1

Come utilizzare il metodo delta per errori standard di effetti marginali?

Sono interessato a comprendere meglio il metodo delta per l'approssimazione degli errori standard degli effetti marginali medi di un modello di regressione che include un termine di interazione. Ho esaminato le domande correlate sotto il delta-method ma nessuno ha fornito esattamente quello che sto cercando. Considera i seguenti dati di …

20 r regression standard-error effect-size delta-method

2

C'è qualche vantaggio di SVD su PCA?

So calcolare matematicamente PCA e SVD e so che entrambi possono essere applicati alla regressione dei minimi quadrati lineari. Il vantaggio principale di SVD matematicamente sembra essere che può essere applicato a matrici non quadrate. Entrambi si concentrano sulla decomposizione della matriceA parte il vantaggio di SVD menzionato, ci sono …

20 pca least-squares svd

2

Metodi per calcolare i punteggi dei fattori e qual è la matrice del "coefficiente di punteggio" nell'analisi PCA o dei fattori?

Secondo la mia comprensione, in PCA sulla base di correlazioni otteniamo caricamenti di fattori (= componente principale in questo caso) che non sono altro che correlazioni tra variabili e fattori. Ora, quando ho bisogno di generare punteggi dei fattori in SPSS, posso ottenere direttamente i punteggi dei fattori di ciascun …

20 spss pca factor-analysis

6

La mediana è un tipo di media, per una certa generalizzazione di "media"?

Il concetto di "media" è molto più ampio della media aritmetica tradizionale; si estende fino a includere la mediana? Per analogia, raw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1medianraw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root …

20 mean average median

3

Test del coefficiente del modello (pendenza di regressione) rispetto a un valore

In R, quando ho un (generalizzato) modello lineare ( lm, glm, gls, glmm, ...), come posso testare il coefficiente (pendenza di regressione) contro un valore diverso da 0? Nel riassunto del modello, i risultati del test t del coefficiente vengono automaticamente riportati, ma solo per il confronto con 0. Voglio …

20 r regression t-test

2

Covarianza di un vettore casuale dopo una trasformazione lineare

Se è un vettore casuale e è una matrice fissa, qualcuno potrebbe spiegare perché A c o v [ A Z ] = A c o v [ Z ] A ⊤ .ZZ\mathbf {Z}UNUNAc o v [A Z ]=A c o v [ Z ] A⊤.cov[UNZ]=UNcov[Z]UN⊤.\mathrm{cov}[A \mathbf {Z}]= A \mathrm{cov}[\mathbf …

20 covariance

1

Come ottenere il valore dell'errore al quadrato medio in una regressione lineare in R

Consenti a un modello di regressione lineare ottenuto dalla funzione R che vorrei sapere se è possibile ottenere con il comando Errore quadrato medio. Ho avuto l'uscita SEGUENTE di un esempio > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min …

20 r regression error

2

Campionamento di Gibbs rispetto al generale MH-MCMC

Ho appena letto alcune informazioni sul campionamento di Gibbs e sull'algoritmo Metropolis Hastings e ho un paio di domande. A quanto ho capito, nel caso del campionamento di Gibbs, se abbiamo un grosso problema multivariato, campioniamo dalla distribuzione condizionale, cioè campioniamo una variabile mantenendo tutte le altre fisse mentre in …

20 bayesian sampling mcmc gibbs metropolis-hastings

4

Esiste un algoritmo simile a un albero decisionale per il clustering senza supervisione?

Ho un set di dati composto da 5 funzioni: A, B, C, D, E. Sono tutti valori numerici. Invece di fare un clustering basato sulla densità, quello che voglio fare è raggruppare i dati in modo simile ad un albero decisionale. L'approccio intendo è qualcosa del genere: L'algoritmo può dividere …

20 r machine-learning clustering cart

2

Dove e perché brilla l'apprendimento profondo?

Al giorno d'oggi, con tutti i media e le discussioni sull'apprendimento profondo, ho letto alcune cose elementari al riguardo. Ho appena scoperto che è solo un altro metodo di apprendimento automatico per apprendere modelli dai dati. Ma la mia domanda è: dove brilla e perché questo metodo brilla? Perché tutti …

20 machine-learning data-mining deep-learning deep-belief-networks

2

Analisi di sopravvivenza bayesiana: per favore, scrivimi un precedente per Kaplan Meier!

Considera le osservazioni censurate a destra, con eventi a volte . Il numero di individui sensibili al momento i è n i e il numero di eventi al momento i è d i .t1, t2, ...t1,t2,…t_1, t_2, \dotsioiinionin_iioiidiodid_i Kaplan-Meier o lo stimatore del prodotto emerge naturalmente come MLE quando la …

20 bayesian survival kaplan-meier