Statistiche e Big Data

4

Quali sono le differenze tra codifica sparsa e autoencoder?

La codifica sparsa è definita come l'apprendimento di un insieme troppo completo di vettori di base per rappresentare i vettori di input (<- perché lo vogliamo). Quali sono le differenze tra codifica sparsa e autoencoder? Quando utilizzeremo la codifica sparsa e il codificatore automatico?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

1

Rilevamento di valori anomali nelle serie temporali (LS / AO / TC) utilizzando il pacchetto tsoutliers in R. Come rappresentare i valori anomali in formato equazione?

Commenti: Prima di tutto vorrei dire un grande grazie al autore del nuovo tsoutliers pacchetto che implementa Chen e Liu di rilevazione delle serie storiche dei valori anomali che è stato pubblicato sul Journal of American Statistical Association nel 1993 in Open Source software .RRR Il pacchetto rileva 5 diversi …

35 time-series forecasting arima outliers

11

Deviazione assoluta media vs. deviazione standard

Nel libro di testo "New Comprehensive Mathematics for O Level" di Greer (1983), vedo una deviazione media calcolata in questo modo: Riassumi le differenze assolute tra i singoli valori e la media. Quindi ottenere la sua media. Nel capitolo viene usato il termine deviazione media . Ma recentemente ho visto …

35 distributions standard-deviation frequency variability

1

Regressione logistica: test chi-quadro di anova vs. significatività dei coefficienti (anova () vs riepilogo () in R)

Ho un modello logistico GLM con 8 variabili. Ho eseguito un test chi-quadro in R anova(glm.model,test='Chisq')e 2 delle variabili risultano essere predittive quando vengono ordinate all'inizio del test e non tanto se ordinate nella parte inferiore. Il summary(glm.model)suggerisce che i coefficienti sono insignificanti (alto p-value). In questo caso sembra che …

35 r regression logistic statistical-significance generalized-linear-model

8

Camminata casuale sui bordi di un cubo

Una formica viene posizionata in un angolo di un cubo e non può muoversi. Un ragno inizia dall'angolo opposto e può muoversi lungo i bordi del cubo in qualsiasi direzione con uguale probabilità . In media, di quanti passi avrà bisogno il ragno per arrivare alla formica?(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (Non si tratta …

35 probability random-walk

3

Come dimostrare che la funzione di base radiale è un kernel?

Come dimostrare che la funzione di base radiale k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})è un kernel? Per quanto ho capito, per dimostrarlo dobbiamo provare uno dei seguenti: Per ogni insieme di vettori x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_n matrice K(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n) = (k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} è semidefinita positiva. Una mappatura ΦΦ\Phi …

35 svm kernel-trick

4

Differenza tra disegno longitudinale e serie storiche

Qual è / sono le differenze tra un disegno longitudinale e una serie temporale?

35 time-series panel-data

3

Contraddizione significativa nella regressione lineare: test t significativo per un coefficiente vs statistica F complessiva non significativa

Sto adattando un modello di regressione lineare multipla tra 4 variabili categoriali (con 4 livelli ciascuna) e un output numerico. Il mio set di dati ha 43 osservazioni. La regressione mi fornisce i seguenti valori dal test per ogni coefficiente di pendenza: . Pertanto, il coefficiente per il 4 ° …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

5

Set di dati gratuito per classificazione dimensionale molto elevata [chiuso]

Quali sono i set di dati disponibili gratuitamente per la classificazione con più di 1000 funzioni (o punti campione se contiene curve)? Esiste già una wiki della comunità sui set di dati gratuiti: individuazione di campioni di dati disponibili gratuitamente Ma qui, sarebbe bello avere un elenco più mirato che …

35 machine-learning classification dataset large-data

3

Qual è l'errore standard residuo?

When running a multiple regression model in R, one of the outputs is a residual standard error of 0.0589 on 95,161 degrees of freedom. I know that the 95,161 degrees of freedom is given by the difference between the number of observations in my sample and the number of variables …

35 regression standard-error residuals

4

Somma generica di variabili casuali Gamma

Ho letto che la somma delle variabili casuali Gamma con lo stesso parametro di scala è un'altra variabile casuale Gamma. Ho anche visto l'articolo di Moschopoulos che descrive un metodo per la sommatoria di un insieme generale di variabili casuali Gamma. Ho provato ad attuare il metodo di Moschopoulos ma …

35 probability distributions gamma-distribution summations saddlepoint-approximation

5

Che cosa succede se i miei dati di regressione lineare contengono diverse relazioni lineari combinate?

Diciamo che sto studiando come i narcisi rispondono alle varie condizioni del suolo. Ho raccolto dati sul pH del suolo rispetto all'altezza matura del narciso. Mi aspetto una relazione lineare, quindi eseguo una regressione lineare. Tuttavia, non ho realizzato quando ho iniziato il mio studio che la popolazione in realtà …

34 regression linear-model dataset

4

Perché la regressione logistica diventa instabile quando le classi sono ben separate?

Perché la regressione logistica diventa instabile quando le classi sono ben separate? Cosa significano classi ben separate? Gradirei davvero se qualcuno potesse spiegare con un esempio.

34 r regression logistic separation

3

Cosa significa il punteggio Akaike Information Criterion (AIC) di un modello?

Ho visto alcune domande qui su cosa significhi in termini profani, ma questi sono troppo profani per il mio scopo qui. Sto cercando di capire matematicamente cosa significa il punteggio AIC. Ma allo stesso tempo, non voglio una prova del rigore che non mi farebbe vedere i punti più importanti. …

34 self-study model-selection aic entropy information-theory

1

Il down-sampling modifica i coefficienti di regressione logistica?

Se ho un set di dati con una classe positiva molto rara e eseguo il down-campionamento della classe negativa, quindi eseguo una regressione logistica, devo regolare i coefficienti di regressione per riflettere il fatto che ho cambiato la prevalenza della classe positiva? Ad esempio, supponiamo che io abbia un set …

34 logistic unbalanced-classes case-control-study