Statistiche e Big Data

3

Cosa succede quando si applica SVD a un problema di filtro collaborativo? Qual è la differenza tra i due?

Nel filtro collaborativo, abbiamo valori che non sono stati inseriti. Supponiamo che un utente non abbia guardato un film, quindi dobbiamo inserire un "na". Se ho intenzione di prendere un SVD di questa matrice, allora devo inserire un numero in essa - diciamo 0. Ora se fattorizzo la matrice, ho …

21 machine-learning svd recommender-system

4

Perché in questo caso la soluzione meno quadrata offre scarsi risultati?

C'è un'immagine nella pagina 204, capitolo 4 di "Riconoscimento di modelli e apprendimento automatico" di Bishop, in cui non capisco perché la soluzione del quadrato minimo dia scarsi risultati qui: Il paragrafo precedente riguardava il fatto che le soluzioni dei minimi quadrati mancano di robustezza per i valori anomali, come …

21 classification least-squares

3

Confronto e contrasto, valori p, livelli di significatività ed errore di tipo I.

Mi chiedevo se qualcuno potesse dare un riassunto conciso delle definizioni e degli usi dei valori p, del livello di significatività e dell'errore di tipo I. Comprendo che i valori di p sono definiti come "la probabilità di ottenere una statistica di test almeno estrema quanto quella che abbiamo effettivamente …

21 hypothesis-testing probability statistical-significance p-value error

2

Come testare l'uguaglianza delle varianze con i dati circolari

Sono interessato a confrontare la quantità di variabilità all'interno di 8 diversi campioni (ciascuno di una popolazione diversa). Sono consapevole che ciò può essere fatto con diversi metodi con dati di rapporto: uguaglianza di varianza F-test, test di Levene, ecc. Tuttavia, i miei dati sono circolari / direzionali (ovvero dati …

21 variance matlab f-test circular-statistics

3

Cosa mi dice una matrice di covarianza definita non positiva sui miei dati?

Ho un numero di osservazioni multivariate e vorrei valutare la densità di probabilità in tutte le variabili. Si presume che i dati siano normalmente distribuiti. Con un numero basso di variabili tutto funziona come mi aspetterei, ma passare a un numero maggiore comporta che la matrice di covarianza diventi definita …

21 normal-distribution multivariate-analysis covariance

5

Nuovo modo rivoluzionario di data mining?

Il seguente estratto è tratto dall'Hedge Fund Market Wizzards di Schwager (maggio 2012), un'intervista al gestore di hedge fund di successo costantemente Jaffray Woodriff: Alla domanda: "Quali sono alcuni dei peggiori errori che le persone commettono nel data mining?": Molte persone pensano di stare bene perché usano i dati all'interno …

21 data-mining curve-fitting out-of-sample

1

Diagnostica residua nei modelli di regressione basati su MCMC

Di recente ho intrapreso il montaggio di modelli misti di regressione nel framework bayesiano, utilizzando un algoritmo MCMC (funzione MCMCglmm in R in realtà). Credo di aver capito come diagnosticare la convergenza del processo di stima (traccia, grafico geweke, autocorrelazione, distribuzione posteriore ...). Una delle cose che mi colpisce nel …

21 r bayesian mixed-model mcmc residuals

4

Importanza dei predittori nella regressione multipla: parziale rispetto a coefficienti standardizzati

Mi chiedo quale sia la relazione esatta tra parziale e coefficienti in un modello lineare e se dovrei usare solo uno o entrambi per illustrare l'importanza e l'influenza dei fattori.R2R2R^2 Per quanto ne so, con summaryottengo stime dei coefficienti e con anovala somma dei quadrati per ciascun fattore - la …

21 r regression multiple-regression regression-coefficients r-squared

1

Come posso allineare / sincronizzare due segnali?

Sto facendo delle ricerche ma sono rimasto bloccato nella fase di analisi (avrei dovuto prestare maggiore attenzione alle mie lezioni sulle statistiche). Ho raccolto due segnali simultanei: portata integrata per volume e variazione dell'espansione del torace. Vorrei confrontare i segnali e alla fine spero di ricavare volume dal segnale di …

21 r time-series signal-processing measurement

3

Modelli di accatastamento / montaggio con cursore

Mi ritrovo spesso ad allenare diversi modelli predittivi usando caretin R. Li addestrerò tutti sulle stesse pieghe di convalida incrociata, usando caret::: createFolds, quindi sceglierò il modello migliore in base all'errore di convalida incrociata. Tuttavia, la previsione mediana di diversi modelli sovraperforma spesso il miglior modello singolo su un set …

21 r caret ensemble

3

Primo passo per i big data (

Supponiamo che tu stia analizzando un enorme insieme di dati al ritmo di miliardi di osservazioni al giorno, in cui ogni osservazione ha un paio di migliaia di variabili numeriche e categoriche sparse e possibilmente ridondanti. Diciamo che c'è un problema di regressione, un problema di classificazione binaria sbilanciato e …

21 r machine-learning data-mining large-data

4

Differenza tra analisi di regressione e analisi della varianza?

Questa domanda è stata migrata da Mathematics Stack Exchange perché può essere risolta su Cross Validated. Migrato 7 anni fa . In questo momento sto imparando l'analisi della regressione e l'analisi della varianza. Nell'analisi di regressione hai una variabile fissa e vuoi sapere come va la variabile con l'altra variabile. …

21 regression

2

Come possiamo limitare la probabilità che una variabile casuale sia massima?

\newcommand{\P}{\mathbb{P}} Supponiamo di avere variabili casuali indipendenti , , con mezzi finiti e varianze , \ ldots , \ sigma_N ^ 2 . Sto cercando limiti senza distribuzione sulla probabilità che qualsiasi X_i \ neq X_N sia più grande di tutti gli altri X_j , j \ neq i .X …

21 probability bounds maximum

3

PCA quando la dimensionalità è maggiore del numero di campioni

Mi sono imbattuto in uno scenario in cui ho 10 segnali / persona per 10 persone (quindi 100 campioni) contenenti 14000 punti dati (dimensioni) che devo passare a un classificatore. Vorrei ridurre la dimensionalità di questi dati e PCA sembra essere il modo per farlo. Tuttavia, sono stato in grado …

21 pca dimensionality-reduction svd

1

Perché il test di Levene sull'uguaglianza delle varianze anziché sul rapporto F?

SPSS utilizza il test Levene per valutare l'omogeneità delle varianze nella procedura t-test di gruppo indipendente. Perché il test di Levene è migliore di un semplice rapporto F del rapporto delle varianze dei due gruppi?

21 hypothesis-testing anova variance t-test heteroscedasticity