Statistiche e Big Data pca

2

Interpretazione dei biplot nell'analisi dei componenti principali

Mi sono imbattuto in questo simpatico tutorial: un manuale di analisi statistiche usando R. Capitolo 13. Analisi dei componenti principali: l'eptatlon olimpico su come eseguire la PCA in linguaggio R. Non capisco l'interpretazione della Figura 13.3: Quindi sto tramando il primo autovettore contro il secondo autovettore. Cosa significa? Supponiamo che …

30 r pca data-visualization interpretation biplot

1

In che modo il centraggio fa la differenza nel PCA (per la decomposizione di SVD ed autovene)?

Qual è la differenza nel centrare (o decifrare) i tuoi dati per PCA? Ho sentito che semplifica la matematica o che impedisce al primo PC di essere dominato dai mezzi delle variabili, ma mi sento come se non fossi ancora riuscito a cogliere fermamente il concetto. Ad esempio, la risposta …

30 r pca svd eigenvalues centering

1

Effettuare analisi dei componenti principali o analisi dei fattori su dati binari

Ho un set di dati con un gran numero di risposte Sì / No. Posso utilizzare i componenti principali (PCA) o altre analisi di riduzione dei dati (come l'analisi dei fattori) per questo tipo di dati? Si prega di avvisare come faccio a fare questo usando SPSS.

30 spss categorical-data pca factor-analysis binary-data

5

Come gestire i dati gerarchici / nidificati nell'apprendimento automatico

Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

I migliori metodi di estrazione dei fattori nell'analisi dei fattori

SPSS offre diversi metodi di estrazione dei fattori: Componenti principali (che non è affatto un'analisi fattoriale) Minimi quadrati non ponderati Minimi quadrati generalizzati Probabilità massima Asse principale Factoring alfa Factoring di immagine Ignorando il primo metodo, che non è l'analisi dei fattori (ma l'analisi dei componenti principali, PCA), quale di …

29 spss pca factor-analysis

3

Come eseguire la regressione ortogonale (totali minimi quadrati) tramite PCA?

Uso sempre lm()in R per eseguire la regressione lineare di su . Tale funzione restituisce un coefficiente tale chex β y = β x .yyyxxxββ\betay=βx.y=βx.y = \beta x. Oggi ho imparato a conoscere i minimi quadrati totali e quella princomp()funzione (analisi dei componenti principali, PCA) può essere utilizzata per eseguirlo. …

29 r pca least-squares deming-regression total-least-squares

4

Perché Andrew Ng preferisce utilizzare SVD e non EIG della matrice di covarianza per fare PCA?

Sto studiando PCA dal corso Coursera di Andrew Ng e altri materiali. Nel primo incarico di Stanford sulla PNL cs224n , e nel video della lezione di Andrew Ng , fanno una scomposizione di valore singolare invece della decomposizione di autovettori della matrice di covarianza, e Ng dice persino che …

29 pca linear-algebra svd eigenvalues numerics

1

Esistono analisi fattoriali o PCA per dati ordinali o binari?

Ho completato l'analisi dei componenti principali (PCA), l'analisi dei fattori esplorativi (EFA) e l'analisi dei fattori di conferma (CFA), trattando i dati con una scala di likert (risposte a 5 livelli: nessuna, un po ', alcune, ..) come continua variabile. Quindi, usando Lavaan, ho ripetuto il CFA definendo le variabili …

28 pca factor-analysis ordinal-data binary-data likert

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Cosa c'è di sbagliato in t-SNE vs PCA per la riduzione dimensionale usando R?

Ho una matrice di numeri in virgola mobile 336x256 (336 genomi batterici (colonne) x 256 frequenze di tetranucleotidi normalizzate (righe), ad esempio ogni colonna aggiunge fino a 1). Ottengo buoni risultati quando eseguo la mia analisi utilizzando l'analisi dei componenti principali. Per prima cosa, calcolo i cluster di kmean sui …

27 r pca tsne

4

Dimensione minima del campione per PCA o FA quando l'obiettivo principale è stimare solo pochi componenti?

Se ho un set di dati con osservazioni e variabili (dimensioni), e generalmente è piccolo ( ), e può variare da piccolo ( ) a forse molto più grande ( ).p n n = 12 - 16 p p = 4 - 10 p = 30 - 50nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= …

27 pca sample-size factor-analysis

5

Cosa può indurre PCA a peggiorare i risultati di un classificatore?

Ho un classificatore su cui sto eseguendo la convalida incrociata, insieme a un centinaio di funzionalità su cui sto facendo la selezione in avanti per trovare combinazioni ottimali di funzionalità. Inoltre paragone questo con l'esecuzione degli stessi esperimenti con PCA, in cui prendo le potenziali funzionalità, applico SVD, trasformo i …

27 classification pca feature-selection

1

Perché la PCA è sensibile ai valori anomali?

Ci sono molti post su questo SE che discutono di solidi approcci all'analisi dei componenti principali (PCA), ma non riesco a trovare una sola buona spiegazione del perché il PCA sia sensibile agli outlier in primo luogo.

26 machine-learning pca outliers

1

Quale norma dell'errore di ricostruzione è minimizzata dalla matrice di approssimazione di basso rango ottenuta con PCA?

Dato un PCA (o SVD) ravvicinamento delle matrici XXX con una matrice X , sappiamo che X è la migliore approssimazione basso rango di X .X^X^\hat XX^X^\hat XXXX È questo secondo la norma ∥ ⋅ ∥ 2 indotta∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2 (ovvero la più grande norma sugli autovalori) o secondo la …

26 pca svd matrix-decomposition

7

Test per la dipendenza lineare tra le colonne di una matrice

Ho una matrice di correlazione dei ritorni di sicurezza il cui determinante è zero. (Questo è un po 'sorprendente poiché la matrice di correlazione del campione e la matrice di covarianza corrispondente dovrebbero teoricamente essere definite positive.) La mia ipotesi è che almeno un titolo dipenda linearmente da altri titoli. …

26 r correlation pca linear-model svd

Domande taggate «pca»