Domande taggate «dimensionality-reduction»

Si riferisce alle tecniche per ridurre un gran numero di variabili o dimensioni estese dai dati a un numero inferiore di dimensioni, preservando il maggior numero possibile di informazioni sui dati. I metodi di spicco includono PCA, MDS, Isomap, ecc. Le due sottoclassi principali di tecniche: estrazione e selezione delle caratteristiche.

1
Qual è la connessione tra minimi quadrati parziali, regressione di rango ridotto e regressione della componente principale?
La regressione di rango ridotto e la regressione della componente principale sono solo casi speciali di minimi quadrati parziali? Questo tutorial (Pagina 6, "Confronto di obiettivi") afferma che quando eseguiamo i minimi quadrati parziali senza proiettare X o Y (cioè "non parziale"), diventa di conseguenza una regressione di rango ridotta …


4
Quali variabili spiegano quali componenti PCA e viceversa?
Utilizzando questi dati: head(USArrests) nrow(USArrests) Posso fare un PCA in questo modo: plot(USArrests) otherPCA <- princomp(USArrests) Posso ottenere i nuovi componenti otherPCA$scores e la percentuale di varianza spiegata dai componenti con summary(otherPCA) E se volessi sapere quali variabili sono principalmente spiegate da quali componenti principali? E viceversa: ad esempio PC1 …

3
Scelta degli iperparametri usando T-SNE per la classificazione
Nel problema specifico con cui lavoro (una competizione) ho l'impostazione seguente: 21 caratteristiche (numeriche su [0,1]) e un'uscita binaria. Ho circa 100 K righe. L'ambientazione sembra essere molto rumorosa. Io e altri partecipanti applichiamo la generazione di funzionalità per un po 'e l'incorporamento stocastico distribuito a t distribuito si è …

1
Riduzione della dimensionalità supervisionata
Ho un set di dati composto da 15K campioni etichettati (di 10 gruppi). Voglio applicare la riduzione della dimensionalità in 2 dimensioni, che prenderebbe in considerazione la conoscenza delle etichette. Quando utilizzo tecniche di riduzione della dimensionalità non standard "standard" come PCA, il grafico a dispersione sembra non avere nulla …


1
Algebra di LDA. Potere di discriminazione di Fisher di un'analisi discriminante lineare e variabile
Apparentemente, l'analisi di Fisher mira a massimizzare contemporaneamente la separazione tra classi, minimizzando al contempo la dispersione all'interno delle classi. Una misura utile del potere di discriminazione di una variabile è quindi data dalla quantità diagonale: Bii/WiiBii/WiiB_{ii}/W_{ii} . http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Ho capito che la dimensione ( p x p) della Between …




1
Qual è il significato degli assi in t-SNE?
Attualmente sto cercando di avvolgere la mia testa attorno alla matematica t-SNE . Sfortunatamente, c'è ancora una domanda a cui non posso rispondere in modo soddisfacente: qual è il significato effettivo degli assi in un grafico t-SNE? Se dovessi fare una presentazione su questo argomento o includerlo in qualsiasi pubblicazione: …

5
Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 




Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.