Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


2
La standardizzazione prima di Lasso è davvero necessaria?
Ho letto tre motivi principali per standardizzare le variabili prima di qualcosa come la Lassoregressione: 1) Interpretazione dei coefficienti. 2) Capacità di classificare l'importanza del coefficiente in base all'entità relativa delle stime del coefficiente post-restringimento. 3) Non è necessario intercettare. Ma mi chiedo il punto più importante. Abbiamo motivo di …



1
I gradi di libertà possono essere un numero non intero?
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 



3
Quali sono gli impatti della scelta delle diverse funzioni di perdita nella classificazione per approssimare la perdita 0-1
Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera …




2
Perché le passeggiate casuali sono intercorrelate?
Ho osservato che, in media, il valore assoluto del coefficiente di correlazione di Pearson è una costante vicina a qualsiasi coppia di camminate casuali indipendenti, indipendentemente dalla lunghezza della camminata.0.560.42 Qualcuno può spiegare questo fenomeno? Mi aspettavo che le correlazioni diminuissero con l'aumentare della lunghezza della camminata, come con qualsiasi …

3
Ora non si può dire che i modelli di apprendimento profondo siano interpretabili? Le funzionalità dei nodi?
Per i modelli statistici e di apprendimento automatico, esistono diversi livelli di interpretabilità: 1) l'algoritmo nel suo insieme, 2) parti dell'algoritmo in generale 3) parti dell'algoritmo su input particolari e questi tre livelli si dividono in due parti ciascuno, uno per l'allenamento e uno per la valutazione delle funzioni. Le …

4
Cosa c'è di sbagliato in t-SNE vs PCA per la riduzione dimensionale usando R?
Ho una matrice di numeri in virgola mobile 336x256 (336 genomi batterici (colonne) x 256 frequenze di tetranucleotidi normalizzate (righe), ad esempio ogni colonna aggiunge fino a 1). Ottengo buoni risultati quando eseguo la mia analisi utilizzando l'analisi dei componenti principali. Per prima cosa, calcolo i cluster di kmean sui …
27 r  pca  tsne 

2
La variazione è uguale alla varianza?
Questa è la mia prima domanda su Cross Validated qui, quindi per favore aiutatemi anche se sembra banale :-) Innanzitutto, la domanda potrebbe essere il risultato di differenze linguistiche o forse io ho delle vere carenze nelle statistiche. Tuttavia, eccolo qui: Nelle statistiche sulla popolazione, variazione e varianza sono gli …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.