Statistiche e Big Data

4

Come eseguire il test t di Student con solo la dimensione del campione, la media del campione e la media della popolazione sono noti?

Di Student -test richiede l'deviazione standard campionaria . Tuttavia, come si calcola per quando si conoscono solo la dimensione del campione e la media del campione?tttSSsSSs Ad esempio, se la dimensione del campione è e la media del campione è , tenterò quindi di creare un elenco di campioni identici …

28 t-test standard-deviation small-sample

2

La standardizzazione prima di Lasso è davvero necessaria?

Ho letto tre motivi principali per standardizzare le variabili prima di qualcosa come la Lassoregressione: 1) Interpretazione dei coefficienti. 2) Capacità di classificare l'importanza del coefficiente in base all'entità relativa delle stime del coefficiente post-restringimento. 3) Non è necessario intercettare. Ma mi chiedo il punto più importante. Abbiamo motivo di …

28 normalization lasso standardization regularization shrinkage

5

Overfitting di un modello di regressione logistica

È possibile equipaggiare troppo un modello di regressione logistica? Ho visto un video in cui si diceva che se la mia area sotto la curva ROC è superiore al 95%, è molto probabile che venga adattata in modo eccessivo, ma è possibile utilizzare un modello di regressione logistica?

28 logistic overfitting regression-strategies

1

Deborah Mayo ha confutato la prova di Birnbaum del principio di verosimiglianza?

Questo è in qualche modo correlato alla mia domanda precedente qui: un esempio in cui il principio di probabilità * davvero * conta? Apparentemente, Deborah Mayo ha pubblicato un articolo su Statistical Science confutando la prova di Birnbaum del principio di probabilità. Qualcuno può spiegare l'argomento principale di Birnbaum e …

27 mathematical-statistics likelihood-principle

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

1

Perché glmnet utilizza una rete elastica "ingenua" della carta originale Zou & Hastie?

La carta elastica originale Zou & Hastie (2005) La regolarizzazione e la selezione delle variabili tramite la rete elastica hanno introdotto la funzione di perdita netta elastica per la regressione lineare (qui presumo che tutte le variabili siano centrate e ridimensionate in base alla varianza unitaria): ma l'ha definita "rete …

27 regression regularization glmnet elastic-net shrinkage

3

L'origine del termine "regolarizzazione"

Quando introduco concetti ai miei studenti, trovo spesso divertente dire loro dove ha origine la terminologia ("regressione", ad esempio, è un termine con un'origine interessante). Non sono stato in grado di evidenziare la storia / il background del termine "regolarizzazione" in apprendimento statistico / automatico. Quindi, qual è l'origine del …

27 terminology regularization history tikhonov-regularization

3

Quali sono gli impatti della scelta delle diverse funzioni di perdita nella classificazione per approssimare la perdita 0-1

Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera …

27 machine-learning classification optimization loss-functions

2

Quanto cancro al polmone è realmente causato dal fumo? [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso l'anno scorso . Sui prodotti del tabacco si può spesso vedere la statistica che nove tumori polmonari su dieci sono causati …

27 epidemiology population-attributable-fraction

2

La somiglianza del coseno è identica alla distanza euclidea normalizzata l2?

Identico significato, che produrrà risultati identici per una somiglianza Classifica tra un vettore u e un insieme di vettori V . Ho un modello di spazio vettoriale che ha come parametro la misura della distanza (distanza euclidea, somiglianza del coseno) e la tecnica di normalizzazione (nessuna, l1, l2). Da quanto …

27 normalization natural-language euclidean cosine-distance cosine-similarity

9

Quando la correlazione può essere utile senza causalità?

Un animale domestico che dice molti statistici è "La correlazione non implica la causalità". Questo è certamente vero, ma una cosa che sembra implicita qui è che la correlazione ha poco o nessun valore. È vero? È inutile sapere che due variabili sono correlate? Non riesco a immaginare che sia …

27 correlation predictive-models causality

2

Perché le passeggiate casuali sono intercorrelate?

Ho osservato che, in media, il valore assoluto del coefficiente di correlazione di Pearson è una costante vicina a qualsiasi coppia di camminate casuali indipendenti, indipendentemente dalla lunghezza della camminata.0.560.42 Qualcuno può spiegare questo fenomeno? Mi aspettavo che le correlazioni diminuissero con l'aumentare della lunghezza della camminata, come con qualsiasi …

27 time-series correlation stationarity random-walk

3

Ora non si può dire che i modelli di apprendimento profondo siano interpretabili? Le funzionalità dei nodi?

Per i modelli statistici e di apprendimento automatico, esistono diversi livelli di interpretabilità: 1) l'algoritmo nel suo insieme, 2) parti dell'algoritmo in generale 3) parti dell'algoritmo su input particolari e questi tre livelli si dividono in due parti ciascuno, uno per l'allenamento e uno per la valutazione delle funzioni. Le …

27 neural-networks deep-learning interpretation

4

Cosa c'è di sbagliato in t-SNE vs PCA per la riduzione dimensionale usando R?

Ho una matrice di numeri in virgola mobile 336x256 (336 genomi batterici (colonne) x 256 frequenze di tetranucleotidi normalizzate (righe), ad esempio ogni colonna aggiunge fino a 1). Ottengo buoni risultati quando eseguo la mia analisi utilizzando l'analisi dei componenti principali. Per prima cosa, calcolo i cluster di kmean sui …

27 r pca tsne

2

La variazione è uguale alla varianza?

Questa è la mia prima domanda su Cross Validated qui, quindi per favore aiutatemi anche se sembra banale :-) Innanzitutto, la domanda potrebbe essere il risultato di differenze linguistiche o forse io ho delle vere carenze nelle statistiche. Tuttavia, eccolo qui: Nelle statistiche sulla popolazione, variazione e varianza sono gli …

27 variance descriptive-statistics definition