Statistiche e Big Data

15

Completi esempi sostanziali di ricerca riproducibile usando R

La domanda: ci sono buoni esempi di ricerca riproducibile usando R che sono liberamente disponibili online? Esempio ideale: in particolare, esempi ideali fornirebbero: I dati grezzi (e idealmente i metadati che spiegano i dati), Tutto il codice R incluso l'importazione, l'elaborazione, l'analisi e la generazione dei dati, Sweave o qualche …

71 r references reproducible-research

4

Bootstrap può essere visto come una "cura" per le piccole dimensioni del campione?

Questa domanda è stata innescata da qualcosa che ho letto in questo manuale di statistica a livello di laurea e anche (indipendentemente) sentito durante questa presentazione in un seminario statistico. In entrambi i casi, l'affermazione era sulla falsariga di "poiché la dimensione del campione è piuttosto piccola, abbiamo deciso di …

71 bootstrap small-sample

10

È necessaria una dimensione minima del campione affinché il test t sia valido?

Attualmente sto lavorando a un documento di ricerca quasi sperimentale. Ho solo una dimensione del campione di 15 a causa della scarsa popolazione all'interno dell'area scelta e che solo 15 soddisfano i miei criteri. 15 è la dimensione minima del campione da calcolare per il test t e il test …

71 t-test sample-size assumptions power

8

Genera una variabile casuale con una correlazione definita con una o più variabili esistenti

Per uno studio di simulazione devo generare variabili casuali che mostrano una correlazione (popolazione) predefinita a una variabile esistente .YYY Ho esaminato i Rpacchetti copulae CDVineche possono produrre distribuzioni multivariate casuali con una determinata struttura di dipendenza. Tuttavia, non è possibile fissare una delle variabili risultanti su una variabile esistente. …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Come visualizzare quale analisi di correlazione canonica fa (rispetto a quale analisi di componente principale fa)?

L'analisi di correlazione canonica (CCA) è una tecnica correlata all'analisi dei componenti principali (PCA). Mentre è facile insegnare la PCA o la regressione lineare usando un diagramma a dispersione (vedere alcune migliaia di esempi sulla ricerca di immagini di Google), non ho visto un simile esempio bidimensionale intuitivo per CCA. …

70 regression data-visualization pca canonical-correlation geometry

12

Quali sono alcune delle idee sbagliate più comuni sulla regressione lineare?

Sono curioso, per quelli di voi che hanno una vasta esperienza di collaborazione con altri ricercatori, quali sono alcune delle idee sbagliate più comuni sulla regressione lineare che si incontrano? Penso che possa essere un esercizio utile per pensare in anticipo a idee sbagliate comuni al fine di Anticipare gli …

70 regression multiple-regression

5

Utilizzo della convalida incrociata di k-fold per la selezione del modello di serie storiche

Domanda: voglio essere sicuro di qualcosa, l'uso della convalida incrociata di k-fold con le serie temporali è semplice o è necessario prestare particolare attenzione prima di utilizzarlo? Contesto: sto modellando una serie temporale di 6 anni (con catena semi-markov), con un campione di dati ogni 5 minuti. Per confrontare diversi …

70 time-series modeling cross-validation

9

Quali sono le principali differenze filosofiche, metodologiche e terminologiche tra econometria e altri campi statistici?

L'econometria ha una sostanziale sovrapposizione con le statistiche tradizionali, ma spesso usa il proprio gergo su una varietà di argomenti ("identificazione", "esogena", ecc.). Una volta ho sentito un professore di statistica applicata in un altro campo commentare che spesso la terminologia è diversa ma i concetti sono gli stessi. Tuttavia …

70 econometrics terminology

9

Perché è possibile ottenere statistiche F significative (p <.001) ma test t regressori non significativi?

In una regressione lineare multipla, perché è possibile avere una statistica F altamente significativa (p <.001) ma avere valori p molto alti su tutti i test t del regressore? Nel mio modello, ci sono 10 regressori. Uno ha un valore p di 0,1 e il resto è superiore a 0,9 …

70 hypothesis-testing regression t-test multicollinearity

15

Pensieri pratici sulla modellistica esplicativa vs. predittiva

Ad aprile, ho partecipato a un discorso alla serie di seminari sul gruppo di statistiche del Dipartimento di matematica UMD intitolata "Spiegare o predire?". Il discorso è stato tenuto dal Prof. Galit Shmueli che insegna alla Smith Business School dell'UMD . Il suo intervento si basava sulla ricerca che aveva …

70 predictive-models

9

Quale algoritmo dovrei usare per rilevare anomalie nelle serie temporali?

sfondo Sto lavorando in Network Operations Center, monitoriamo i sistemi informatici e le loro prestazioni. Una delle metriche chiave da monitorare è un numero di visitatori / clienti attualmente connessi ai nostri server. Per renderlo visibile, noi (team Ops) raccogliamo metriche come dati di serie temporali e tracciamo grafici. La …

70 machine-learning time-series python computational-statistics anomaly-detection

1

Come dividere il set di dati per la validazione incrociata, la curva di apprendimento e la valutazione finale?

Qual è una strategia appropriata per suddividere il set di dati? Chiedo feedback sul seguente approccio (non sui singoli parametri come test_sizeo n_iter, ma se usato X, y, X_train, y_train, X_test, e y_testin modo appropriato e se la sequenza senso): (estendendo questo esempio dalla documentazione di scikit-learn) 1. Caricare il …

70 machine-learning cross-validation python scikit-learn

4

Qual è la differenza tra le funzioni R prcomp e princomp?

Ho confrontato ?prcompe ?princomptrovato qualcosa sull'analisi dei componenti principali in modalità Q e modalità R (PCA). Ma onestamente, non lo capisco. Qualcuno può spiegare la differenza e forse anche spiegare quando applicare quale?

70 r pca

2

Come funziona il livello 'Incorporamento' di Keras?

È necessario comprendere il funzionamento del livello 'Incorporamento' nella libreria Keras. Eseguo il seguente codice in Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) che fornisce il seguente output …

70 text-mining word-embeddings keras

3

Perché i ricercatori delle reti neurali si preoccupano delle epoche?

Un'epoca nella discesa del gradiente stocastico è definita come un singolo passaggio attraverso i dati. Per ogni minibatch SGD, vengono estratti campioni, il gradiente calcolato e i parametri aggiornati. Nell'impostazione dell'epoca, i campioni vengono disegnati senza sostituzione.kkk Ma questo sembra inutile. Perché non disegnare ogni minibatch SGD mentre disegna casualmente …

69 neural-networks deep-learning gradient-descent