Statistiche e Big Data

14

Algoritmo semplice per il rilevamento di valori anomali online di una serie storica generica

Sto lavorando con un gran numero di serie storiche. Queste serie temporali sono essenzialmente misurazioni di rete che arrivano ogni 10 minuti e alcune sono periodiche (ovvero la larghezza di banda), mentre altre no (ovvero la quantità di traffico di routing). Vorrei un semplice algoritmo per eseguire un "rilevamento anomalo" …

88 time-series outliers mathematical-statistics real-time

30

Esiste un modo per ricordare le definizioni degli errori di tipo I e di tipo II?

Non sono uno statistico per educazione, sono un ingegnere del software. Eppure le statistiche arrivano molto. In effetti, domande specifiche sull'errore di tipo I e di tipo II stanno sorgendo molto nel corso dei miei studi per l'esame Associate Software Development Development Associate (matematica e statistica sono il 10% dell'esame). …

88 terminology type-i-and-ii-errors

2

Quanto dovremmo avere paura degli avvisi di convergenza in lme4

Se rielaboriamo un bagliore, potremmo ricevere un avviso che ci dice che il modello sta trovando difficoltà a convergere ... ad es >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) un altro modo per verificare la convergenza …

88 r mixed-model lme4-nlme

3

Cos'è la carenza di rango e come gestirla?

Il montaggio di una regressione logistica con lme4 termina con Error in mer_finalize(ans) : Downdated X'X is not positive definite. Una probabile causa di questo errore è apparentemente la carenza di rango. Cos'è la carenza di rango e come devo affrontarla?

87 r logistic lme4-nlme

5

Quali sono le principali differenze tra K-medie e K-vicini più vicini?

So che k-mean non è supervisionato e viene utilizzato per il clustering ecc. E che k-NN è supervisionato. Ma volevo sapere differenze concrete tra i due?

86 machine-learning k-means k-nearest-neighbour

2

Data la potenza dei computer al giorno d'oggi, c'è mai un motivo per fare un test chi-quadrato piuttosto che il test esatto di Fisher?

Dato che al giorno d'oggi il software può eseguire il calcolo esatto del test di Fisher così facilmente , esiste qualche circostanza in cui, teoricamente o praticamente, il test chi-quadrato è effettivamente preferibile al test esatto di Fisher? I vantaggi del test esatto di Fisher includono: ridimensionamento in tabelle di …

86 chi-squared contingency-tables fishers-exact

3

Quali sono esempi in cui un "bootstrap ingenuo" fallisce?

Supponiamo di avere una serie di dati di esempio da una distribuzione sconosciuta o complessa e di voler fare qualche deduzione su una statistica dei dati. La mia inclinazione predefinito è quello di generare solo un mucchio di campioni di bootstrap con sostituzione, e calcolare la mia statistica su ciascun …

86 hypothesis-testing confidence-interval bootstrap

9

Cos'è esattamente un intervallo di confidenza?

So approssimativamente e in modo informale cos'è un intervallo di confidenza. Tuttavia, non riesco a avvolgere la testa attorno a un dettaglio piuttosto importante: Secondo Wikipedia: Un intervallo di confidenza non prevede che il vero valore del parametro abbia una particolare probabilità di trovarsi nell'intervallo di confidenza dati i dati …

86 confidence-interval definition

9

C'è una spiegazione intuitiva del perché la multicollinearità è un problema nella regressione lineare?

Il wiki discute i problemi che sorgono quando la multicollinearità è un problema di regressione lineare. Il problema di base è che la multicollinearità si traduce in stime di parametri instabili che rendono molto difficile valutare l'effetto di variabili indipendenti su variabili dipendenti. Comprendo le ragioni tecniche alla base dei …

85 regression intuition multicollinearity

17

Inclusa l'interazione ma non i principali effetti in un modello

È mai valido includere un'interazione bidirezionale in un modello senza includere gli effetti principali? Che cosa succede se la tua ipotesi riguarda solo l'interazione, devi ancora includere gli effetti principali?

85 regression modeling interaction regression-coefficients

24

Regole empiriche per statistiche "moderne"

Mi piace il libro di G van Belle sulle Regole empiriche statistiche e, in misura minore, Errori comuni in statistica (e come evitarli) di Phillip I Good e James W. Hardin. Risolvono insidie comuni nell'interpretazione dei risultati di studi sperimentali e osservazionali e forniscono raccomandazioni pratiche per inferenze statistiche o …

85 modeling eda rule-of-thumb

16

In quali condizioni la correlazione implica la causalità?

Sappiamo tutti che il mantra "la correlazione non implica il nesso di causalità" è inserito in tutti gli studenti di statistica del primo anno. Ci sono alcuni begli esempi qui per illustrare l'idea. Ma a volte la correlazione non implica causalità. Il seguente esempio è tratto da questa pagina di …

85 correlation causality

4

Come scegliere la libreria nlme o lme4 R per i modelli di effetti misti?

Ho adattare alcuni modelli effetti misti (in particolare modelli longitudinali) utilizzando lme4in Rma vorrei padroneggiare davvero i modelli e il codice che va con loro. Tuttavia, prima di immergermi con entrambi i piedi (e acquistare alcuni libri) voglio essere sicuro di imparare la biblioteca giusta. Ho usato lme4fino ad ora …

85 r mixed-model lme4-nlme

8

Se la media è così sensibile, perché usarla in primo luogo?

È noto che la mediana è resistente ai valori anomali. In tal caso, quando e perché dovremmo usare la media in primo luogo? Una cosa che mi viene in mente forse è capire la presenza di valori anomali, ovvero se la mediana è lontana dalla media, la distribuzione è distorta …

84 mathematical-statistics mean median

1

Come applicare la rete neurale alle previsioni delle serie storiche?

Sono nuovo di machine learning e ho cercato di capire come applicare la rete neurale alla previsione di serie storiche. Ho trovato risorse relative alla mia query, ma mi sembra di essere ancora un po 'perso. Penso che una spiegazione di base senza troppi dettagli sarebbe di aiuto. Diciamo che …

83 time-series forecasting neural-networks