Statistiche e Big Data

3

Auto.arima con dati giornalieri: come acquisire stagionalità / periodicità?

Sto montando un modello ARIMA su una serie storica giornaliera. I dati vengono raccolti quotidianamente dal 02-01-2010 al 30-07-2011 e riguardano le vendite di giornali. Poiché è possibile trovare un modello settimanale di vendite (la quantità media giornaliera di copie vendute è generalmente la stessa dal lunedì al venerdì, quindi …

21 r time-series arima seasonality

1

Adattamento di un modello esponenziale ai dati

Questa domanda è stata migrata dallo Stack Overflow perché è possibile rispondere su Convalida incrociata. Migrato 8 anni fa . Ho 2 variabili, entrambe della classe "numerico": > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 Li ho tracciati e ora …

21 r

4

In che misura la distinzione tra correlazione e causalità è rilevante per Google?

Contesto Una domanda popolare su questo sito è " Cosa sono i peccati statistici comuni? ". Uno dei peccati menzionati sta assumendo che il collegamento "la correlazione implica la causalità ..." Quindi, nei commenti con 5 voti si suggerisce che: "Google guadagna $ 65 miliardi all'anno senza preoccuparsi della differenza". …

21 machine-learning causality

5

Esempio di forte coefficiente di correlazione con un alto valore p

Mi chiedevo, è possibile avere un coefficiente di correlazione molto forte (diciamo .9 o superiore), con un valore di p elevato (diciamo .25 o superiore)? Ecco un esempio di un basso coefficiente di correlazione, con un valore p elevato: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0,03908927, …

21 r hypothesis-testing correlation

4

Gli alberi decisionali sono quasi sempre alberi binari?

Quasi ogni esempio di albero decisionale che ho incontrato sembra essere un albero binario. È praticamente universale? La maggior parte degli algoritmi standard (C4.5, CART, ecc.) Supporta solo alberi binari? Da quello che raccolgo, CHAID non si limita agli alberi binari, ma sembra essere un'eccezione. Una divisione a due vie …

21 machine-learning data-mining cart

3

Che cosa è intuitivamente "bias"?

Sto lottando per comprendere il concetto di distorsione nel contesto dell'analisi di regressione lineare. Qual è la definizione matematica di bias? Che cosa è esattamente di parte e perché / come? Esempio illustrativo?

21 regression terminology bias definition

1

Regressione logistica per serie storiche

Vorrei utilizzare un modello di regressione logistica binaria nel contesto dei dati di streaming (serie temporali multidimensionali) al fine di prevedere il valore della variabile dipendente dei dati (ovvero riga) appena arrivati, date le osservazioni passate. Per quanto ne so, la regressione logistica viene tradizionalmente utilizzata per l'analisi post mortem, …

21 r time-series logistic

1

Distribuzione marginale della diagonale di una matrice distribuita inversa di Wishart

Supponiamo che . Sono interessato alla distribuzione marginale degli elementi diagonali . Ci sono alcuni semplici risultati sulla distribuzione delle sottomatrici di (almeno alcune elencate su Wikipedia). Da ciò posso capire che la distribuzione marginale di ogni singolo elemento sulla diagonale è Gamma inversa. Ma non sono stato in grado …

21 distributions probability pdf

5

Come iniziare ad applicare la teoria della risposta degli articoli e quale software utilizzare?

Contesto Ho letto la teoria della risposta agli oggetti e la trovo affascinante. Credo di aver capito le basi, ma mi sono lasciato chiedendo come applicare le tecniche statistiche relative all'area. Di seguito sono riportati due articoli simili all'area in cui vorrei applicare ITR: http://www.jstor.org/stable/4640738?seq=7 http://www.ncbi.nlm.nih.gov/pubmed/21744971 Il secondo è quello …

21 psychometrics latent-variable irt

2

Difficoltà di testare la linearità nella regressione

In Modellistica statistica: Le due culture scrive Leo Breiman L'attuale pratica applicata è quella di verificare l'adattamento del modello di dati mediante test di bontà di adattamento e analisi residua. Ad un certo punto, alcuni anni fa, ho creato un problema di regressione simulato in sette dimensioni con una quantità …

21 regression goodness-of-fit

3

Regressione di Poisson vs. regressione dei minimi quadrati del numero di log?

Una regressione di Poisson è una GLM con una funzione log-link. Un modo alternativo per modellare i dati di conteggio non distribuiti normalmente è quello di preelaborare prendendo il registro (o meglio, registro (1 + conteggio) per gestire gli 0). Se si esegue una regressione dei minimi quadrati sulle risposte …

21 regression poisson-distribution generalized-linear-model

2

Come usare i pesi nella funzione lm in R?

Bloccato . Questa domanda e le sue risposte sono bloccate perché la domanda è fuori tema ma ha un significato storico. Al momento non accetta nuove risposte o interazioni. Qualcuno potrebbe offrire alcuni suggerimenti su come utilizzare l' weightsargomento nella lmfunzione di R ? Ad esempio, stavi cercando di adattare …

21 r regression

2

Come scegliere tra algoritmi di apprendimento

Devo implementare un programma che classificherà i record in 2 categorie (vero / falso) sulla base di alcuni dati di addestramento e mi chiedevo quale algoritmo / metodologia dovrei guardare. Sembra che ce ne siano molti tra cui scegliere: rete neurale artificiale, algoritmo genetico, apprendimento automatico, ottimizzazione bayesiana ecc. Ecc., …

21 machine-learning bayesian optimization genetic-algorithms

5

Introduzione alla teoria delle misure

Sono interessato a saperne di più sulle tecniche bayesiane non parametriche (e relative). Il mio background è in informatica e anche se non ho mai seguito un corso di teoria della misura o teoria della probabilità, ho avuto una quantità limitata di formazione formale in probabilità e statistica. Qualcuno può …

21 probability bayesian references theory

3

Confronto tra MaxEnt, ML, Bayes e altri tipi di metodi di inferenza statistica

Non sono affatto uno statistico (ho frequentato un corso di statistica matematica, ma niente di più) e recentemente, mentre studiavo teoria dell'informazione e meccanica statistica, ho incontrato questa cosa chiamata "misura dell'incertezza" / "entropia". Ho letto la derivazione di Khinchin come una misura di incertezza e ha senso per me. …

21 entropy inference