Statistiche e Big Data

5

Clustering dinamico di distorsione temporale

Quale sarebbe l'approccio per utilizzare Dynamic Time Warping (DTW) per eseguire il clustering di serie temporali? Ho letto di DTW come un modo per trovare la somiglianza tra due serie storiche, mentre potrebbero essere spostate nel tempo. Posso usare questo metodo come misura di somiglianza per l'algoritmo di clustering come …

40 time-series clustering

4

In che modo la funzione di attivazione rettilinea risolve il problema del gradiente evanescente nelle reti neurali?

Ho trovato l'unità lineare rettificata (ReLU) elogiata in diversi punti come soluzione al problema del gradiente di fuga per le reti neurali. Cioè, si usa max (0, x) come funzione di attivazione. Quando l'attivazione è positiva, è ovvio che è meglio, per esempio, della funzione di attivazione sigmoidea, poiché la …

40 machine-learning neural-networks deep-learning gradient-descent

7

Un bayesiano ammetterebbe che esiste un valore di parametro fisso?

Nell'analisi dei dati bayesiani, i parametri sono trattati come variabili casuali. Ciò deriva dalla concettualizzazione soggettiva bayesiana della probabilità. Ma i bayesiani riconoscono teoricamente che esiste un vero valore di parametro fisso nel "mondo reale?" Sembra che la risposta ovvia sia "sì", perché tentare di stimare il parametro sarebbe quasi …

40 probability bayesian parameterization

6

Regola empirica per il numero di campioni bootstrap

Mi chiedo se qualcuno conosce qualche regola empirica generale relativa al numero di campioni bootstrap che uno dovrebbe usare, in base alle caratteristiche dei dati (numero di osservazioni, ecc.) E / o alle variabili incluse?

40 bootstrap inference monte-carlo

2

Come trarre conclusioni valide dai "big data"?

I "big data" sono ovunque nei media. Tutti dicono che i "big data" sono la cosa più importante per il 2012, ad esempio il sondaggio di KDNuggets su argomenti importanti per il 2012 . Tuttavia, ho profonde preoccupazioni qui. Con i big data, tutti sembrano essere felici solo per ottenere …

40 data-mining dataset large-data validation

5

Intervallo di confidenza per la mediana

Devo trovare un IC al 95% sulla mediana e altri percentili. Non so come affrontarlo. Uso principalmente R come strumento di programmazione.

40 r confidence-interval median

5

Relazione tra

Diciamo che ho due array monodimensionali, a1a1a_1 e a2a2a_2 . Ciascuno contiene 100 punti dati. a1a1a_1 sono i dati effettivi e a2a2a_2 è la previsione del modello. In questo caso, il valore di R2R2R^2 sarebbe: R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). Nel frattempo, questo sarebbe …

40 correlation r-squared

2

Misure di importanza variabile nelle foreste casuali

Ho giocato con foreste casuali per la regressione e ho difficoltà a capire esattamente cosa significano le due misure di importanza e come dovrebbero essere interpretate. La importance()funzione fornisce due valori per ogni variabile: %IncMSEe IncNodePurity. Esistono interpretazioni semplici per questi 2 valori? In IncNodePurityparticolare, questo è semplicemente l'importo che …

40 r machine-learning random-forest importance

3

Come interpretare il valore F e p in ANOVA?

Sono nuovo alle statistiche e attualmente mi occupo di ANOVA. Eseguo un test ANOVA in R usando aov(dependendVar ~ IndependendVar) Ottengo - tra l'altro - un valore F e un valore p. La mia ipotesi nulla ( H0H0H_0 ) è che tutti i mezzi del gruppo sono uguali. Ci sono …

40 r anova interpretation

3

Effetto di soppressione nella regressione: definizione e spiegazione / rappresentazione visiva

Che cos'è una variabile soppressore nella regressione multipla e quali potrebbero essere i modi per visualizzare visivamente l'effetto di soppressione (la sua meccanica o la sua evidenza nei risultati)? Vorrei invitare tutti coloro che hanno un pensiero, a condividere.

40 multiple-regression data-visualization geometry suppressor

6

Backpropagation con Softmax / Cross Entropy

Sto cercando di capire come funziona la backpropagation per un livello di output softmax / cross-entropia. La funzione di errore di entropia incrociata è E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j con e come target e output al neurone , rispettivamente. La somma è su ogni neurone nel livello di output. stesso è …

40 backpropagation derivative softmax cross-entropy

2

Il modello di regressione logistica non converge

Ho alcuni dati sui voli delle compagnie aeree (in un frame di dati chiamato flights) e vorrei vedere se il tempo di volo ha qualche effetto sulla probabilità di un arrivo significativamente ritardato (ovvero 10 o più minuti). Ho pensato che avrei usato la regressione logistica, con il tempo di …

40 r logistic separation

3

Relazione empirica tra media, mediana e modalità

Per una distribuzione unimodale moderatamente distorta, abbiamo la seguente relazione empirica tra media, mediana e modalità: (Media - Modalità) ∼ 3(Media mediana)(Media - Modalità)~3(Media mediana) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Come è stata derivata questa relazione? Karl Pearson ha tracciato migliaia di queste relazioni prima di formulare questa conclusione, …

40 distributions mathematical-statistics descriptive-statistics history

7

Normalizzazione e standardizzazione dei dati nelle reti neurali

Sto cercando di prevedere il risultato di un sistema complesso che utilizza reti neurali (ANN). I valori di risultato (dipendenti) vanno da 0 a 10.000. Le diverse variabili di input hanno intervalli diversi. Tutte le variabili hanno distribuzioni approssimativamente normali. Considero diverse opzioni per ridimensionare i dati prima dell'allenamento. Un'opzione …

40 machine-learning neural-networks multidimensional-scaling

11

Esiste un buon libro di divulgazione scientifica sulle statistiche o sull'apprendimento automatico?

Ci sono un sacco di libri di scienza popolari davvero buoni in giro, che trattano di scienza vera, così come la storia e le ragioni dietro le attuali teorie, pur rimanendo estremamente piacevole da leggere. Ad esempio, "Chaos" di James Gleick (caos, frattali, non linearità), "Una breve storia del tempo" …

40 references communication