Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Quale sarebbe l'approccio per utilizzare Dynamic Time Warping (DTW) per eseguire il clustering di serie temporali? Ho letto di DTW come un modo per trovare la somiglianza tra due serie storiche, mentre potrebbero essere spostate nel tempo. Posso usare questo metodo come misura di somiglianza per l'algoritmo di clustering come …
Ho trovato l'unità lineare rettificata (ReLU) elogiata in diversi punti come soluzione al problema del gradiente di fuga per le reti neurali. Cioè, si usa max (0, x) come funzione di attivazione. Quando l'attivazione è positiva, è ovvio che è meglio, per esempio, della funzione di attivazione sigmoidea, poiché la …
Nell'analisi dei dati bayesiani, i parametri sono trattati come variabili casuali. Ciò deriva dalla concettualizzazione soggettiva bayesiana della probabilità. Ma i bayesiani riconoscono teoricamente che esiste un vero valore di parametro fisso nel "mondo reale?" Sembra che la risposta ovvia sia "sì", perché tentare di stimare il parametro sarebbe quasi …
Mi chiedo se qualcuno conosce qualche regola empirica generale relativa al numero di campioni bootstrap che uno dovrebbe usare, in base alle caratteristiche dei dati (numero di osservazioni, ecc.) E / o alle variabili incluse?
I "big data" sono ovunque nei media. Tutti dicono che i "big data" sono la cosa più importante per il 2012, ad esempio il sondaggio di KDNuggets su argomenti importanti per il 2012 . Tuttavia, ho profonde preoccupazioni qui. Con i big data, tutti sembrano essere felici solo per ottenere …
Diciamo che ho due array monodimensionali, a1a1a_1 e a2a2a_2 . Ciascuno contiene 100 punti dati. a1a1a_1 sono i dati effettivi e a2a2a_2 è la previsione del modello. In questo caso, il valore di R2R2R^2 sarebbe: R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). Nel frattempo, questo sarebbe …
Ho giocato con foreste casuali per la regressione e ho difficoltà a capire esattamente cosa significano le due misure di importanza e come dovrebbero essere interpretate. La importance()funzione fornisce due valori per ogni variabile: %IncMSEe IncNodePurity. Esistono interpretazioni semplici per questi 2 valori? In IncNodePurityparticolare, questo è semplicemente l'importo che …
Sono nuovo alle statistiche e attualmente mi occupo di ANOVA. Eseguo un test ANOVA in R usando aov(dependendVar ~ IndependendVar) Ottengo - tra l'altro - un valore F e un valore p. La mia ipotesi nulla ( H0H0H_0 ) è che tutti i mezzi del gruppo sono uguali. Ci sono …
Che cos'è una variabile soppressore nella regressione multipla e quali potrebbero essere i modi per visualizzare visivamente l'effetto di soppressione (la sua meccanica o la sua evidenza nei risultati)? Vorrei invitare tutti coloro che hanno un pensiero, a condividere.
Sto cercando di capire come funziona la backpropagation per un livello di output softmax / cross-entropia. La funzione di errore di entropia incrociata è E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j con e come target e output al neurone , rispettivamente. La somma è su ogni neurone nel livello di output. stesso è …
Ho alcuni dati sui voli delle compagnie aeree (in un frame di dati chiamato flights) e vorrei vedere se il tempo di volo ha qualche effetto sulla probabilità di un arrivo significativamente ritardato (ovvero 10 o più minuti). Ho pensato che avrei usato la regressione logistica, con il tempo di …
Per una distribuzione unimodale moderatamente distorta, abbiamo la seguente relazione empirica tra media, mediana e modalità: (Media - Modalità) ∼ 3(Media mediana)(Media - Modalità)~3(Media mediana) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Come è stata derivata questa relazione? Karl Pearson ha tracciato migliaia di queste relazioni prima di formulare questa conclusione, …
Sto cercando di prevedere il risultato di un sistema complesso che utilizza reti neurali (ANN). I valori di risultato (dipendenti) vanno da 0 a 10.000. Le diverse variabili di input hanno intervalli diversi. Tutte le variabili hanno distribuzioni approssimativamente normali. Considero diverse opzioni per ridimensionare i dati prima dell'allenamento. Un'opzione …
Ci sono un sacco di libri di scienza popolari davvero buoni in giro, che trattano di scienza vera, così come la storia e le ragioni dietro le attuali teorie, pur rimanendo estremamente piacevole da leggere. Ad esempio, "Chaos" di James Gleick (caos, frattali, non linearità), "Una breve storia del tempo" …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.