Statistiche e Big Data

5

Sull'importanza dell'assunzione di iid nell'apprendimento statistico

Nell'apprendimento statistico, implicitamente o esplicitamente, si presume sempre che l'insieme di addestramento sia composto da tuple input / response che sono disegnati indipendentemente dalla stessa distribuzione congiunta conD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) e la relazione che stiamo cercando di …

54 machine-learning cross-validation non-independent iid

4

Come generare numeri casuali correlati (date medie, varianze e grado di correlazione)?

Mi dispiace se questo sembra un po 'troppo semplice, ma credo che sto solo cercando di confermare la comprensione qui. Ho la sensazione che dovrei farlo in due passaggi, e ho iniziato a cercare di individuare le matrici di correlazione, ma sta cominciando a sembrare davvero coinvolto. Sto cercando una …

53 probability correlation conditional-probability random-generation

3

Trasformazione simile a Box-Cox per variabili indipendenti?

Esiste una trasformazione simile a Box-Cox per variabili indipendenti? Cioè, una trasformazione che ottimizza la variabile modo che possa adattarsi più ragionevolmente a un modello lineare?XXxy~f(x) In tal caso, esiste una funzione per eseguire questa operazione R?

53 r regression data-transformation normality-assumption

3

API / feed di dati disponibili come pacchetti in R

EDIT: la visualizzazione dell'attività CRAN di Web Technologies and Services contiene un elenco molto più completo di origini dati e API disponibili in R. È possibile inviare una richiesta pull su github se si desidera aggiungere un pacchetto alla visualizzazione attività. Sto facendo un elenco dei vari feed di dati …

53 r references dataset

10

Apprendimento automatico tramite Python

Sto pensando di utilizzare le librerie Python per fare i miei esperimenti di Machine Learning. Finora mi ero affidato a WEKA, ma nel complesso sono rimasto piuttosto insoddisfatto. Questo principalmente perché ho trovato che WEKA non era così ben supportato (pochissimi esempi, la documentazione è scarsa e il supporto della …

53 machine-learning python

5

Best practice durante l'analisi dei progetti di controllo pre-post trattamento

Immagina il seguente disegno comune: 100 partecipanti vengono assegnati in modo casuale a un trattamento oa un gruppo di controllo la variabile dipendente è numerica e misurata prima e dopo il trattamento Tre ovvie opzioni per l'analisi di tali dati sono: Testare il gruppo per effetto dell'interazione temporale in ANOVA …

53 anova ancova clinical-trials change-scores

6

Regressione lineare online efficiente

Sto analizzando alcuni dati in cui vorrei eseguire la regressione lineare ordinaria, tuttavia ciò non è possibile in quanto ho a che fare con un'impostazione online con un flusso continuo di dati di input (che diventerà rapidamente troppo grande per la memoria) e di cui ho bisogno per aggiornare le …

53 time-series regression algorithms real-time

10

Misura entropia / informazioni / schemi di una matrice binaria 2d

Voglio misurare l'entropia / la densità di informazioni / la somiglianza del modello di una matrice binaria bidimensionale. Vorrei mostrare alcune immagini per chiarimenti: Questo display dovrebbe avere un'entropia piuttosto elevata: UN) Questo dovrebbe avere entropia media: B) Queste immagini, infine, dovrebbero avere tutte un'entropia quasi zero: C) D) E) …

53 algorithms binary-data entropy pattern-recognition information

30

I più famosi statistici

Quali sono i più importanti statistici e che cosa li ha resi famosi? (Rispondi solo uno scienziato per risposta, per favore.)

53 methodology history

5

Quali sono gli svantaggi dei modelli dello spazio degli stati e del filtro Kalman per la modellazione di serie storiche?

Date tutte le buone proprietà dei modelli dello spazio degli stati e KF, mi chiedo: quali sono gli svantaggi della modellazione dello spazio degli stati e dell'utilizzo del filtro Kalman (o EKF, UKF o filtro delle particelle) per la stima? Oltre diciamo metodologie convenzionali come ARIMA, VAR o metodi ad …

53 time-series arima kalman-filter var

7

Rilevamento del periodo di una serie storica generica

Questo post è la continuazione di un altro post correlato a un metodo generico per il rilevamento anomalo nelle serie temporali . Fondamentalmente, a questo punto mi interessa un modo robusto per scoprire la periodicità / stagionalità di una serie storica generica influenzata da un sacco di rumore. Dal punto …

53 time-series algorithms frequency real-time

6

Ottimizzatore Adam con decadimento esponenziale

Nella maggior parte del codice Tensorflow ho visto Adam Optimizer utilizzato con un tasso di apprendimento costante di 1e-4(cioè 0,0001). Il codice di solito ha il seguente aspetto: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the …

53 neural-networks deep-learning gradient-descent tensorflow adam

2

Come può una rete neurale artificiale ANN essere utilizzata per il clustering senza supervisione?

Capisco come un artificial neural network (ANN), può essere addestrato in modo supervisionato usando backpropogation per migliorare l'adattamento diminuendo l'errore nelle previsioni. Ho sentito che un ANN può essere utilizzato per l'apprendimento senza supervisione, ma come può essere fatto senza una funzione di costo di qualche tipo per guidare le …

53 clustering neural-networks unsupervised-learning self-organizing-maps

2

Che cosa significa avere "varianza costante" in un modello di regressione lineare?

Che cosa significa avere "varianza costante" nel termine di errore? A mio avviso, abbiamo un dato con una variabile dipendente e una variabile indipendente. La varianza costante è uno dei presupposti della regressione lineare. Mi chiedo cosa significhi omoscedasticità. Poiché anche se avessi 500 righe, avrei un singolo valore di …

53 regression heteroscedasticity

5

Quando i dati sbilanciati sono davvero un problema in Machine Learning?

Abbiamo già avuto più domande sui dati sbilanciati quando si utilizzano la regressione logistica , SVM , alberi delle decisioni , insaccamento e una serie di altre domande simili, ciò che lo rende un argomento molto popolare! Sfortunatamente, ciascuna delle domande sembra essere specifica dell'algoritmo e non ho trovato linee …

53 machine-learning classification predictive-models unbalanced-classes