Statistiche e Big Data

1

Come determinare se l'asse y di un grafico dovrebbe iniziare da zero?

Un modo comune di "mentire con i dati" è usare una scala dell'asse y che fa sembrare che i cambiamenti siano più significativi di quanto non siano realmente. Quando rivedo pubblicazioni scientifiche o rapporti di laboratorio degli studenti, sono spesso frustrato da questo "peccato di visualizzazione dei dati" (che credo …

45 data-visualization

3

Da dove viene l'idea sbagliata secondo cui Y deve essere normalmente distribuito?

Fonti apparentemente affidabili sostengono che la variabile dipendente deve essere normalmente distribuita: Ipotesi del modello: YYY è normalmente distribuito, gli errori sono normalmente distribuiti, eio∼ N( 0 , σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) e indipendente, e XXX è fisso e varianza costante σ2σ2\sigma^2 . Penn State, STAT 504 Analisi di dati discreti …

45 regression least-squares linear-model dependent-variable

1

Differenza tra GradientDescentOptimizer e AdamOptimizer (TensorFlow)?

Ho scritto un semplice MLP in TensorFlow che sta modellando un XOR-Gate . Quindi per: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] dovrebbe produrre quanto segue: output_data = [[0.], [1.], [1.], [0.]] La rete ha uno strato di input, uno nascosto e uno di output con 2, …

45 machine-learning neural-networks error gradient-descent supervised-learning

6

Quali sono i principali teoremi dell'apprendimento automatico (profondo)?

Al Rahimi ha recentemente tenuto un discorso molto provocatorio in NIPS 2017 confrontando l'attuale Machine Learning con l'alchimia. Una delle sue affermazioni è che dobbiamo tornare agli sviluppi teorici, per avere teoremi semplici che dimostrino risultati fondamentali. Quando lo ha detto, ho iniziato a cercare i principali teoremi per ML, …

45 machine-learning deep-learning theory

2

Kernel lineare e kernel non lineare per supporto vettoriale macchina?

Quando si utilizza la macchina vettoriale di supporto, esistono delle linee guida per la scelta del kernel lineare rispetto al kernel non lineare, come RBF? Una volta ho sentito che il kernel non lineare tende a non funzionare bene quando il numero di funzionalità è grande. Ci sono riferimenti su …

45 machine-learning classification svm references kernel-trick

10

Come tracciare correttamente le tendenze

Sto creando un grafico per mostrare le tendenze nei tassi di mortalità (per 1000 ppl.) In diversi paesi e la storia che dovrebbe venire dalla trama è che la Germania (linea blu chiaro) è l'unica la cui tendenza è in aumento dopo il 1932. Questo è il mio primo tentativo …

45 data-visualization

3

Qual è l'effetto di avere predittori correlati in un modello di regressione multipla?

Ho imparato nella mia classe di modelli lineari che se due predittori sono correlati ed entrambi sono inclusi in un modello, uno sarebbe insignificante. Ad esempio, supponiamo che le dimensioni di una casa e il numero di camere da letto siano correlate. Quando si prevede il costo di una casa …

45 regression multiple-regression p-value linear-model multicollinearity

2

Come simulare i dati artificiali per la regressione logistica?

So che mi manca qualcosa nella mia comprensione della regressione logistica e apprezzerei molto qualsiasi aiuto. Per quanto ho capito, la regressione logistica presuppone che la probabilità di un risultato "1" dato gli input, sia una combinazione lineare degli input, passata attraverso una funzione inversa-logistica. Questo è esemplificato nel seguente …

45 r regression logistic generalized-linear-model simulation

8

Esiste un gold standard per la modellazione di serie temporali con spaziatura irregolare?

Nel campo dell'economia (penso) abbiamo ARIMA e GARCH per serie temporali a intervalli regolari e Poisson, Hawkes per i processi di punti di modellizzazione, quindi che ne dite di tentativi di modellazione di serie temporali a spaziatura irregolare - esistono (almeno) pratiche comuni ? (Se hai qualche conoscenza in questo …

45 time-series garch poisson-process point-process unevenly-spaced-time-series

5

Uso di R online - senza installarlo [chiuso]

Esiste la possibilità di utilizzare R in un'interfaccia web senza la necessità di installarlo? Ho solo un piccolo script che mi piace eseguire ma voglio solo provarlo senza una lunga procedura di installazione. Grazie.

45 r

4

Come si calcola la funzione di densità di probabilità del massimo di un campione di variabili casuali uniformi IID?

Data la variabile casuale Y=max(X1,X2,…,Xn)Y=max(X1,X2,…,Xn)Y = \max(X_1, X_2, \ldots, X_n) dove XiXiX_i sono variabili uniformi IID, come posso calcolare il PDF di YYY ?

45 pdf maximum

3

Cos'è Deviance? (in particolare in CART / rpart)

Che cos'è "Devianza", come viene calcolata e quali sono i suoi usi in diversi campi nelle statistiche? In particolare, sono personalmente interessato ai suoi usi in CART (e alla sua implementazione in rpart in R). Lo sto chiedendo poiché l' articolo wiki sembra in qualche modo carente e le tue …

45 r cart rpart deviance

15

Numero atteso di rapporto tra nascita di ragazze e ragazzi

Mi sono imbattuto in una domanda nel test attitudinale del colloquio di lavoro per il pensiero critico. Va qualcosa del genere: La Repubblica di Zorgan ha alcuni costumi molto strani. Le coppie desiderano solo avere figli femmine poiché solo le femmine possono ereditare la ricchezza della famiglia, quindi se hanno …

45 probability ratio

1

Come funziona il metodo Adamo di discesa gradiente stocastica?

Ho familiarità con gli algoritmi di base per la discesa del gradiente per l'addestramento delle reti neurali. Ho letto l'articolo che propone Adam: ADAM: UN METODO PER L'OTTIMIZZAZIONE STOCASTICA . Anche se ho sicuramente avuto alcune intuizioni (almeno), il documento sembra essere di livello troppo alto per me nel complesso. …

45 neural-networks optimization gradient-descent adam

3

C'è qualche differenza tra lm e glm per la famiglia gaussiana di glm?

In particolare, voglio sapere se c'è una differenza tra lm(y ~ x1 + x2)e glm(y ~ x1 + x2, family=gaussian). Penso che questo caso particolare di glm sia uguale a lm. Ho sbagliato?

45 r normal-distribution generalized-linear-model lm