Statistiche e Big Data

4

Perché la media tende a essere più stabile in campioni diversi rispetto alla mediana?

La sezione 1.7.2 di Rilevazione delle statistiche usando R di Andy Fields, et all, mentre elenca le virtù della media rispetto alla mediana, afferma: ... la media tende ad essere stabile in diversi campioni. Questo dopo aver spiegato le molte virtù della mediana, ad es ... La mediana non è …

22 mean median

1

Perché la funzione di costo delle reti neurali non è convessa?

C'è un thread simile qui (la funzione di costo della rete neurale non è convessa? ) Ma non sono stato in grado di capire i punti nelle risposte lì e il mio motivo per chiedere di nuovo sperando che questo chiarisca alcuni problemi: Se utilizzo somma di funzione di costo …

22 machine-learning neural-networks optimization loss-functions convex

1

Backpropagation gradiente tramite connessioni salta ResNet

Sono curioso di sapere come i gradienti vengono retro-propagati attraverso una rete neurale usando i moduli ResNet / salta le connessioni. Ho visto un paio di domande su ResNet (ad es. Rete neurale con connessioni skip-layer ) ma questa fa domande specifiche sulla retro-propagazione dei gradienti durante l'allenamento. L'architettura di …

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

7

Le mappe di calore sono “uno dei tipi meno efficaci di visualizzazione dei dati”?

Domanda: Quando (per quali tipi di problemi di visualizzazione dei dati) le mappe di calore sono più efficaci? (In particolare, più efficace di tutte le altre tecniche di visualizzazione possibili?) Quando le mappe di calore sono meno efficaci? Esistono schemi o regole empirici comuni che è possibile utilizzare per decidere …

22 data-visualization heatmap

3

Relu vs Sigmoid vs Softmax come neuroni a strati nascosti

Stavo giocando con una semplice rete neurale con un solo livello nascosto, di Tensorflow, e poi ho provato diverse attivazioni per il livello nascosto: Relu sigmoid Softmax (beh, di solito softmax è usato nell'ultimo strato ..) Relu offre la migliore precisione e accuratezza di convalida del treno. Non sono sicuro …

22 machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

2

Esiste un

Avendo incluso un modello di regressione quantile in un documento, i revisori vogliono che io includa aggiustato R2R2R^2 nel documento. Ho calcolato gli pseudo- s (dal documento JASA del 1999 di Koenker e Machado ) per i tre quantili di interesse per il mio studio.R2R2R^2 Tuttavia, non ho mai sentito …

22 goodness-of-fit r-squared quantile-regression

6

Paradosso del valore medio - Come si chiama?

Ho un set di dati. Pronuncia osservazioni e 3 variabili:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 …

22 proportion descriptive-statistics paradox

4

Lo stimatore imparziale della massima verosimiglianza è sempre il miglior stimatore imparziale?

So che per problemi regolari, se abbiamo uno stimatore imparziale regolare migliore, deve essere lo stimatore di massima verosimiglianza (MLE). Ma in generale, se abbiamo un MLE imparziale, sarebbe anche il miglior stimatore imparziale (o forse dovrei chiamarlo UMVUE, purché abbia la varianza più piccola)?

22 mathematical-statistics maximum-likelihood unbiased-estimator

5

Quando A e B sono variabili correlate positivamente, possono avere un effetto opposto sulla loro variabile di risultato C?

A è positivamente correlato a B. C è il risultato di A e B, ma l'effetto di A su C è negativo e l'effetto di B su C è positivo. Questo può succedere?

22 regression correlation

4

Perché i metodi bayesiani non richiedono più correzioni di test?

Andrew Gelman ha scritto un ampio articolo sul perché i test Bayesian AB non richiedono la correzione di ipotesi multiple: perché (di solito) non dobbiamo preoccuparci dei confronti multipli , 2012. Non capisco bene: perché i metodi bayesiani non richiedono più correzioni di test? A ~ Distribution1 + Common Distribution …

22 hypothesis-testing bayesian multiple-comparisons

1

Pena di ponte contro regolarizzazione della rete elastica

Alcune funzioni e approssimazioni di penalità sono ben studiate, come il LASSO ( ) e il Ridge ( ) e come si confrontano nella regressione.L1L1L_1L2L2L_2 Ho letto della penalità Bridge, che è la penalità generalizzata . Confrontalo con il LASSO, che ha \ gamma = 1 , e il Ridge, …

22 regression lasso regularization ridge-regression elastic-net

4

Qual è il nome di questo grafico che mostra i tassi di falsi e veri positivi e come viene generato?

L'immagine seguente mostra una curva continua di tassi falsi positivi rispetto a tassi positivi reali: Tuttavia, ciò che non ottengo immediatamente è come vengono calcolate queste tariffe. Se un metodo viene applicato a un set di dati, ha un determinato tasso FP e un certo tasso FN. Ciò non significa …

22 machine-learning data-visualization roc auc

2

Come derivare la funzione di probabilità per la distribuzione binomiale per la stima dei parametri?

Secondo la probabilità e le statistiche di Miller e Freund per gli ingegneri, 8ed (pp.217-218), la funzione di probabilità da massimizzare per la distribuzione binomiale (prove di Bernoulli) è data come L ( p ) = ∏ni = 1pXio( 1 - p )1 - xioL(p)=Πio=1npXio(1-p)1-XioL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Come arrivare a …

22 estimation maximum-likelihood bernoulli-distribution point-estimation

2

Devo scrivere in maiuscolo la "N" in "Distribuzione normale" in inglese britannico?

Questa domanda è un po 'a sinistra, ma ho pensato che la comunità qui probabilmente abbia una visione forte dell'argomento! Sto scrivendo la mia tesi di dottorato. Coerentemente, parlando di quantità che sono formalmente correlate a una distribuzione gaussiana, ho fatto in maiuscolo la "N" in "Normale" per riferirle. Ad …

22 normal-distribution terminology

3

Perché usare la discesa gradiente con le reti neurali?

Durante l'allenamento di una rete neurale mediante l'algoritmo di retro-propagazione, il metodo di discesa del gradiente viene utilizzato per determinare gli aggiornamenti del peso. La mia domanda è: anziché utilizzare il metodo di discesa gradiente per individuare lentamente il punto minimo rispetto a un determinato peso, perché non impostare semplicemente …

22 neural-networks gradient-descent backpropagation