Statistiche e Big Data

3

Costruire un autoencoder a Tensorflow per superare la PCA

Hinton e Salakhutdinov nel ridurre la dimensionalità dei dati con le reti neurali, Science 2006 ha proposto un PCA non lineare attraverso l'uso di un autoencoder profondo. Ho provato a costruire e addestrare un autoencoder PCA con Tensorflow diverse volte, ma non sono mai stato in grado di ottenere risultati …

31 pca python deep-learning tensorflow autoencoders

4

Valori p più piccoli sono più convincenti?

Ho letto valori , tassi di errore di tipo 1, livelli di significatività, calcoli di potenza, dimensioni degli effetti e dibattito Fisher vs Neyman-Pearson. Questo mi ha lasciato un po 'sopraffatto. Mi scuso per il muro di testo, ma ho ritenuto necessario fornire una panoramica della mia attuale comprensione di …

31 hypothesis-testing statistical-significance confidence-interval p-value effect-size

8

Probabilità di nascere in un giorno bisestile?

Dato che oggi è un giorno bisestile, qualcuno conosce la probabilità di nascere in un giorno bisestile?

31 probability

2

Il valore esatto di un "valore p" non ha senso?

Ho avuto una discussione con uno statistico nel 2009 in cui ha affermato che il valore esatto di un valore p è irrilevante: l'unica cosa importante è se è significativo o meno. Cioè un risultato non può essere più significativo di un altro; i tuoi campioni, ad esempio, provengono dalla …

31 statistical-significance p-value bonferroni

1

Domanda di regressione binomiale negativa: è un modello scadente?

Sto leggendo un articolo molto interessante di Seller e Shmueli sui modelli di regressione per i dati di conteggio. Quasi all'inizio (p. 944) citano McCullaugh e Nelder (1989) affermando che la regressione binomiale negativa è impopolare e ha un problematico collegamento canonico. Ho trovato il passaggio indicato e dice (p. …

31 regression modeling negative-binomial

4

Perché i valori di p inferiori non sono più prove contro il nulla? Argomenti di Johansson 2011

Johansson (2011) in " Salve l'impossibile: valori p, prove e probabilità " (qui c'è anche un link al diario ) afferma che valori inferiori sono spesso considerati prove più forti contro il nulla. Johansson implica che le persone considererebbero le prove contro il nulla più forti se il loro test …

31 hypothesis-testing statistical-significance p-value philosophical

2

Qual è la differenza tra "apprendimento profondo" e modellazione multilivello / gerarchica?

"Apprendimento profondo" è solo un altro termine per la modellazione multilivello / gerarchica? Ho molta più familiarità con il secondo rispetto al primo, ma da quello che posso dire, la differenza principale non è nella loro definizione, ma nel modo in cui vengono utilizzati e valutati nel loro dominio di …

31 machine-learning multilevel-analysis hierarchical-bayesian deep-learning

5

Rilevamento di predittori significativi tra molte variabili indipendenti

In un set di dati di due popolazioni non sovrapposte (pazienti e sani, totale ), vorrei trovare (su variabili indipendenti) predittori significativi per una variabile dipendente continua. La correlazione tra predittori è presente. Sono interessato a scoprire se qualcuno dei predittori è correlato alla variabile dipendente "in realtà" (piuttosto che …

31 regression pca feature-selection stepwise-regression underdetermined

1

Quali sono alcune linee guida utili per i parametri GBM?

Quali sono alcune linee guida utili per testare i parametri (ad es. Profondità di interazione, minchild, frequenza di campionamento, ecc.) Usando GBM? Diciamo che ho 70-100 funzioni, una popolazione di 200.000 e ho intenzione di testare la profondità di interazione di 3 e 4. Chiaramente ho bisogno di fare alcuni …

31 r hypothesis-testing cart boosting

5

Raccomandazioni su colore e spessore delle linee per i grafici a linee

Molto è stato scritto in merito alle scelte cromatiche compatibili con i non vedenti per mappe, poligoni e regioni ombreggiate in generale (vedere ad esempio http://colorbrewer2.org ). Non sono stato in grado di trovare consigli per i colori delle linee e lo spessore delle linee variabili per i grafici a …

31 r data-visualization

1

Riduzione della dimensionalità (SVD o PCA) su una matrice ampia e sparsa

/ modifica: ulteriori follow-up ora è possibile utilizzare irlba :: prcomp_irlba / modifica: follow-up sul mio post. irlbaora ha argomenti "center" e "scale", che ti permettono di usarlo per calcolare i componenti principali, ad esempio: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Ho una vasta gamma Matrixdi funzioni …

31 r pca dimensionality-reduction svd matrix-decomposition

3

Confutazione basata sull'entropia del paradosso della freccia indietro del tempo bayesiano di Shalizi?

In questo articolo , la talentuosa ricercatrice Cosma Shalizi sostiene che per accettare pienamente una visione soggettiva bayesiana, si deve anche accettare un risultato non fisico secondo cui la freccia del tempo (data dal flusso di entropia) dovrebbe effettivamente tornare indietro . Questo è principalmente un tentativo di argomentare contro …

31 bayesian entropy maximum-entropy philosophical

8

Sostituzione dei valori anomali con la media

Questa domanda è stata posta dal mio amico che non è esperto di Internet. Non ho un background statistico e ho cercato su Internet questa domanda. La domanda è: è possibile sostituire i valori anomali con un valore medio? se è possibile, ci sono riferimenti / riviste di libri per …

31 mean outliers robust winsorizing

3

Come si confrontano la gamma Goodman-Kruskal e le correlazioni Kendall tau o Spearman rho?

Nel mio lavoro, stiamo confrontando le classifiche previste con le classifiche vere per alcune serie di dati. Fino a poco tempo fa usavamo Kendall-Tau da solo. Un gruppo che sta lavorando a un progetto simile ha suggerito di provare a usare invece il Gamma Goodman-Kruskal e che lo hanno preferito. …

31 spearman-rho kendall-tau goodman-kruskal-gamma

3

Perché è necessaria la selezione delle variabili?

Le comuni procedure di selezione delle variabili basate su dati (ad esempio, avanti, indietro, per gradi, tutti i sottoinsiemi) tendono a produrre modelli con proprietà indesiderate, tra cui: Coefficienti distorti da zero. Errori standard troppo piccoli e intervalli di confidenza troppo stretti. Testare statistiche e valori p che non hanno …

31 modeling feature-selection