Statistiche e Big Data

3

Quando si combinano i valori p, perché non limitarsi alla media?

Di recente ho appreso il metodo di Fisher per combinare i valori p. Questo si basa sul fatto che il valore p sotto il null segue una distribuzione uniforme e che che penso sia geniale. Ma la mia domanda è: perché andare in questo modo contorto? e perché no (cosa …

44 hypothesis-testing p-value multiple-comparisons central-limit-theorem combining-p-values

1

Calcolo della varianza Kappa di Cohen (ed errori standard)

La statistica Kappa ( ) fu introdotta nel 1960 da Cohen [1] per misurare l'accordo tra due rater. La sua varianza, tuttavia, era stata fonte di contraddizioni per un bel po 'di tempo.κκ\kappa La mia domanda è su quale sia il miglior calcolo della varianza da utilizzare con campioni di …

44 estimation variance reliability cohens-kappa

7

Perché qualcuno dovrebbe usare un approccio bayesiano con un precedente improprio "non informativo" invece dell'approccio classico?

Se l'interesse sta semplicemente stimando i parametri di un modello (stima puntuale e / o intervallo) e le informazioni precedenti non sono affidabili, deboli (so che questo è un po 'vago ma sto cercando di stabilire uno scenario in cui la scelta di un la priorità è difficile) ... Perché …

44 bayesian inference prior likelihood information

5

Perché il confronto multiplo è un problema?

Trovo difficile capire quale sia realmente il problema con più confronti . Con una semplice analogia, si dice che una persona che prenderà molte decisioni farà molti errori. Si applicano quindi precauzioni molto conservative, come la correzione di Bonferroni, in modo da rendere probabile che questa persona commetta qualsiasi errore, …

44 hypothesis-testing multiple-comparisons

4

Foglio informativo sui modelli statistici

Mi chiedevo se esiste un modello statistico "cheat sheet (s)" che elenca una o più informazioni: quando usare il modello quando non usare il modello input richiesti e opzionali uscite attese il modello è stato testato in diversi settori (politica, bio, ingegneria, produzione, ecc.)? è accettato nella pratica o nella …

44 references modeling

8

Definizione rigorosa di un valore anomalo?

Le persone spesso parlano di come gestire i valori anomali nelle statistiche. La cosa che mi preoccupa di questo è che, per quanto ne so, la definizione di un outlier è completamente soggettiva. Ad esempio, se la vera distribuzione di una variabile casuale è molto pesante o bimodale, qualsiasi visualizzazione …

44 outliers definition

6

Perché la multicollinearità non è controllata nelle moderne statistiche / apprendimento automatico

Nelle statistiche tradizionali, durante la creazione di un modello, controlliamo la multicollinearità utilizzando metodi come le stime del fattore di inflazione della varianza (VIF), ma nell'apprendimento automatico, invece, utilizziamo la regolarizzazione per la selezione delle funzionalità e non sembriamo verificare se le funzionalità sono correlate affatto. Perché lo facciamo?

44 regression machine-learning multicollinearity regularization vif

4

Esiste un test per determinare se l'overdispersione GLM è significativa?

Sto creando GLM di Poisson in R. Per verificare la sovradispersione, sto esaminando il rapporto tra devianza residua e gradi di libertà forniti da summary(model.name). Esiste un valore di interruzione o un test per questo rapporto da considerare "significativo?" So che se è> 1 i dati sono sovradispersi, ma se …

44 statistical-significance overdispersion

2

La normalizzazione media e il ridimensionamento delle funzionalità sono necessari per il clustering di k-mean?

Quali sono le fasi di pre-elaborazione migliori (consigliate) prima di eseguire k-medie?

44 clustering normalization k-means

4

Come confrontare statisticamente due serie storiche?

Ho due serie storiche, mostrate nella trama qui sotto: La trama mostra tutti i dettagli di entrambe le serie storiche, ma se necessario posso facilmente ridurla alle osservazioni coincidenti. La mia domanda è: quali metodi statistici posso usare per valutare le differenze tra le serie storiche? So che questa è …

44 r time-series

6

Come evitare le etichette sovrapposte in un diagramma R? [chiuso]

Sto cercando di etichettare un diagramma a dispersione piuttosto semplice in R. Questo è quello che uso: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Il risultato è mediocre, come puoi vedere (clicca per ingrandire): Ho provato a compensare questo usando la textxyfunzione, ma non è meglio . Allargare l'immagine stessa …

44 r data-visualization scatterplot

4

Quale funzione di attivazione per il livello di output?

Mentre la scelta delle funzioni di attivazione per il livello nascosto è abbastanza chiara (principalmente sigma o tanh), mi chiedo come decidere la funzione di attivazione per il livello di output. Le scelte comuni sono funzioni lineari, funzioni sigmoidi e funzioni softmax. Tuttavia, quando dovrei usare quale?

44 neural-networks

3

Verifica dell'uguaglianza dei coefficienti da due diverse regressioni

Questo sembra essere un problema di base, ma mi sono appena reso conto che in realtà non so come testare l'uguaglianza dei coefficienti da due diverse regressioni. Qualcuno può far luce su questo? Più formalmente, supponiamo di aver eseguito le due regressioni seguenti: e dove riferisce alla matrice di progettazione …

44 hypothesis-testing inference

5

È importante ridimensionare i dati prima del clustering?

Ho trovato questo tutorial , che suggerisce che è necessario eseguire la funzione di ridimensionamento sulle funzionalità prima del clustering (credo che converta i dati in z-score). Mi chiedo se sia necessario. Lo sto chiedendo principalmente perché c'è un bel punto a gomito quando non ridimensiono i dati, ma scompare …

44 clustering k-means

5

Qual è la differenza tra gli algoritmi forward-backward e Viterbi?

Voglio sapere quali sono le differenze tra l' algoritmo avanti-indietro e l' algoritmo di Viterbi per l'inferenza nei modelli nascosti di Markov (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward