Statistiche e Big Data

2

Perché l'ipotesi nulla è sempre un valore in punti piuttosto che un intervallo nel test di ipotesi?

Questo è in qualche modo correlato a un'altra domanda che ho posto. La domanda che ho è, quando si fanno test di ipotesi, quando l'ipotesi alternativa è un intervallo, l'ipotesi nulla è ancora un valore punto. Ad esempio, quando si verifica se un coefficiente di correlazione è maggiore di 0,5, …

22 hypothesis-testing

4

Creazione di un indice di qualità da più variabili per abilitare l'ordinamento dei ranghi

Ho quattro variabili numeriche. Tutti loro sono misure della qualità del suolo. Maggiore è la variabile, maggiore è la qualità. La gamma per tutti loro è diversa: Var1 da 1 a 10 Var2 da 1000 a 2000 Var3 da 150 a 300 Var4 da 0 a 5 Devo combinare quattro …

22 ranking valuation

2

Modelli generativi vs discriminativi (nel contesto bayesiano)

Quali sono le differenze tra modelli generativi e discriminatori (discriminanti) (nel contesto dell'apprendimento e dell'inferenza bayesiani)? e cosa riguarda la predizione, la teoria delle decisioni o l'apprendimento senza supervisione?

22 bayesian predictive-models unsupervised-learning

5

Posso fidarmi dei risultati ANOVA per un DV non distribuito normalmente?

Ho analizzato un esperimento con ANOVA misure ripetute. L'ANOVA è un 3x2x2x2x3 con 2 fattori tra soggetti e 3 all'interno (N = 189). Il tasso di errore è la variabile dipendente. La distribuzione dei tassi di errore ha un'inclinazione di 3,64 e una curtosi di 15,75. L'inclinazione e la curtosi …

22 anova normality-assumption

1

Correzione del test di ipotesi multiple con Benjamini-Hochberg, valori p o valori q?

Dato un elenco di valori p generati da test indipendenti, ordinati in ordine crescente, è possibile utilizzare la procedura Benjamini-Hochberg per la correzione multipla dei test . Per ciascun valore p, la procedura Benjamini-Hochberg consente di calcolare il False Discovery Rate (FDR) per ciascuno dei valori p. Cioè, ad ogni …

22 hypothesis-testing

3

Stima non distorta della matrice di covarianza per moltiplicare i dati censurati

Le analisi chimiche dei campioni ambientali sono spesso censurate di seguito ai limiti di segnalazione o ai vari limiti di rilevazione / quantificazione. Quest'ultimo può variare, generalmente in proporzione ai valori di altre variabili. Ad esempio, potrebbe essere necessario diluire un campione con un'alta concentrazione di un composto per l'analisi, …

22 correlation estimation censoring covariance-matrix unbiased-estimator

2

Il processo di Markov dipende solo dallo stato precedente

Vorrei solo che qualcuno confermasse la mia comprensione o se mi mancasse qualcosa. La definizione di un processo markov afferma che il passaggio successivo dipende solo dallo stato corrente e non da quelli passati. Quindi, supponiamo di avere uno spazio di stato di a, b, c, d e andiamo da …

22 markov-process

6

Teoria dei grafi - analisi e visualizzazione

Non sono sicuro che il soggetto entri nell'interesse di CrossValidated. Me lo dirai Devo studiare un grafico (dalla teoria dei grafi ) cioè. Ho un certo numero di punti collegati. Ho una tabella con tutti i punti e i punti da cui ognuno dipende. (Ho anche un altro tavolo con …

22 r data-visualization graph-theory

6

Differenze di gruppo su un oggetto Likert a cinque punti

In seguito a questa domanda : immagina di voler verificare le differenze nella tendenza centrale tra due gruppi (ad esempio, maschi e femmine) su un oggetto Likert a 5 punti (ad esempio, soddisfazione per la vita: da insoddisfatto a soddisfatto). Penso che un test t sarebbe sufficientemente accurato per la …

22 t-test ordinal-data likert scales

9

Come faccio a capire quale tipo di distribuzione rappresenta questi dati nei tempi di risposta del ping?

Ho provato un processo del mondo reale, i tempi di ping della rete. Il "round-trip-time" è misurato in millisecondi. I risultati sono riportati in un istogramma: I tempi di ping hanno un valore minimo, ma una lunga coda superiore. Voglio sapere che cos'è la distribuzione statistica e come stimarne i …

22 distributions sample-size sample normality-assumption distribution-identification

1

Test statistici comuni come modelli lineari

(AGGIORNAMENTO: mi sono approfondito e ho pubblicato i risultati qui ) L'elenco dei test statistici nominati è enorme. Molti dei test comuni si basano sull'inferenza da semplici modelli lineari, ad esempio un test t di un campione è solo y = β + ε che viene testato rispetto al modello …

22 regression correlation anova t-test linear-model

9

Come determinare la fiducia di una previsione della rete neurale?

Per illustrare la mia domanda, supponiamo che io abbia un set di addestramento in cui l'input ha un certo livello di rumore ma l'output no, per esempio; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, …

22 regression machine-learning neural-networks confidence-interval prediction-interval

3

In che modo il termine di errore di regressione può mai essere correlato con le variabili esplicative?

La prima frase di questa pagina wiki afferma che "In econometria, si verifica un problema di endogeneità quando una variabile esplicativa è correlata al termine di errore. 1 " La mia domanda è che come può mai accadere? La regressione beta non è scelta in modo tale che il termine …

22 regression

2

Qual è la proprietà oracolo di uno stimatore?

Qual è la proprietà oracolo di uno stimatore? A quali obiettivi di modellazione è rilevante la proprietà dell'oracolo (predittiva, esplicativa, ...)? Entrambe le spiegazioni teoricamente rigorose e (soprattutto) intuitive sono benvenute.

22 feature-selection model-selection estimators oracle

3

Metriche di classificazione / valutazione per dati altamente squilibrati

Mi occupo di un problema di rilevamento delle frodi (simile al credit scoring). Pertanto, esiste una relazione fortemente squilibrata tra osservazioni fraudolente e non fraudolente. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html offre un'ottima panoramica delle diverse metriche di classificazione. Precision and Recallo kappaentrambi sembrano essere una buona scelta: Un modo per giustificare i risultati di …

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation