Statistiche e Big Data

4

Fisher's Exact Test in tabelle di contingenza maggiori di 2x2

Mi è stato insegnato ad applicare il test esatto di Fisher solo in tabelle di contingenza 2x2. Domande: Fisher stesso ha mai immaginato che questo test potesse essere utilizzato in tabelle più grandi di 2x2 (sono consapevole della storia di lui che ha ideato il test mentre provavo a indovinare …

29 spss stata contingency-tables fishers-exact

3

Il test di Kolmogorov-Smirnov è valido con distribuzioni discrete?

Sto confrontando un campione e sto verificando se distribuisce come una distribuzione discreta. Tuttavia, non sono pienamente sicuro che si applichi Kolmogorov-Smirnov. Wikipedia sembra implicare che non lo sia. In caso contrario, come posso testare la distribuzione del campione?

29 hypothesis-testing discrete-data kolmogorov-smirnov

11

Podcast statistici

Quali sono alcuni podcast relativi all'analisi statistica? Ho trovato alcune registrazioni audio delle lezioni del college su ITunes U, ma non sono a conoscenza di alcun podcast statistico. La cosa più vicina di cui sono a conoscenza è un podcast di ricerca operativa The Science of Better . Tocca questioni …

29 references

5

Come posso calcolare una deviazione standard ponderata? In Excel?

Quindi, ho un set di dati di percentuali come questo: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Voglio trovare la deviazione standard delle percentuali, ma ponderata per il loro volume di dati. cioè, …

29 standard-deviation excel weighted-mean

6

Procedura di selezione variabile per la classificazione binaria

Quali sono le selezioni variabili / caratteristiche che preferisci per la classificazione binaria quando ci sono molte più variabili / caratteristiche rispetto alle osservazioni nel set di apprendimento? Lo scopo qui è discutere qual è la procedura di selezione delle caratteristiche che riduce al meglio l'errore di classificazione. Possiamo correggere …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

6

Come posso testare l'equità di una d20?

Come posso verificare l'equità di un dado a venti facce (d20)? Ovviamente confronterei la distribuzione dei valori con una distribuzione uniforme. Ricordo vagamente di aver usato un test Chi-square al college. Come posso applicare questo per vedere se un dado è giusto?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

6

Test per varianza finita?

È possibile verificare la finezza (o l'esistenza) della varianza di una variabile casuale dato un campione? Come null, {la varianza esiste ed è finita} o {la varianza non esiste / è infinita} sarebbe accettabile. Filosoficamente (e computazionalmente), questo sembra molto strano perché non ci dovrebbero essere differenze tra una popolazione …

29 hypothesis-testing variance central-limit-theorem

3

Che cos'è una varietà?

Nella tecnica di riduzione della dimensionalità come Analisi dei componenti principali, LDA ecc. Viene spesso utilizzato il termine collettore. Che cos'è una varietà in termini non tecnici? Se un punto appartiene ad una sfera il cui voglio ridurre, e se v'è un rumore dimensione ed ed sono incorrelati, allora i …

29 terminology manifold-learning

1

Quali sono le carenze dell'errore di percentuale assoluta media (MAPE)?

L' errore percentuale assoluta media ( mape ) è una misura di precisione o di errore comune per serie temporali o altre previsioni, MAPE = 100nΣt = 1n| UNt- Ft|UNt% ,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, dove sono effettivi e previsioni o previsioni corrispondenti.F tUNtAtA_tFtFtF_t Il MAPE è una percentuale, quindi possiamo …

29 accuracy mape

1

Intervallo di previsione Bootstrap

È disponibile una tecnica bootstrap per calcolare gli intervalli di previsione per le previsioni dei punti ottenute ad esempio dalla regressione lineare o altro metodo di regressione (k-vicino più vicino, alberi di regressione ecc.)? In qualche modo ritengo che il modo a volte proposto di avviare semplicemente la previsione del …

29 bootstrap prediction-interval

2

Perché usare la validazione incrociata stratificata? Perché questo non danneggia i benefici correlati alla varianza?

Mi è stato detto che è utile utilizzare la validazione incrociata stratificata, specialmente quando le classi di risposta sono sbilanciate. Se uno scopo della convalida incrociata è quello di aiutare a spiegare la casualità del nostro campione di dati di allenamento originale, fare sicuramente ogni piega con la stessa distribuzione …

29 cross-validation resampling stratification

4

Interpretazione pseudo-R2 di McFadden

Ho un modello di regressione logistica binaria con uno pseudo R-quadrato di McFadden di 0,192 con una variabile dipendente chiamata payment (1 = pagamento e 0 = nessun pagamento). Qual è l'interpretazione di questo pseudo R-quadrato? È un confronto relativo per i modelli nidificati (ad esempio un modello a 6 …

29 regression self-study logistic

1

Metriche di errore per modelli Poisson con convalida incrociata

Sto convalidando in modo incrociato un modello che sta cercando di prevedere un conteggio. Se questo fosse un problema di classificazione binaria, calcolerei l'AUC out-fold e se questo fosse un problema di regressione calcolerei RMSE o MAE out-of-fold. Per un modello di Poisson, quali parametri di errore posso usare per …

29 cross-validation poisson-distribution count-data deviance scoring-rules

4

Come si interpreta RMSLE (errore logaritmico al quadrato della radice)?

Ho partecipato a una competizione di machine learning in cui usano RMSLE (Root Mean Squared Logarithmic Error) per valutare le prestazioni prevedendo il prezzo di vendita di una categoria di apparecchiature. Il problema è che non sono sicuro di come interpretare il successo del mio risultato finale. Ad esempio, se …

29 regression machine-learning interpretation measurement-error theory

4

Come tradurre i risultati da lm () a un'equazione?

Possiamo usare lm()per prevedere un valore, ma in alcuni casi abbiamo ancora bisogno dell'equazione della formula del risultato. Ad esempio, aggiungere l'equazione ai grafici.

29 r regression lm