Statistiche e Big Data

2

Sto leggendo l' entropia e sto facendo fatica a concettualizzare cosa significhi nel caso continuo. La pagina wiki afferma quanto segue: La distribuzione di probabilità degli eventi, unita alla quantità di informazioni di ogni evento, forma una variabile casuale il cui valore atteso è la quantità media di informazioni, o …

32 entropy

2

Le variabili altamente correlate nella foresta casuale distorcono la precisione e la selezione delle caratteristiche?

A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri? Ad esempio, ci sono due serie di informazioni …

32 random-forest multicollinearity ensemble

4

Perché usare la regolarizzazione nella regressione polinomiale invece di abbassare il grado?

Quando si esegue la regressione, ad esempio, due iper parametri da scegliere sono spesso la capacità della funzione (ad es. Il più grande esponente di un polinomio) e la quantità di regolarizzazione. Ciò di cui sono confuso, è perché non scegliere semplicemente una funzione a bassa capacità e quindi ignorare …

32 regression machine-learning optimization regularization polynomial

7

Perché una virgola è un separatore / delimitatore di record non valido nei file CSV?

Stavo leggendo questo articolo e sono curioso di trovare la risposta adeguata a questa domanda. L'unica cosa che mi viene in mente è forse che in alcuni paesi il separatore decimale è una virgola e potrebbe essere un problema quando si condividono dati in CSV , ma non sono davvero …

32 project-management

1

Collegamento di rilevamento anomalie nella rete temporale

Mi sono imbattuto in questo documento che utilizza il rilevamento delle anomalie dei collegamenti per prevedere argomenti di tendenza e l'ho trovato incredibilmente intrigante: il documento è "Scoprire gli argomenti emergenti nei flussi sociali tramite il rilevamento delle anomalie dei collegamenti" . Mi piacerebbe replicarlo su un set di dati …

32 time-series machine-learning outliers python change-point

2

Regressione logistica: variabili di risposta binomiale e di Bernoulli

Voglio eseguire la regressione logistica con la seguente risposta binomiale e con e come miei predittori. X1X1X_1X2X2X_2 Posso presentare gli stessi dati delle risposte di Bernoulli nel seguente formato. Gli output di regressione logistica per questi 2 set di dati sono sostanzialmente gli stessi. I residui di devianza e AIC …

32 logistic binomial aic bernoulli-distribution deviance

5

Linee guida AIC nella selezione del modello

Di solito uso il BIC perché intendo che apprezza la parsimonia più fortemente di quanto non faccia l'AIC. Tuttavia, ho deciso di utilizzare un approccio più completo ora e vorrei usare anche AIC. So che Raftery (1995) ha presentato buone linee guida per le differenze BIC: 0-2 è debole, 2-4 …

32 r model-selection references aic bic

1

Confronto tra due modelli usando la funzione anova () in R

Dalla documentazione per anova(): Quando viene data una sequenza di oggetti, 'anova' verifica i modelli l'uno contro l'altro nell'ordine specificato ... Cosa significa testare i modelli l'uno contro l'altro? E perché l'ordine conta? Ecco un esempio dal tutorial di GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > …

32 r anova

3

Perché l'inversione di una matrice di covarianza produce correlazioni parziali tra variabili casuali?

Ho sentito che correlazioni parziali tra variabili casuali possono essere trovate invertendo la matrice di covarianza e prendendo le cellule appropriate da tale matrice di precisione risultante (questo fatto è menzionato in http://en.wikipedia.org/wiki/Partial_correlation , ma senza una prova) . Perché è così?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

2

Esiste una versione di esempio della disuguaglianza di Chebyshev unilaterale?

Sono interessato alla seguente versione unilaterale di Cantelli della disuguaglianza di Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Fondamentalmente, se conosci la media e la varianza della popolazione, puoi calcolare il limite superiore sulla probabilità di osservare un certo valore. (Questa …

32 probability mathematical-statistics probability-inequalities mean

5

Perché i sondaggi politici hanno dimensioni del campione così grandi?

Quando guardo le notizie ho notato che i sondaggi di Gallup per cose come le elezioni presidenziali hanno [presumo casuali] dimensioni del campione di ben oltre 1.000. Da ciò che ricordo dalle statistiche del college era che una dimensione del campione di 30 era un campione "significativamente grande". È stato …

32 sampling sample-size power-analysis

3

Set di dati costruiti per uno scopo simile a quello del quartetto di Anscombe

Mi sono appena imbattuto nel quartetto di Anscombe (quattro set di dati che hanno statistiche descrittive quasi indistinguibili ma sembrano molto diversi quando vengono tracciati) e sono curioso di sapere se ci sono altri set di dati più o meno noti che sono stati creati per dimostrare l'importanza di alcuni …

32 regression data-visualization dataset

3

Come calcolare la varianza aggregata di due o più gruppi dati le varianze, le medie e le dimensioni del campione conosciute?

Supponiamo che ci siano elementi divisi in due gruppi ( e ). La varianza del primo gruppo è e la varianza del secondo gruppo è . Si presume che gli elementi stessi siano sconosciuti, ma conosco i mezzi e .m + nm+nm+nmmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n C'è un modo per calcolare la varianza combinata …

32 variance pooling

3

Regressione logistica del kernel vs SVM

Come è noto a tutti, SVM può usare il metodo kernel per proiettare punti dati in spazi più alti in modo che i punti possano essere separati da uno spazio lineare. Ma possiamo anche usare la regressione logistica per scegliere questo limite nello spazio del kernel, quindi quali sono i …

32 svm

1

Perché R restituirebbe NA come coefficiente lm ()?

Sto adattando un lm()modello a un set di dati che include indicatori per il trimestre finanziario (Q1, Q2, Q3, rendendo il Q4 predefinito). Usando lm(Y~., data = data) Ottengo a NAcome coefficiente per Q3 e un avvertimento che una variabile è stata esclusa a causa delle singolarità. Devo aggiungere una …

32 r regression