Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati

2
Cosa ci dice l'entropia?
Sto leggendo l' entropia e sto facendo fatica a concettualizzare cosa significhi nel caso continuo. La pagina wiki afferma quanto segue: La distribuzione di probabilità degli eventi, unita alla quantità di informazioni di ogni evento, forma una variabile casuale il cui valore atteso è la quantità media di informazioni, o …
32 entropy 

2
Le variabili altamente correlate nella foresta casuale distorcono la precisione e la selezione delle caratteristiche?
A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri? Ad esempio, ci sono due serie di informazioni …





5
Linee guida AIC nella selezione del modello
Di solito uso il BIC perché intendo che apprezza la parsimonia più fortemente di quanto non faccia l'AIC. Tuttavia, ho deciso di utilizzare un approccio più completo ora e vorrei usare anche AIC. So che Raftery (1995) ha presentato buone linee guida per le differenze BIC: 0-2 è debole, 2-4 …

1
Confronto tra due modelli usando la funzione anova () in R
Dalla documentazione per anova(): Quando viene data una sequenza di oggetti, 'anova' verifica i modelli l'uno contro l'altro nell'ordine specificato ... Cosa significa testare i modelli l'uno contro l'altro? E perché l'ordine conta? Ecco un esempio dal tutorial di GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > …
32 r  anova 

3
Perché l'inversione di una matrice di covarianza produce correlazioni parziali tra variabili casuali?
Ho sentito che correlazioni parziali tra variabili casuali possono essere trovate invertendo la matrice di covarianza e prendendo le cellule appropriate da tale matrice di precisione risultante (questo fatto è menzionato in http://en.wikipedia.org/wiki/Partial_correlation , ma senza una prova) . Perché è così?

2
Esiste una versione di esempio della disuguaglianza di Chebyshev unilaterale?
Sono interessato alla seguente versione unilaterale di Cantelli della disuguaglianza di Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Fondamentalmente, se conosci la media e la varianza della popolazione, puoi calcolare il limite superiore sulla probabilità di osservare un certo valore. (Questa …




3
Regressione logistica del kernel vs SVM
Come è noto a tutti, SVM può usare il metodo kernel per proiettare punti dati in spazi più alti in modo che i punti possano essere separati da uno spazio lineare. Ma possiamo anche usare la regressione logistica per scegliere questo limite nello spazio del kernel, quindi quali sono i …
32 svm 

1
Perché R restituirebbe NA come coefficiente lm ()?
Sto adattando un lm()modello a un set di dati che include indicatori per il trimestre finanziario (Q1, Q2, Q3, rendendo il Q4 predefinito). Usando lm(Y~., data = data) Ottengo a NAcome coefficiente per Q3 e un avvertimento che una variabile è stata esclusa a causa delle singolarità. Devo aggiungere una …
32 r  regression 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.