Statistiche e Big Data

2

Quando (e perché) dovresti prendere il registro di una distribuzione (di numeri)?

Supponiamo di avere alcuni dati storici, ad esempio i prezzi delle azioni precedenti, le fluttuazioni dei prezzi dei biglietti aerei, i dati finanziari passati dell'azienda ... Ora arriva qualcuno (o qualche formula) che dice "prendiamo / usiamo il registro della distribuzione" ed ecco dove vado PERCHÉ ? Domande: PERCHÉ si …

174 distributions data-transformation logarithm

4

Come interpretare un diagramma QQ

Sto lavorando con un piccolo set di dati (21 osservazioni) e ho il seguente diagramma QQ normale in R: Visto che la trama non supporta la normalità, cosa potrei dedurre sulla distribuzione sottostante? Mi sembra che una distribuzione più inclinata a destra sarebbe più adatta, giusto? Inoltre, quali altre conclusioni …

173 r data-visualization inference qq-plot

9

Perché l'improvviso fascino per i tensori?

Ho notato ultimamente che molte persone stanno sviluppando equivalenti tensoriali di molti metodi (fattorizzazione tensoriale, kernel tensoriale, tensori per la modellazione di argomenti, ecc.) Mi chiedo, perché il mondo è improvvisamente affascinato dai tensori? Ci sono documenti recenti / risultati standard che sono particolarmente sorprendenti, che hanno portato a questo? …

171 machine-learning references matrix linear-algebra tensor

3

Quando dovrei usare lasso vs ridge?

Supponiamo che io voglia stimare un gran numero di parametri e voglio penalizzarne alcuni perché credo che dovrebbero avere scarso effetto rispetto agli altri. Come faccio a decidere quale schema di penalizzazione utilizzare? Quando è più appropriata la regressione della cresta? Quando dovrei usare il lazo?

167 regression lasso ridge-regression

30

Scherzi statistici

Bene, abbiamo le citazioni statistiche preferite. Che dire delle barzellette statistiche?

166 references humor

8

Nella regressione lineare, quando è appropriato utilizzare il registro di una variabile indipendente anziché i valori effettivi?

Sto cercando una distribuzione meglio condotta per la variabile indipendente in questione, o per ridurre l'effetto di valori anomali o qualcos'altro?

164 regression distributions data-transformation logarithm regression-strategies

8

Come affrontare la perfetta separazione nella regressione logistica?

Se hai una variabile che separa perfettamente gli zero e quelli nella variabile target, R produrrà il seguente messaggio di avviso di "separazione perfetta o quasi perfetta": Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Otteniamo ancora il modello ma le stime dei coefficienti sono gonfiate. Come gestisci …

163 r regression logistic separation

21

Julia ha qualche speranza di restare nella comunità statistica?

Di recente ho letto un post di R-Blogger, collegato a questo post di John Myles White su una nuova lingua chiamata Julia . Julia si avvale di un compilatore just-in-time che gli fornisce tempi di esecuzione rapidi malvagi e lo pone sullo stesso ordine di grandezza della velocità di C …

161 r computational-statistics software computing julia

3

Cheat sheet di R's lmer

Ci sono molte discussioni in corso su questo forum sul modo corretto di specificare vari modelli gerarchici usando lmer. Ho pensato che sarebbe bello avere tutte le informazioni in un unico posto. Un paio di domande per iniziare: Come specificare più livelli, in cui un gruppo è nidificato nell'altro: è …

160 r mixed-model random-effects-model fixed-effects-model lme4-nlme

3

ROC vs curve di precisione e richiamo

Comprendo le differenze formali tra loro, quello che voglio sapere è quando è più pertinente usare l'uno contro l'altro. Forniscono sempre informazioni complementari sulle prestazioni di un determinato sistema di classificazione / rilevamento? Quando è ragionevole fornire entrambi, per esempio, in un documento? invece di uno solo? Esistono descrittori alternativi …

159 machine-learning roc precision-recall

2

Come posso ottenere il numero di righe di un data.frame in R? [chiuso]

Dopo aver letto un set di dati: dataset <- read.csv("forR.csv") Come posso ottenere R per darmi il numero di casi che contiene? Inoltre, il valore restituito includerà i casi di esclusione omessi na.omit(dataset)?

157 r

2

Generativo vs. discriminativo

So che generativo significa "basato su " e discriminante "basato su ", ma sono confuso su diversi punti:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Wikipedia (+ molti altri successi sul web) classificano come discriminatori SVM e alberi delle decisioni. Ma questi non hanno nemmeno interpretazioni probabilistiche. Cosa significa discriminante qui? La discriminazione è appena arrivata a …

154 machine-learning generative-models

7

PCA sulla correlazione o covarianza?

Quali sono le principali differenze tra l'esecuzione dell'analisi dei componenti principali (PCA) sulla matrice di correlazione e la matrice di covarianza? Danno gli stessi risultati?

153 correlation pca covariance factor-analysis

6

Un valore di distribuzione di probabilità superiore a 1 può essere OK?

Nella pagina Wikipedia sugli ingenui classificatori Bayes , c'è questa linea: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Una distribuzione di probabilità su 1 è OK. È l'area sotto la curva della campana che è uguale a 1.) Come può un valore essere OK? Pensavo che tutti i valori di probabilità fossero espressi nell'intervallo …

149 distributions probability normal-distribution pdf

6

Come scegliere un modello predittivo dopo la convalida incrociata di k-fold?

Mi chiedo come scegliere un modello predittivo dopo aver eseguito la convalida incrociata di K-fold. Questo può essere espresso in modo strano, quindi lasciatemi spiegare in modo più dettagliato: ogni volta che eseguo la convalida incrociata di K-fold, utilizzo K sottoinsiemi dei dati di allenamento e finisco con K diversi …

149 cross-validation model-selection