Statistiche e Big Data

1

Funzione predict () per modelli di effetti misti lmer

Il problema: Ho letto in altri post che predictnon è disponibile per i lmermodelli di effetti misti {lme4} in [R]. Ho provato ad esplorare questo argomento con un set di dati giocattolo ... Sfondo: Il set di dati è adattato da questa fonte e disponibile come ... require(gsheet) data <- …

27 r mixed-model lme4-nlme

4

La differenza dei kernel in SVM?

Qualcuno può dirmi la differenza tra i kernel in SVM: Lineare Polinomio Gaussiano (RBF) sigmoid Perché, come sappiamo, il kernel viene utilizzato per mappare il nostro spazio di input nello spazio di funzionalità ad alta dimensionalità. E in quello spazio delle caratteristiche, troviamo il confine linearmente separabile. Quando vengono utilizzati …

27 machine-learning svm pattern-recognition kernel-trick

3

Distribuzione di prodotti scalari di due vettori di unità casuali in dimensioni

Se e sono due vettori di unità casuali indipendenti in (distribuiti uniformemente su una sfera unitaria), qual è la distribuzione del loro prodotto scalare (prodotto punto) ?xx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Immagino che quando aumenta rapidamente la distribuzione (?) Diventa normale con media zero e varianza decrescente in dimensioni superiori …

27 mathematical-statistics linear-algebra beta-distribution

5

Strategia per affrontare la regressione logistica di eventi rari

Vorrei studiare eventi rari in una popolazione finita. Dal momento che non sono sicuro di quale sia la strategia più adatta, apprezzerei i suggerimenti e i riferimenti relativi a questa questione, anche se sono ben consapevole che è stata ampiamente trattata. Non so davvero da dove cominciare. Il mio problema …

27 logistic rare-events

4

Rilevamento di valori anomali mediante deviazioni standard

Seguendo la mia domanda qui , mi chiedo se ci sono punti di vista forti a favore o contro l'uso della deviazione standard per rilevare valori anomali (ad es. Qualsiasi punto dati che è più di 2 deviazione standard è un valore anomalo). So che questo dipende dal contesto dello …

27 outliers

1

Conversione della matrice di somiglianza in matrice di distanza (euclidea)

Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue: Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1 Normalizza la matrice con il numero di alberi Lui …

27 random-forest distance similarities euclidean

3

Lo sbiancamento è sempre buono?

Una fase di pre-elaborazione comune per gli algoritmi di apprendimento automatico è lo sbiancamento dei dati. Sembra che sia sempre bene fare lo sbiancamento poiché de-mette in correlazione i dati, rendendolo più semplice da modellare. Quando lo sbiancamento non è raccomandato? Nota: mi riferisco alla de-correlazione dei dati.

27 data-transformation

1

Qual è la differenza tra equazioni di stima generalizzate e GLMM?

Sto eseguendo un GEE su dati sbilanciati a 3 livelli, usando un collegamento logit. In che modo differisce (in termini di conclusioni che posso trarre e significato dei coefficienti) da un GLM con effetti misti (GLMM) e collegamento logit? Più in dettaglio: le osservazioni sono prove a singolo bernoulli. Sono …

27 logistic mixed-model generalized-linear-model interpretation gee

2

Stime di varianza nella validazione incrociata di k-fold

La convalida incrociata K-fold può essere utilizzata per stimare la capacità di generalizzazione di un determinato classificatore. Posso (o dovrei) anche calcolare una varianza aggregata da tutte le esecuzioni di validazione al fine di ottenere una stima migliore della sua varianza? Se no, perché? Ho trovato documenti che utilizzano la …

27 machine-learning cross-validation

2

Produce un elenco di nomi di variabili in un ciclo for, quindi assegna loro dei valori

Mi chiedo se esiste un modo semplice per produrre un elenco di variabili usando un ciclo for e dare il suo valore. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } Nel codice sopra, provo a creare a1, a2, a3, quale assegnare i valori di 1, 2, 3. Tuttavia, R dà un messaggio …

27 r

3

Cosa devo verificare per la normalità: dati grezzi o residui?

Ho imparato che devo verificare la normalità non sui dati grezzi ma sui loro residui. Devo calcolare i residui e quindi eseguire il test W di Shapiro-Wilk? I residui sono calcolati come: ?Xio- mediaXi−meanX_i - \text{mean} Si prega di consultare questa domanda precedente per i miei dati e il design.

27 normality-assumption residuals assumptions

5

Ci sono 99 percentili o 100 percentili? E sono gruppi di numeri, o divisori o puntatori a singoli numeri?

Ci sono 99 percentili o 100 percentili? E sono gruppi di numeri o linee di divisione o puntatori a singoli numeri? Suppongo che la stessa domanda si applicherebbe per i quartili o qualsiasi quantile. Ho letto che l'indice di un numero in un particolare percentile (p), dato n elementi, è …

27 quantiles

2

Qual è la differenza tra la varianza e l'errore quadratico medio?

Sono sorpreso che questo non sia stato chiesto prima, ma non riesco a trovare la domanda su stats.stackexchange. Questa è la formula per calcolare la varianza di un campione normalmente distribuito: ∑ ( X- X¯)2n - 1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Questa è la formula per calcolare l'errore quadratico medio delle …

27 variance error

3

Come giudicare se un modello di apprendimento automatico supervisionato è troppo adatto o no?

Qualcuno può dirmi come giudicare se un modello di apprendimento automatico supervisionato è troppo adatto o no? Se non ho un set di dati di convalida esterno, voglio sapere se posso usare ROC di 10 volte la convalida incrociata per spiegare il sovradimensionamento. Se ho un set di dati di …

27 machine-learning

4

Differenza tra regressione binomiale, binomiale negativa e di Poisson

Sto cercando alcune informazioni sulla differenza tra la regressione binomiale, binomiale negativa e di Poisson e per quali situazioni si adattano meglio queste regressioni. Ci sono dei test che posso eseguire in SPSS che possono dirmi quale di queste regressioni è la migliore per la mia situazione? Inoltre, come posso …

27 spss references binomial poisson-distribution negative-binomial