Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Il problema: Ho letto in altri post che predictnon è disponibile per i lmermodelli di effetti misti {lme4} in [R]. Ho provato ad esplorare questo argomento con un set di dati giocattolo ... Sfondo: Il set di dati è adattato da questa fonte e disponibile come ... require(gsheet) data <- …
Qualcuno può dirmi la differenza tra i kernel in SVM: Lineare Polinomio Gaussiano (RBF) sigmoid Perché, come sappiamo, il kernel viene utilizzato per mappare il nostro spazio di input nello spazio di funzionalità ad alta dimensionalità. E in quello spazio delle caratteristiche, troviamo il confine linearmente separabile. Quando vengono utilizzati …
Se e sono due vettori di unità casuali indipendenti in (distribuiti uniformemente su una sfera unitaria), qual è la distribuzione del loro prodotto scalare (prodotto punto) ?xx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Immagino che quando aumenta rapidamente la distribuzione (?) Diventa normale con media zero e varianza decrescente in dimensioni superiori …
Vorrei studiare eventi rari in una popolazione finita. Dal momento che non sono sicuro di quale sia la strategia più adatta, apprezzerei i suggerimenti e i riferimenti relativi a questa questione, anche se sono ben consapevole che è stata ampiamente trattata. Non so davvero da dove cominciare. Il mio problema …
Seguendo la mia domanda qui , mi chiedo se ci sono punti di vista forti a favore o contro l'uso della deviazione standard per rilevare valori anomali (ad es. Qualsiasi punto dati che è più di 2 deviazione standard è un valore anomalo). So che questo dipende dal contesto dello …
Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue: Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1 Normalizza la matrice con il numero di alberi Lui …
Una fase di pre-elaborazione comune per gli algoritmi di apprendimento automatico è lo sbiancamento dei dati. Sembra che sia sempre bene fare lo sbiancamento poiché de-mette in correlazione i dati, rendendolo più semplice da modellare. Quando lo sbiancamento non è raccomandato? Nota: mi riferisco alla de-correlazione dei dati.
Sto eseguendo un GEE su dati sbilanciati a 3 livelli, usando un collegamento logit. In che modo differisce (in termini di conclusioni che posso trarre e significato dei coefficienti) da un GLM con effetti misti (GLMM) e collegamento logit? Più in dettaglio: le osservazioni sono prove a singolo bernoulli. Sono …
La convalida incrociata K-fold può essere utilizzata per stimare la capacità di generalizzazione di un determinato classificatore. Posso (o dovrei) anche calcolare una varianza aggregata da tutte le esecuzioni di validazione al fine di ottenere una stima migliore della sua varianza? Se no, perché? Ho trovato documenti che utilizzano la …
Mi chiedo se esiste un modo semplice per produrre un elenco di variabili usando un ciclo for e dare il suo valore. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } Nel codice sopra, provo a creare a1, a2, a3, quale assegnare i valori di 1, 2, 3. Tuttavia, R dà un messaggio …
Ho imparato che devo verificare la normalità non sui dati grezzi ma sui loro residui. Devo calcolare i residui e quindi eseguire il test W di Shapiro-Wilk? I residui sono calcolati come: ?Xio- mediaXi−meanX_i - \text{mean} Si prega di consultare questa domanda precedente per i miei dati e il design.
Ci sono 99 percentili o 100 percentili? E sono gruppi di numeri o linee di divisione o puntatori a singoli numeri? Suppongo che la stessa domanda si applicherebbe per i quartili o qualsiasi quantile. Ho letto che l'indice di un numero in un particolare percentile (p), dato n elementi, è …
Sono sorpreso che questo non sia stato chiesto prima, ma non riesco a trovare la domanda su stats.stackexchange. Questa è la formula per calcolare la varianza di un campione normalmente distribuito: ∑ ( X- X¯)2n - 1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Questa è la formula per calcolare l'errore quadratico medio delle …
Qualcuno può dirmi come giudicare se un modello di apprendimento automatico supervisionato è troppo adatto o no? Se non ho un set di dati di convalida esterno, voglio sapere se posso usare ROC di 10 volte la convalida incrociata per spiegare il sovradimensionamento. Se ho un set di dati di …
Sto cercando alcune informazioni sulla differenza tra la regressione binomiale, binomiale negativa e di Poisson e per quali situazioni si adattano meglio queste regressioni. Ci sono dei test che posso eseguire in SPSS che possono dirmi quale di queste regressioni è la migliore per la mia situazione? Inoltre, come posso …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.