Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Questa è una domanda in generale, non specifica di alcun metodo o set di dati. Come affrontare un problema di squilibrio di classe nell'apprendimento automatico supervisionato in cui il numero di 0 è circa il 90% e il numero di 1 è circa il 10% nel set di dati. Come …
A pag. 34 del suo PRNN Brian Ripley commenta che "L'AIC è stato nominato da Akaike (1974) come" An Information Criterion "anche se sembra comunemente creduto che A sia l'acronimo di Akaike". Infatti, quando si introduce la statistica AIC, Akaike (1974, p. 719) lo spiega "IC stands for information criterion …
Ho letto abbastanza thread su QQplot qui per capire che un QQplot può essere più informativo rispetto ad altri test di normalità. Tuttavia, non ho esperienza con l'interpretazione di QQplot. Ho cercato su Google molto; Ho trovato molti grafici di QQ non normali, ma nessuna regola chiara su come interpretarli, …
A parte le considerazioni sulla potenza di calcolo, ci sono dei motivi per ritenere che aumentare il numero di pieghe nella convalida incrociata porta a una migliore selezione / convalida del modello (vale a dire che maggiore è il numero di pieghe meglio è)? Portando l'argomento all'estremo, la convalida incrociata …
L'ho tracciato dopo aver fatto un test di normalità Shapiro-Wilk. Il test ha dimostrato che è probabile che la popolazione sia normalmente distribuita. Tuttavia, come vedere questo "comportamento" su questa trama? AGGIORNARE Un semplice istogramma dei dati: AGGIORNARE Il test Shapiro-Wilk dice:
Il mio problema : di recente ho incontrato uno statistico che mi ha informato che le spline sono utili solo per esplorare i dati e sono soggette a un eccesso di adattamento, quindi non utile nella previsione. Preferiva esplorare con semplici polinomi ... Dato che sono un grande fan delle …
Oggi mi sono imbattuto in un nuovo argomento chiamato Aspettativa matematica. Il libro che sto seguendo dice che l'aspettativa è la media aritmetica della variabile casuale proveniente da qualsiasi distribuzione di probabilità. Ma definisce l'aspettativa come la somma del prodotto di alcuni dati e la probabilità di esso. Come possono …
Se ho un set di dati che produce un grafico come il seguente, come potrei determinare algoritmicamente i valori x dei picchi mostrati (in questo caso tre di essi):
Sto cercando di accelerare le statistiche bayesiane. Ho un po 'di background statistico (STAT 101) ma non troppo - penso di poter capire prima, posteriormente e probabilità: D. Non voglio ancora leggere un libro di testo bayesiano. Preferirei leggere da una fonte (sito Web preferito) che mi accelererà rapidamente. Qualcosa …
Sto adattando una gloria binomiale della famiglia in R, e ho un'intera troupe di variabili esplicative, e ho bisogno di trovare il migliore (R al quadrato come misura va bene). A corto di scrivere una sceneggiatura per scorrere in modo casuale diverse combinazioni delle variabili esplicative e quindi registrare quale …
Sto programmando di iniziare a scrivere pacchetti R. Ho pensato che sarebbe stato utile studiare il codice sorgente dei pacchetti esistenti per apprendere le convenzioni sulla costruzione dei pacchetti. I miei criteri per i buoni pacchetti da studiare: Semplici idee statistiche / tecniche : il punto è conoscere la meccanica …
Noi statistici usiamo molte parole in modi leggermente diversi da come le usano tutti gli altri. Ciò causa molti problemi quando insegniamo o spieghiamo cosa stiamo facendo. Inizierò un elenco (e ora aggiungerò alcune definizioni, per commenti): Il potere è la capacità di respingere correttamente una falsa ipotesi nulla. Di …
Ho dati di vendita per una serie di punti vendita e desidero categorizzarli in base alla forma delle loro curve nel tempo. I dati sono più o meno così (ma ovviamente non sono casuali e hanno alcuni dati mancanti): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for …
Sembra che, quando si assume l'omogeneità della varianza, i risultati di un test t aggiustato Welch e di un test t standard siano approssimativamente gli stessi. Perché non usare semplicemente la Welch regolata t?
La mia attuale comprensione della nozione "intervallo di confidenza con livello di confidenza " è che se provassimo a calcolare l'intervallo di confidenza più volte (ogni volta con un nuovo campione), conterrebbe il parametro corretto del tempo.1 - α1−α1 - \alpha1 - α1−α1 - \alpha Sebbene mi renda conto che …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.