Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Una buona pratica comune in Machine Learning è quella di caratterizzare la normalizzazione o la standardizzazione dei dati delle variabili del predittore, tutto qui, centrare i dati sottraendo la media e normalizzarli dividendoli per la varianza (o anche la deviazione standard). Per l'autocontenimento e per la mia comprensione facciamo questo …
Suppongo di sentirmi frustrato ogni volta che sento qualcuno dire che la non normalità dei residui e / o l'eteroschedasticità violano le ipotesi OLS. Per stimare i parametri in un modello OLS nessuna di queste assunzioni è necessaria dal teorema di Gauss-Markov. Vedo come questo conta nei test di ipotesi …
Ho letto la replica dipppppp p p Geoff Cumming del 2008 e Intervalli di : i valori di predicono solo vagamente il futuro, ma gli intervalli di confidenza fanno molto meglio [~ 200 citazioni in Google Scholar] - e sono confuso da una delle sue affermazioni centrali. Questo è uno …
Ho letto il libro di Tukey "Exploratory Data Analysis". Scritto nel 1977, il libro sottolinea i metodi di carta / matita. Esiste un successore più "moderno" che tenga conto del fatto che ora possiamo tracciare istantaneamente grandi insiemi di dati?
Molti autori di articoli che leggo affermano che le SVM sono tecniche superiori per affrontare il loro problema di regressione / classificazione, consapevoli di non poter ottenere risultati simili attraverso le NN. Spesso il confronto afferma che SVM, anziché NN, Avere una forte teoria fondante Raggiungi l'ottimale globale grazie alla …
Per il problema lazo tale che \ | \ beta \ | _1 \ leq t . Vedo spesso il risultato di soglia minima \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | …
Se eseguo un randomForestmodello, posso quindi fare previsioni basate sul modello. C'è un modo per ottenere un intervallo di previsione di ciascuna delle previsioni in modo tale che io sappia quanto "sicuro" sia il modello della sua risposta. Se ciò è possibile, è semplicemente basato sulla variabilità della variabile dipendente …
La pagina Wikipedia su ANOVA elenca tre ipotesi , vale a dire: Indipendenza dei casi - questa è un'ipotesi del modello che semplifica l'analisi statistica. Normalità: le distribuzioni dei residui sono normali. Uguaglianza (o "omogeneità") delle varianze, chiamata omoscedasticità ... Il punto di interesse qui è il secondo presupposto. Diverse …
Supponiamo che io abbia tre popolazioni con quattro caratteristiche reciprocamente esclusive. Prendo campioni casuali da ogni popolazione e costruisco una tabella a campi incrociati o di frequenza per le caratteristiche che sto misurando. Ho ragione nel dire che: Se volessi verificare se esiste una relazione tra le popolazioni e le …
Sembra che a molte persone (incluso me) piaccia fare analisi esplorative dei dati in Excel. Alcune limitazioni, come il numero di righe consentite in un foglio di calcolo, sono un problema, ma nella maggior parte dei casi non è impossibile utilizzare Excel per giocare con i dati. Un articolo di …
Una distribuzione gaussiana standardizzata su RR\mathbb{R} può essere definita dando esplicitamente la sua densità: 12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} o la sua funzione caratteristica. Come ricordato in questa domanda, è anche l'unica distribuzione per cui la media del campione e la varianza sono indipendenti. Quali altre sorprendenti caratterizzazioni alternative delle misure gaussiane che …
Ho un set di dati sotto forma di (funzionalità, output binario 0 o 1), ma 1 si verifica abbastanza raramente, quindi solo prevedendo sempre 0, ottengo una precisione tra il 70% e il 90% (a seconda dei dati particolari che guardo ). I metodi ML mi danno la stessa accuratezza, …
Sto costruendo modelli di regressione. Come fase di preelaborazione, ridimensiono i valori della mia funzione in modo che abbiano media 0 e deviazione standard 1. È necessario normalizzare anche i valori target?
Molti studi nelle scienze sociali usano le scale di Likert. Quando è appropriato usare i dati di Likert come ordinali e quando è appropriato usarli come dati di intervallo?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.