Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Molto tempo fa ho appreso che era necessaria una distribuzione normale per utilizzare un T-test a due campioni. Oggi una collega mi ha detto di aver appreso che per N> 50 la distribuzione normale non era necessaria. È vero? Se è vero a causa del teorema del limite centrale?
La matematica ha i suoi famosi problemi del millennio (e, storicamente, il 23 di Hilbert ), domande che hanno contribuito a modellare la direzione del campo. Ho poca idea, tuttavia, quali sarebbero le ipotesi di Riemann e le statistiche P vs. NP. Quindi, quali sono le domande aperte generali nelle …
So che la gente ama di chiudere i duplicati in modo da sto non per chiedere un riferimento per iniziare le statistiche di apprendimento (come qui ). Ho un dottorato in matematica ma non ho mai imparato le statistiche. Qual è la strada più breve per la conoscenza equivalente a …
"In sostanza, tutti i modelli sono sbagliati, ma alcuni sono utili." --- Box, George EP; Norman R. Draper (1987). Empirical Model-Building and Response Surfaceaces, p. 424, Wiley. ISBN 0471810339. Qual è esattamente il significato della frase sopra?
Ho un set di dati con circa 30 variabili indipendenti e vorrei costruire un modello lineare generalizzato (GLM) per esplorare la relazione tra loro e la variabile dipendente. Sono consapevole che il metodo che mi è stato insegnato per questa situazione, la regressione graduale, è ora considerato un peccato statistico …
Recentemente ho letto molto su questo sito (@Aniko, @Dikran Marsupial, @Erik) e altrove sul problema del sovradimensionamento che si verifica con convalida incrociata - (Smialowski et al 2010 Bioinformatica, Hastie, Elementi di apprendimento statistico). Il suggerimento è che qualsiasi selezione di funzionalità supervisionata (utilizzando la correlazione con le etichette di …
Comprendo le basi di quale sia l'obiettivo di Support Vector Machines in termini di classificazione di un set di input in diverse classi, ma ciò che non capisco sono alcuni dettagli chiacchieroni. Per cominciare, sono un po 'confuso dall'uso di Slack Variables. Qual è il loro scopo? Sto riscontrando un …
Mi sto confondendo un po 'sulla selezione delle funzionalità e sull'apprendimento automatico e mi chiedevo se potevi aiutarmi. Ho un set di dati di microarray che è classificato in due gruppi e ha migliaia di funzionalità. Il mio obiettivo è quello di ottenere un piccolo numero di geni (le mie …
Ho letto Elements of Statistical Learning e vorrei sapere perché il Lazo fornisce una selezione variabile e la regressione della cresta no. Entrambi i metodi riducono al minimo la somma residua di quadrati e hanno un vincolo sui possibili valori dei parametri ββ\beta . Per il Lazo, il vincolo è …
Poiché la regressione logistica è un modello di classificazione statistica che si occupa di variabili categoriche dipendenti, perché non si chiama classificazione logistica ? Il nome "Regressione" non dovrebbe essere riservato ai modelli che si occupano di variabili dipendenti continue?
Alcuni anni fa ho progettato un rilevatore di radiazioni che funziona misurando l'intervallo tra gli eventi anziché contarli. La mia ipotesi era che, quando si misuravano campioni non contigui, in media avrei misurato metà dell'intervallo effettivo. Tuttavia, quando ho testato il circuito con una sorgente calibrata, la lettura era un …
Sto usando l'algoritmo di foresta casuale come un robusto classificatore di due gruppi in uno studio di microarray con migliaia di funzionalità. Qual è il modo migliore per presentare la foresta casuale in modo che ci siano abbastanza informazioni per renderla riproducibile in un documento? Esiste un metodo di trama …
Sto cercando di comprendere la differenza tra i diversi metodi di ricampionamento (simulazione Monte Carlo, bootstrap parametrico, bootstrap non parametrico, jackknifing, cross-validation, test di randomizzazione e test di permutazione) e la loro implementazione nel mio contesto usando R. Supponiamo che io abbia la seguente situazione: voglio eseguire ANOVA con una …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.