Suggerimenti e trucchi per iniziare con la modellazione statistica?

10

Lavoro nel campo del data mining e ho avuto pochissima istruzione formale in statistica. Ultimamente ho letto molto lavoro incentrato sui paradigmi bayesiani per l'apprendimento e il mining, che trovo molto interessanti.

La mia domanda è (in più parti), dato un problema esiste un quadro generale in base al quale è possibile costruire un modello statistico? Quali sono le prime cose che fai quando ti viene dato un set di dati di cui desideri modellare il processo sottostante? Ci sono buoni libri / tutorial là fuori che spiegano questo processo o è una questione di esperienza? L'inferenza è in primo piano nella tua mente quando costruisci il tuo modello o miri prima a descrivere i dati prima di preoccuparti di come usarli per il calcolo?

Qualsiasi approfondimento sarebbe molto apprezzato! Grazie.

— Nick al 100%
fonte

4

Ciao Nick, benvenuto nel CV. La tua domanda è molto ampia; potresti avere più fortuna a ottenere buone risposte se lo spezzassi in domande più piccole (e una volta fatto, potresti scoprire che ad alcune di esse è già stata data risposta qui). Come minimo, però, dovresti contrassegnare la tua domanda come "wiki della comunità". Ciò significa sostanzialmente che al posto del solito formato di risposte in competizione qui, tutte le risposte nel loro insieme saranno considerate La Risposta.

— Matt Parker,

1

@Matt La casella di controllo CW non appare più per una domanda. Una mod dovrà contrassegnare una domanda come CW, se necessario.

@ Nick.. anche io sono nuovo. Penso che una cosa generale e la cosa più importante da tenere in considerazione sia come si desidera descrivere la variabile di output ... è continua, è binaria? Perché alla fine della giornata vuoi osservare / modellare una variabile di output. La prossima cosa che vorrei pensare è quali sono i modi possibili per modellare la variabile richiesta ... le cose che verrebbero allora è che se la variabile è dicotomica la procedura è un modello logit ... La prossima considerazione sarebbe quindi i dati, la sua nitidezza grintosa e il vari problemi che si incontrano ... spero che questo abbia senso.

— Ayush Biyani,

6

In Statistica, come in Data Mining, inizi con i dati e un obiettivo. Nelle statistiche c'è molta attenzione sull'inferenza, cioè rispondere alle domande a livello di popolazione usando un campione. Nel data mining il focus è di solito la previsione: si crea un modello dal proprio campione (dati di addestramento) per prevedere i dati del test.

Il processo in statistica è quindi:

Esplora i dati usando riassunti e grafici - a seconda di come lo statistico ha guidato i dati, alcuni saranno più aperti, guardando i dati da tutte le angolazioni, mentre altri (specialmente gli scienziati sociali) guarderanno i dati attraverso l'obiettivo del domanda di interesse (ad esempio, tracciare in particolare le variabili di interesse e non altre)
1. Scegliere una famiglia di modelli statistici appropriata (ad es. Regressione lineare per una Y continua, regressione logistica per una Y binaria o Poisson per i dati di conteggio) ed eseguire la selezione del modello
2. Stimare il modello finale
3. Testare i presupposti del modello per assicurarsi che siano ragionevolmente soddisfatti (diversi dai test per l'accuratezza predittiva nel data mining)
4. Usa il modello per deduzione: questo è il passaggio principale che differisce dal data mining. La parola "valore p" arriva qui ...

Dai un'occhiata a qualsiasi manuale di statistiche di base e troverai un capitolo sull'analisi dei dati esplorativi seguito da alcune distribuzioni (che aiuteranno a scegliere modelli approssimativi ragionevoli), quindi inferenza (intervalli di confidenza e test di ipotesi) e modelli di regressione.

Ti ho descritto il classico processo statistico. Tuttavia, ho molti problemi con esso. L'attenzione per l'inferenza ha dominato completamente i campi, mentre la previsione (che è estremamente importante e utile) è stata quasi trascurata. Inoltre, se osservi come gli scienziati sociali usano le statistiche per deduzione, scoprirai che le usano in modo molto diverso! Puoi saperne di più su questo qui

— Galit Shmueli
fonte

2

Per quanto riguarda i libri, "The Elements of Statistical Learning" di Hastie, Tibshirani e Friedman è molto buono.

Il libro completo è disponibile sul sito degli autori ; potresti voler dare un'occhiata per vedere se è adatto alle tue esigenze.

— NPE
fonte

2

Per quanto riguarda i riferimenti (online), consiglierei di guardare le diapositive tutorial di Andrew Moore su Statistical Data Mining .

Esistono molti libri di testo sul data mining e l'apprendimento automatico; forse un buon punto di partenza è Principles of Data Mining , di Hand et al., e Introduzione all'apprendimento automatico , di Alpaydin.

— CHL
fonte

1

Il miglior libro introduttivo bayesiano che ho trovato è Data Analysis - A Bayesian Tutorial . È abbastanza pratico.

— John Salvatier
fonte