Cosa sta esattamente costruendo un modello statistico?


15

Cosa sta esattamente costruendo un modello statistico?

In questi giorni, mentre faccio domanda per lavori di ricerca o di consulenza, spesso viene fuori il termine "costruzione di un modello" o "modellistica". Il termine suona bene, ma a cosa si riferiscono esattamente? Come si costruisce il vostro modello?

Ho cercato la modellazione predittiva , che include k-nn e regressione logistica.


1
È piuttosto ampio, potrebbe riferirsi a un'enorme varietà di modelli - vari tipi di regressione, modelli multilivello, alberi e loro varianti, raggruppamento .... ecc.
Peter Flom - Ripristina Monica

Un modello statistico è uguale a un modello matematico, tranne per il fatto che un modello statistico ha una variabile che tiene conto degli errori. Modello matematico: Peso = Altezza * 2.7. Modello statistico: Peso = Altezza * 2,7 + errore.
Neil McGuigan,

2
Vorrei citare questo articolo : Statistical Modeling: The two culture
user13985

Risposte:


12

Ci penserò anche se non sono uno statistico, ma finisco per fare un sacco di "modellistica" - statistica e non statistica.

Innanzitutto cominciamo con le basi:

Cos'è esattamente un modello?

Un modello è una rappresentazione della realtà seppur altamente semplificata. Pensa a un "modello" di cera / legno per una casa. Puoi toccarlo / sentirlo / annusarlo. Ora un modello matematico è una rappresentazione della realtà usando i numeri.

Cos'è questa "realtà" che ti sento chiedere? Va bene. Pensa quindi a questa semplice situazione: il governatore del tuo stato attua una politica secondo la quale il prezzo di un pacchetto di sigarette costerebbe ora $ 100 per il prossimo anno. L '"obiettivo" è dissuadere le persone dall'acquistare sigarette, riducendo così il fumo e rendendo i fumatori più sani (perché avevano smesso).

Dopo 1 anno il governatore ti chiede: è stato un successo? Come puoi dirlo? Bene, acquisisci dati come il numero di pacchetti venduti / giorno o all'anno, risposte al sondaggio, tutti i dati misurabili su cui puoi mettere le mani rilevanti per il problema. Hai appena iniziato a "modellare" il problema. Ora vuoi analizzare ciò che dice questo "modello" . È qui che la modellistica statistica è utile. È possibile eseguire un semplice diagramma di correlazione / dispersione per vedere l'aspetto del modello. Potresti avere la fantasia di determinare la causalità, ad esempio se l'aumento del prezzo ha portato a una diminuzione del fumo o ci sono stati altri fattori di confusione in gioco (cioè, forse è qualcos'altro del tutto e il tuo modello l'ha mancato forse?).

Ora, la costruzione di questo modello è fatta da un "insieme di regole" (più simili alle linee guida), cioè cosa è / non è legale o cosa ha / non ha senso. Dovresti sapere cosa stai facendo e come interpretare i risultati di questo modello. Costruire / eseguire / interpretare questo modello richiede una conoscenza di base delle statistiche. Nell'esempio sopra è necessario conoscere i grafici di correlazione / dispersione, la regressione (uni e multivariata) e altre cose. Suggerisco di leggere in modo intuitivo la lettura assolutamente divertente / informativa sulla comprensione delle statistiche: Che cos'è un valore p comunque È un'introduzione divertente alle statistiche e ti insegnerà 'modellando' lungo il percorso dal semplice all'avanzato (cioè la regressione lineare). Quindi puoi continuare e leggere altre cose.

Quindi, ricorda che un modello è una rappresentazione della realtà e che "Tutti i modelli sono sbagliati ma alcuni sono più utili di altri" . Un modello è una rappresentazione semplificata della realtà e non puoi assolutamente considerare tutto ma devi sapere cosa fare e cosa non considerare per avere un buon modello in grado di darti risultati significativi.

Non si ferma qui. Puoi creare modelli per simulare anche la realtà! Ecco come un mucchio di numeri cambierà nel tempo (diciamo). Questi numeri corrispondono a un'interpretazione significativa nel tuo dominio. Puoi anche creare questi modelli per estrarre i tuoi dati per vedere come le varie misure si relazionano tra loro (l'applicazione delle statistiche qui potrebbe essere discutibile, ma per ora non preoccuparti). Esempio: guardi le vendite di generi alimentari per un negozio al mese e ti rendi conto che ogni volta che la birra viene acquistata lo è anche un pacchetto di pannolini (costruisci un modello che attraversa il set di dati e ti mostra questa associazione). Può essere strano ma può implicare che per lo più i padri lo acquistano nel fine settimana quando fanno da baby-sitter ai loro figli? Metti i pannolini vicino alle birre e potresti aumentare le tue vendite! Aaah! Modellazione :)

Questi sono solo esempi e non sono affatto un riferimento per il lavoro professionale. Fondamentalmente costruisci modelli per capire / stimare come funzionerà / funzionerà la realtà e per prendere decisioni migliori in base ai risultati. Statistiche o no, probabilmente hai fatto il modello per tutta la vita senza rendertene conto. Buona fortuna :)


11

La costruzione di un modello statistico implica la costruzione di una descrizione matematica di alcuni fenomeni del mondo reale che spiegano l'incertezza e / o la casualità implicate in quel sistema. A seconda del campo di applicazione, questo potrebbe variare da qualcosa di semplice come la regressione lineare o il test di ipotesi di base, attraverso complicate analisi di fattori multivariati o data mining.


5
Ho valutato questo perché è uno sforzo coraggioso e conciso rispondere a una domanda estremamente ampia. Tuttavia, ho dei dubbi sul fatto che il "data mining" implichi qualsiasi modello statistico, e apprezzerei vedere un esempio o un chiarimento di cosa intendi con quella frase.
whuber

@whuber LASSO offre funzionalità di selezione, non è forse quello di costruire un modello di regressione in un certo senso?
user13985

In altre parole, è un po 'come costruire una casa usando solo mattoni e malta immaginari? Il mio commento esoterico è detto per scherzo. :)
Graeme Walsh,

1
Il data mining può essere utilizzato come parte del processo di costruzione o convalida di un determinato modello.
Dave,

5

La modellazione per me implica la specifica di un quadro probabilistico per i dati osservati con parametri stimabili che possono essere utilizzati per discernere differenze preziose nei dati osservabili quando esistono. Questo si chiama potere. I modelli probabilistici possono essere utilizzati sia per la previsione che per l'inferenza. Possono essere utilizzati per calibrare macchinari, dimostrare carenze nel ritorno dell'investimento, prevedere previsioni meteorologiche o scorte o semplificare il processo decisionale medico.

Non è necessario costruire un modello. In un esperimento isolato, si può usare un approccio di modellazione non parametrico, come il test t per determinare se esiste una differenza significativa nelle medie tra due gruppi. Tuttavia, per molti scopi di previsione, è possibile creare modelli in modo da rilevare i cambiamenti nel tempo. Ad esempio, i modelli Markov basati sulla transizione possono essere utilizzati per prevedere le oscillazioni del valore di mercato degli investimenti, ma in che misura un "calo" può essere considerato peggiore del previsto? Utilizzando prove storiche e predittori osservati, si può costruire un modello sofisticato per calibrare se i cali osservati sono significativamente diversi da quelli che sono stati storicamente sostenuti. Utilizzando strumenti come grafici di controllo, grafici di incidenza cumulativi, curve di sopravvivenza e altri grafici "basati sul tempo", esso "

In alternativa, alcuni modelli vengono "costruiti" avendo la flessibilità di adattarsi man mano che i dati crescono. Il rilevamento da parte di Twitter delle tendenze e il sistema di raccomandazioni di Netflix sono esempi primi di tali modelli. Hanno una specifica generale (Bayesian Model Averaging, per quest'ultimo) che consente a un modello flessibile di adattarsi a cambiamenti e tendenze storici e ricalibrare per mantenere la migliore previsione, come l'introduzione di film ad alto impatto, un'ampia diffusione di nuovi utenti o un drammatico cambiamento nelle preferenze del film a causa della stagionalità.

Alcuni degli approcci di data mining sono introdotti perché sono altamente abili nel raggiungere determinati tipi di approcci di previsione (di nuovo, il problema di ottenere tendenze o valori "attesi" nei dati). K-NN è un modo per incorporare dati ad alta dimensione e dedurre se i soggetti possono ricevere previsioni affidabili semplicemente a causa della vicinanza (sia per età, gusto musicale, storia sessuale o altri tratti misurabili). La regressione logistica, d'altra parte, può ottenere un classificatore binario, ma è molto più comunemente usata per inferire sull'associazione tra un risultato binario e una o più esposizioni e condizioni attraverso un parametro chiamato odds ratio. A causa dei teoremi limite e della sua relazione con i modelli lineari generalizzati, i rapporti di probabilità sono parametri altamente regolari che presentano un errore di tipo I "altamente conservato" (es.


Grazie per le vostre parole. Nel caso del rilevamento di Netflix da parte di Twitter, non è più o meno nel regno dell'apprendimento automatico? Spesso non riesco a tracciare il confine tra modellazione e apprendimento automatico.
user13985

1
L'apprendimento automatico è in genere una modellazione ad alta dimensione. Molti metodi sono casi speciali di metodi basati sulla probabilità esistenti con sanzioni o ponderazioni applicate.
AdamO,

Grazie per la convalida dei miei pensieri, fammi sapere se desideri qualcos'altro.
user13985

3

La modellazione è il processo di identificazione di un modello adatto.

Spesso un modellatore avrà una buona idea di variabili importanti e forse avrà anche una base teorica per un modello particolare. Conosceranno anche alcuni fatti sulla risposta e il tipo generale di relazioni con i predittori, ma potrebbero ancora non essere certi che la loro idea generale di un modello sia completamente adeguata - anche con un'ottima idea teorica di come dovrebbe funzionare la media, essi potrebbero, ad esempio, non essere sicuri che la varianza non sia correlata alla media, oppure potrebbero sospettare che una dipendenza seriale possa essere possibile.

Quindi potrebbe esserci un ciclo di più fasi di identificazione del modello che fa riferimento a (almeno alcuni dei) dati. L'alternativa è rischiare regolarmente di avere modelli abbastanza inadatti.

(Naturalmente, se sono responsabili, devono tenere conto di come l'utilizzo dei dati in questo modo influisce sulle loro inferenze.)

Il processo effettivo varia in qualche modo da un'area all'altra e da una persona all'altra, ma è possibile trovare alcune persone che elencano esplicitamente le fasi del loro processo (ad esempio Box e Jenkins delineano un tale approccio nel loro libro sulle serie temporali). Le idee su come eseguire l'identificazione del modello cambiano nel tempo.


0

Non penso che ci sia una definizione comune di ciò che costituisce un modello statistico. Dalla mia esperienza nel settore sembra essere sinonimo di ciò che in econometria è chiamato modello a forma ridotta . Spiegherò.

F=md2Xdt2

Questo modello avrà ciò che i fisici chiamano "costanti" o "coefficienti", ad esempio una densità dell'aria a una data temperatura ed elevazione. Dovrai scoprire quali sono questi coefficienti a livello sperimentale. Nel nostro caso avremo chiesto all'artiglieria di sparare i cannoni in molte condizioni diverse, strettamente controllate, come angoli, temperatura ecc.

Raccogliamo tutti i dati e adattiamo il modello usando tecniche statistiche. Potrebbe essere semplice come la regressione lineare o le medie. Una volta ottenuti tutti i coefficienti, ora eseguiamo il nostro modello matematico per produrre le tabelle di cottura. Questo è ben descritto nel documento non classificato qui , chiamato "LA PRODUZIONE DI TAVOLI DA FUOCO PER L'ARTIGLIERIA CANNON".

Quello che ho appena descritto non è un modello statistico. Sì, utilizza le statistiche, ma questo modello utilizza stabilisce le leggi della fisica, che sono l'essenza del modello. Qui, la statistica è un semplice strumento per determinare i valori di alcuni parametri importanti. Le dinamiche del sistema sono descritte e predeterminate dal campo.

Supponiamo che non sapessimo o non ci importassimo delle leggi della Fisica, e semplicemente provassimo a stabilire le relazioni tra distanza di volo del cannone e parametri come l'angolo di fuoco e la temperatura usando un "modello statistico". Creeremmo un grande set di dati con un gruppo di variabili candidate, o caratteristiche e trasformazioni di variabili, forse serie polinomiali di temperatura, ecc. Quindi eseguiremmo una sorta di regressione e identifichassimo i coefficienti. Questi coefficienti non avrebbero necessariamente stabilito interpretazioni sul campo. Le chiameremmo sensibilità al quadrato di temperatura ecc. Questo modello potrebbe effettivamente essere abbastanza efficace nel predire i punti finali delle palle di cannone, perché il processo sottostante è abbastanza stabile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.