In parole povere qual è la differenza tra un modello e una distribuzione?


28

Le risposte (definizioni) definite su Wikipedia sono probabilmente un po 'criptiche per coloro che non hanno familiarità con matematica / statistiche superiori.

In termini matematici, un modello statistico viene generalmente considerato come una coppia ( ), dove è l'insieme di possibili osservazioni, ovvero lo spazio campione, e è un insieme di distribuzioni di probabilità su . S P SS,PSPS

In probabilità e statistica, una distribuzione di probabilità assegna una probabilità a ciascun sottoinsieme misurabile dei possibili risultati di un esperimento, un rilevamento o una procedura casuali di inferenza statistica. Si trovano esempi il cui spazio di campionamento non è numerico, in cui la distribuzione sarebbe una distribuzione categoriale.

Sono uno studente delle scuole superiori molto interessato a questo campo come hobby e attualmente sto lottando con le differenze tra ciò che è un statistical modele unprobability distribution

La mia comprensione attuale e molto rudimentale è questa:

  • i modelli statistici sono tentativi matematici per approssimare le distribuzioni misurate

  • le distribuzioni di probabilità sono descrizioni misurate da esperimenti che assegnano probabilità a ogni possibile risultato di un evento casuale

la confusione è ulteriormente aggravata dalla tendenza in letteratura a vedere le parole "distribuzione" e "modello" usate in modo intercambiabile - o almeno in situazioni molto simili (ad esempio distribuzione binomiale vs modello binomiale)

Qualcuno può verificare / correggere le mie definizioni e forse offrire un approccio più formalizzato (anche se ancora in termini di inglese semplice) a questi concetti?


1
In conclusione: non c'è assolutamente alcuna differenza tra un modello statistico e una distribuzione di probabilità. Ogni modello statistico descrive una distribuzione di probabilità e viceversa. Non lasciarti confondere con lunghi testi.
Cagdas Ozgenc,

3
@Cagdas Secondo la definizione citato nella domanda, non v'è una differenza: un modello statistico è una particolare raccolta organizzata di distribuzioni di probabilità. Quando è in evidenza solo una distribuzione di probabilità, allora non stiamo più facendo statistiche, perché l'obiettivo dell'analisi statistica è stato raggiunto: conosciamo la distribuzione!
whuber

2
@cagdas Wikipedia tiene compagnia con i migliori testi. Sono pienamente d'accordo.
whuber

4
@CagdasOzgenc, perché non presentare alcune prove a sostegno delle tue affermazioni chiare e precise. La prova da parte dell'autorità è raramente (se mai) accettabile. Senza eivdence è difficile (se non impossibile) avere una discussione produttiva; affermazioni non comprovate raramente sono molto più che rumore.
Richard Hardy,

2
@RichardHardy La domanda ha posto "termini laici", e guarda le risposte che ha ottenuto. Mi scusi ma odio vedere gli studenti soffrire solo perché qualcuno decide di mettersi in mostra. La risposta è semplice come 2 + 2 = 4 e non credo davvero che richieda un riferimento autorevole di 20 pagine.
Cagdas Ozgenc,

Risposte:


25

La distribuzione di probabilità è una funzione matematica che descrive una variabile casuale. Un po 'più precisamente, è una funzione che assegna le probabilità ai numeri e il suo output deve concordare con gli assiomi della probabilità .

Il modello statistico è una descrizione astratta e idealizzata di alcuni fenomeni in termini matematici usando le distribuzioni di probabilità. Citando Wasserman (2013):

Un modello statistico è un insieme di distribuzioni (o densità o funzioni di regressione). Un modello parametrico è un set F che può essere parametrizzato da un numero finito di parametri. [...] FF

In generale, un modello parametrico prende la forma

F={f(X;θ):θΘ}

dove è un parametro sconosciuto (o vettore di parametri) che può assumere valori nello spazio parametri Θ . Se θ è un vettore ma siamo interessati solo a un componente di θ , chiamiamo i parametri rimanenti parametri di disturbo . Un modello non parametrico è un set F che non può essere parametrizzato da un numero finito di parametri.θ ΘθθF

In molti casi utilizziamo le distribuzioni come modelli (puoi vedere questo esempio ). È possibile utilizzare la distribuzione binomiale come modello di conteggi di teste in serie di lanci di monete. In tal caso ipotizziamo che questa distribuzione descriva, in modo semplificato, i risultati effettivi. Ciò non significa che questo sia l'unico modo per descrivere tale fenomeno, né che la distribuzione binomiale sia qualcosa che può essere utilizzato solo per questo scopo. Il modello può utilizzare una o più distribuzioni, mentre i modelli bayesiani specificano anche le distribuzioni precedenti.

Più formalmente questo è discusso da McCullaugh (2002):

Secondo le teorie attualmente accettate [Cox and Hinkley (1974), Capitolo 1; Lehmann (1983), capitolo 1; Barndorff-Nielsen e Cox (1994), Sezione 1.1; Bernardo e Smith (1994), capitolo 4] un modello statistico è un insieme di distribuzioni di probabilità sullo spazio campione S . Un parametrizzato modello statistico è un parametro impostati insieme con una funzione P : Θ P ( S ) , che assegna a ciascun punto parametro θ Θ una distribuzione di probabilità P θ su S . Qui P ( S ) è l'insieme di tuttiΘP:ΘP(S)θΘPθSP(S) distribuzioni di probabilità su . In gran parte di quanto segue, è importante distinguere tra il modello come funzione P : Θ P ( S ) e l'insieme associato di distribuzioni P Θ P ( S ) .SP:ΘP(S)PΘP(S)

Quindi i modelli statistici usano le distribuzioni di probabilità per descrivere i dati nei loro termini. I modelli parametrici sono anche descritti in termini di set finito di parametri.

Ciò non significa che tutti i metodi statistici necessitino di distribuzioni di probabilità. Ad esempio, la regressione lineare è spesso descritta in termini di ipotesi di normalità , ma in realtà è abbastanza robusta per discostarsi dalla normalità e abbiamo bisogno di ipotesi sulla normalità degli errori per intervalli di confidenza e test di ipotesi. Quindi per far funzionare la regressione non abbiamo bisogno di tale presupposto, ma per avere un modello statistico completamente specificato dobbiamo descriverlo in termini di variabili casuali, quindi abbiamo bisogno di distribuzioni di probabilità. Scrivo di questo perché spesso puoi sentire le persone dire che hanno usato il modello di regressione per i loro dati - nella maggior parte di questi casi, piuttosto significano che descrivono i dati in termini di relazione lineare tra valori target e predittori usando alcuni parametri, piuttosto che insistere sul condizionale normalità.


McCullagh, P. (2002). Cos'è un modello statistico? Annali delle statistiche, 1225-1267.

Wasserman, L. (2013). Tutte le statistiche: un corso conciso di inferenza statistica. Springer.


4
@ JCLeitão è per questo che ho aggiunto l'avviso;) L'OLS classico riguarda solo l'adattamento della linea. I presupposti della normalità riguardano solo il rumore, mentre l'idea di base è che stiamo modellando E (y) come una funzione lineare di X. La normalità è necessaria per intervalli di confidenza e test, ma la regressione riguarda l'adattamento della linea e gli errori sono di minore importanza. (Parlando liberamente).
Tim

La ringrazio per la risposta. Potresti fornire 2 definizioni sintetiche da riassumere? (anche io non capisco l'ultima riga In much of the following, it is important to distinguish between the model as a function and the associated set of distributions) Stai solo facendo un commento sull'ambiguità intrinseca tra i due significati che condividono lo stesso termine modelo mi sto perdendo qualcosa?
AlanSTACK,

@Alan due definizioni concise sono fornite nei primi due paragrafi, mentre una più rigorosa nella citazione e nei riferimenti - potresti chiarire cosa non è chiaro? Per quanto riguarda l'ultima riga di citazione: in pratica dice che il modello è definito in termini di distribuzioni e parametri di probabilità ed è bene ricordare che ha questi due aspetti, a volte è bene distinguerli. Raccomando l'articolo citato per una discussione rigorosa (è disponibile gratuitamente sotto il link).
Tim

8

Pensa a come a una serie di biglietti . Puoi scrivere cose su un biglietto. Di solito un biglietto inizia con il nome di una persona o un oggetto del mondo reale che "rappresenta" o "modelli". C'è un sacco di spazio vuoto su ogni biglietto per scrivere altre cose.S

Puoi fare tutte le copie di ogni biglietto che desideri. Un modello di probabilità per questa popolazione o processo del mondo reale consiste nel fare una o più copie di ogni biglietto, mescolarle e metterle in una scatola. Se tu, l'analista, puoi stabilire che il processo di estrazione casuale di un biglietto da questa scatola emula tutto il comportamento importante di ciò che stai studiando, allora puoi imparare molto sul mondo pensando a questa scatola. Poiché alcuni biglietti possono essere più numerosi nella confezione di altri, possono avere diverse possibilità di essere estratti. La teoria della probabilità studia queste possibilità.P

Quando i numeri sono scritti sui biglietti (in modo coerente), danno origine a (probabilità) distribuzioni. Una distribuzione di probabilità descrive semplicemente la percentuale di ticket in una casella i cui numeri si trovano all'interno di un dato intervallo.

Poiché di solito non sappiamo esattamente come si comporta il mondo, dobbiamo immaginare scatole diverse in cui i biglietti compaiono con frequenze relative diverse. L'insieme di queste scatole è . Vediamo il mondo come essere adeguatamente descritto dal comportamento di una delle caselle in P . Il tuo obiettivo è fare ipotesi ragionevoli su quale scatola sia, in base a ciò che vedi sui biglietti che hai estratto da esso.PP


Ad esempio (che è pratico e realistico, non un giocattolo da manuale), supponiamo che tu stia studiando la velocità di una reazione chimica in quanto varia con la temperatura. Supponiamo che la teoria della chimica preveda che entro l'intervallo di temperature tra 0 e 100 gradi, il tasso è proporzionale alla temperatura.y0100

Hai intenzione di studiare questa reazione a e 100 gradi, facendo diverse osservazioni ad ogni temperatura. Componi quindi un numero molto, molto grande di scatole. Stai per riempire ogni casella con i biglietti. C'è una costante di frequenza scritta su ognuna. Tutti i biglietti in una determinata casella hanno la stessa costante di tariffa scritta su di essi. Caselle diverse utilizzano costanti di velocità diverse. 0100

Usando la costante di tariffa scritta su qualsiasi biglietto, scrivi anche la tariffa a e la tariffa a 100 gradi: chiama questi y 0 e y 1000100y0y100 . Ma questo non è ancora abbastanza per un buon modello. I chimici sanno anche che nessuna sostanza è pura, nessuna quantità viene misurata esattamente e si verificano altre forme di variabilità osservativa. Per modellare questi "errori", fai moltissime copie dei tuoi biglietti. Su ogni copia si modificano i valori di e y 100 . Sulla maggior parte di loro li cambi solo un po '. In pochissimi, potresti cambiarli molto. Annoti tutti i valori modificati che prevedi di osservare ad ogni temperatura. Questiy0y100le osservazioni rappresentano possibili risultati osservabili del tuo esperimento. Nella casella inserisci ciascuno di questi set di questi ticket: è un modello di probabilità per ciò che potresti osservare per una determinata costante di tariffa.

Quello che si fa osservare è modellato disegnando un biglietto da quella scatola e leggere solo le osservazioni scritte lì. Non puoi vedere i valori sottostanti (veri) di o y 100 . Non riesci a leggere la costante di velocità (vera). Quelli non sono permessi dal tuo esperimento.y0y100

Ogni modello statistico deve fare alcune ipotesi sui biglietti in queste (ipotetiche) caselle. Ad esempio, speriamo che quando hai modificato i valori di e y 100 , lo hai fatto senza aumentare o diminuire costantemente uno (nel suo insieme, all'interno del riquadro): sarebbe una forma di distorsione sistematica.y0y100

Poiché le osservazioni scritte su ciascun biglietto sono numeri, generano distribuzioni di probabilità. Le ipotesi formulate sulle scatole in genere sono formulate in termini di proprietà di tali distribuzioni, ad esempio se devono avere una media a zero, essere simmetriche, avere una forma a "curva a campana", non essere correlate o altro.


Questo è davvero tutto ciò che c'è da fare. Proprio come una primitiva scala di dodici toni ha dato origine a tutta la musica classica occidentale, una collezione di scatole contenenti biglietti è un concetto semplice che può essere utilizzato in modi estremamente ricchi e complessi. Può modellare qualsiasi cosa, che va dal lancio di una moneta a una libreria di video, database di interazioni di siti Web, complessi meccanici quantistici e qualsiasi altra cosa che può essere osservata e registrata.


3

La definizione di una distribuzione come assegnazione di probabilità a ogni possibile evento funziona per una distribuzione discreta, ma diventa più complicata per le distribuzioni continue, dove ad esempio qualsiasi numero sulla linea reale potrebbe essere il risultato. Molto spesso quando parliamo di distribuzioni, pensiamo che abbiano parametri fissi come una distribuzione binomiale con due parametri: in primo luogo, il numero di osservazioni e in secondo luogo una probabilità di una singola osservazione essendo un evento.π

Tipici modelli statistici parametrici descrivono come i parametri di una distribuzione dipendono da determinate cose come fattori (una variabile che ha valori discreti) e covariate (variabili continue). Ad esempio, se in una distribuzione normale si assume che la media possa essere descritta da un numero fisso (un "intercetto") e un numero (un "coefficiente di regressione") volte il valore di una covariata, si ottiene un modello di regressione lineare con un termine di errore normalmente distribuito. Per una distribuzione binomiale, un modello comunemente usato ("regressione logistica"ππ/(1π) . Allo stesso modo, per una distribuzione di Poisson un modello comune è quello di assumerlo per il logaritmo del parametro rate ("regressione di Poisson").intercept+β1covariate1+


2
Sì, ma ... Il modello non riguarda solo i parametri, ma può anche riguardare la struttura del problema (ad es. Modello probabilistico che ricorda il processo di generazione dei dati ipotizzato); ci sono anche modelli non parametrici.
Tim

2

Una distribuzione di probabilità fornisce tutte le informazioni su come fluttua una quantità casuale. In pratica di solito non abbiamo la piena distribuzione di probabilità della nostra quantità di interesse. Potremmo sapere o assumere qualcosa al riguardo senza sapere o presumere di sapere tutto al riguardo. Ad esempio, potremmo supporre che una certa quantità sia normalmente distribuita ma non si sappia nulla della media e della varianza. Quindi abbiamo una raccolta di candidati per la distribuzione tra cui scegliere; nel nostro esempio, sono tutte le distribuzioni normali possibili. Questa raccolta di distribuzioni costituisce un modello statistico. Lo usiamo raccogliendo dati e quindi limitando la nostra classe di candidati in modo che tutti i candidati rimanenti siano coerenti con i dati in un certo senso.


2

Un modello è specificato da un PDF, ma non è un PDF.

La distribuzione della probabilità (PDF) è una funzione che assegna le probabilità ai numeri e il suo output deve concordare con gli assiomi della probabilità, come ha spiegato Tim .

Un modello è completamente definito da una distribuzione di probabilità, ma è più di questo. Nell'esempio del lancio della moneta, il nostro modello potrebbe essere "la moneta è giusta" + "ogni lancio è indipendente". Questo modello è specificato da un PDF che è un binomio con p = 0,5.

P(x1,x2,x3,...)

Una distinzione tra il modello e il PDF è che un modello può essere interpretato come un'ipotesi statistica. Ad esempio, nel lancio della moneta, possiamo considerare il modello in cui la moneta è giusta (p = 0,5) e che ogni lancio è indipendente (binomiale), e dire che questa è la nostra ipotesi, che vogliamo testare contro un'ipotesi concorrente .

pp


Puoi approfondire la tua ultima frase? Questa sembra essere una parte importante delle statistiche non parametriche, per me.
Ian,

Ho sempre interpretato i modelli non parametrici come meno restrittivi sul PDF di x_i, ma che richiedono comunque un PDF per le statistiche che usano. Ad esempio, la correlazione del rango di Kendal presuppone la normalità per calcolare il valore p . Ma potrebbe esserci un contro esempio. Sarei interessato.
Jorge Leitao,

Non capisco cosa intendi quando dici "non ha senso parlare di PDF concorrenti". Questo è esattamente ciò che stiamo realmente facendo, anche nelle statistiche parametriche: abbiamo un sacco di PDF che riteniamo possano essere validi per il problema, prendiamo alcuni dati e concludiamo dai dati che alcuni sottogruppi dei nostri PDF sono migliori. Quindi quantificiamo ciò che intendiamo per "migliore". (Inoltre, nel contesto elementare, non dovresti davvero usare "PDF" per tutto. Nel senso distributivo alla fine questo funziona, ma questo è un meccanismo abbastanza sofisticato ...)
Ian,

A model is specified by a PDFNon sono d'accordo. Un modello potrebbe essere specificato anche da più PDF. E un modello potrebbe non essere specificato da nessun PDF: pensa a qualcosa come un SVM o un albero di regressione.
Ricardo Cruz,

2

Fai una domanda molto importante, Alan, e hai ricevuto alcune belle risposte sopra. Vorrei offrire una risposta più semplice e indicare anche una dimensione aggiuntiva alla distinzione che le risposte di cui sopra non hanno affrontato. Per semplicità, tutto ciò che dirò qui si riferisce a modelli statistici parametrici .

y=ax2+bx+cy=mx+bF=kxmbk

Quindi, la mia breve risposta n. 1 alla tua domanda è: un modello statistico è una famiglia di distribuzioni.

L'ulteriore punto che volevo fare riguarda il qualificatore, statistico . Come sottolinea Judea Pearl nella sua "regola d'oro dell'analisi causale" [1, p350],

Nessuna pretesa causale può essere stabilita con un metodo puramente statistico, che si tratti di punteggi di propensione, regressione, stratificazione o qualsiasi altro disegno basato sulla distribuzione.

F=-KX cioè delle dichiarazioni sulle distribuzioni di probabilità.

Pertanto, la mia risposta n. 2 alla tua domanda è: i modelli di solito incarnano idee causali che non possono essere espresse in termini puramente distributivi.


[1]: Pearl, Judea. Causalità: modelli, ragionamento e inferenza. 2a edizione. Cambridge, Regno Unito; New York: Cambridge University Press, 2009. Link a §11.3.5, incluso c. P. 351.


Perdona la mia ignoranza, ma cosa intendi con la parola causal? C'è qualche significato più sfumato ad esso o si riferisce semplicemente alla nozione di causalitye relazioni legate tra causese effects? Grazie per la tua risposta, a proposito.
AlanSTACK,

La conoscenza causale comporta gli effetti degli interventi . Se hai conoscenza causale, allora sai come un sistema risponderà a un'azione che fai. (Cfr. Il ritornello comune, "associazione non è causalità"). Un modo per apprezzare come la conoscenza causale si trova oltre la provincia della semplice statistica è quello di considerare l'esempio della Legge di Hooke che ho citato sopra. A seconda di come viene utilizzata una molla (ad esempio, in una squama contro una pistola giocattolo a molla), laF potrebbe causare il Xo vice versa. AncoraF=-KXè ambivalente alla causalità qui (perché=è una relazione simmetrica).
David C. Norris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.