Nell'analisi di regressione qual è la differenza tra processo di generazione dei dati e modello?


19

Nell'analisi di regressione qual è la differenza tra "processo di generazione dei dati" e "modello"?


1
Il processo di generazione dei dati non è mai noto, scegliamo il modello nella speranza di approssimare sufficientemente il processo di generazione dei dati. Questa è una delle possibili risposte, sarebbe utile se fornissi più contesto, quindi è più chiaro quale tipo di risposta stai cercando. Dai un'occhiata alla chat, il journal club attualmente in corso discute l'articolo in cui viene sollevato questo problema.
mpiktas,

3
Le risposte a questa domanda varieranno, come dovrebbero, perché sia ​​il "processo di generazione dei dati" che il "modello" sono usati in vari modi da vari autori. @ Weijie, hai in mente un riferimento particolare?
whuber

Risposte:


15

Tutti abbiamo un buon senso di cosa potrebbe significare "modello", sebbene la sua definizione tecnica varierà tra le discipline. Per confrontare questo con il DGP, ho iniziato osservando i primi cinque risultati (contando due risultati con lo stesso autore di uno) in Google "processo di generazione dei dati".

  1. Un documento su come la US Air Force crea effettivamente dati nel supporto logistico.

  2. Estratto di un articolo pubblicato su Environment and Planning A relativo al modo in cui "micropopolazioni sintetiche" vengono create tramite "modelli di simulazione" al computer.

  3. Una pagina Web sulla "generazione di dati sintetici"; cioè simulazione "per esplorare gli effetti di determinate caratteristiche dei dati su ... modelli".

  4. Estratto di un documento di conferenza nel data mining, in cui si afferma che "i dati nei database sono il risultato di un processo di generazione dei dati sottostante (dgp)".

  5. Un capitolo del libro che caratterizza i dati di interesse come "derivanti da una trasformazione di un processo [stocastico] sottostante V t ... alcuni o tutti [di cui] potrebbero non essere osservati ..."WtVt

Questi collegamenti mostrano tre usi leggermente diversi ma strettamente correlati del termine "processo di generazione dei dati". Il più comune è in un contesto di simulazione statistica. Gli altri si riferiscono ai mezzi effettivi con cui vengono creati i dati in una situazione in corso (logistica) e ad un modello di probabilità per una procedura di creazione dei dati in corso, destinata a non essere analizzata direttamente. Nell'ultimo caso il testo sta differenziando un processo stocastico inosservabile, che tuttavia è modellato matematicamente, dai numeri reali che verranno analizzati.

Questi suggeriscono che sono possibili due risposte leggermente diverse:

  1. Nel contesto della simulazione o della creazione di dati "sintetici" per l'analisi, il "processo di generazione dei dati" è un modo per creare dati per lo studio successivo, generalmente mediante un generatore di numeri pseudo casuali di un computer. L'analisi adotterà implicitamente alcuni modelli che descrivono le proprietà matematiche di questo DGP.

  2. Nel contesto dell'analisi statistica, potremmo voler distinguere un fenomeno del mondo reale (DGP) dalle osservazioni che verranno analizzate. Abbiamo modelli sia per il fenomeno che per le osservazioni, nonché un modello per il modo in cui i due sono collegati.

(X,Y)io(X1i,X2io,...,Xpio,Yio)io=1,2,...,nXjioYioYioXβσ2βσ


Scrivi le parole "causa" o "correlato". Ho una domanda al riguardo. Dalla tua risposta sembra che il concetto DGP non implichi la causalità. Tuttavia questa "relazione" è qualcosa di più della correlazione (o di qualsiasi tipo di associazione) o no? Vedi anche questa mia domanda correlata: stats.stackexchange.com/questions/399671/…
markowitz

@markowitz "Correlazione", in senso stretto, si riferisce a un secondo momento della variabile casuale bivariata. Uso "correlato" nel senso più ampio di "non [statisticamente] indipendente".
whuber

Lo so, e proprio per questo motivo ho dichiarato "o qualsiasi tipo di associazione [solo statistica]". Posso ripetere la mia domanda come: Tuttavia questa "relazione" è qualcosa di più dell'associazione o no? A partire dal concetto di "modello vero", talvolta usato come sinonimo di DGP, sembra qualcosa di più. Se è così, non capisco esattamente di cosa si tratti. Il mio link precedente fa un esempio.
markowitz

@markowitz Temo di non capire cosa stai cercando di chiedere. Ciò può essere dovuto al fatto che non sono sicuro di cosa intendi esattamente per "relazione" o "associazione". Ho guardato il tuo link, ma l'insolito uso dell'inglese non mi trasmette nulla di significativo.
whuber

Mi dispiace per il mio inglese. Ho provato a modificare la domanda collegata in senso più chiaro. Spero sia comprensibile
markowitz

4

Il DGP è il vero modello. Il modello è quello che abbiamo cercato di usare le nostre migliori capacità per rappresentare il vero stato della natura. Il DGP è influenzato dal "rumore". Il rumore può essere di molti tipi:

  1. Interventi una tantum
  2. Spostamenti di livello
  3. tendenze
  4. Cambiamenti nella stagionalità
  5. Cambiamenti nei parametri del modello
  6. Cambiamenti nella varianza

Se non controlli per questi 6 articoli, la tua capacità di identificare il vero DGP è ridotta.


4

La risposta di Whuber è eccellente, ma vale la pena aggiungere enfasi al fatto che un modello statistico non deve assomigliare al modello di generazione dei dati sotto tutti gli aspetti per essere un modello appropriato per l'esplorazione inferenziale dei dati. Liu e Meng spiegano questo punto con grande chiarezza nel loro recente articolo su arXived ( http://arxiv.org/abs/1510.08539 ):

Idea sbagliata 1. Un modello di probabilità deve descrivere la generazione dei dati.

θ). In nessun punto questo punto è più chiaro che nelle applicazioni che coinvolgono esperimenti informatici in cui viene utilizzato un modello probabilistico per descrivere i dati seguendo un modello deterministico noto (ma altamente complicato) (Kennedy e O'Hagan, 2001; Conti et al., 2009). Abbiamo bisogno di un modello descrittivo, non necessariamente di un modello generativo. Vedi Lehmann (1990), Breiman (2001) e Hansen e Yu (2001) per ulteriori informazioni su questo punto.


+1. Mi piace soprattutto la distinzione tra modelli descrittivi e generativi di dati.
whuber

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.