Nell'analisi di regressione qual è la differenza tra "processo di generazione dei dati" e "modello"?
Nell'analisi di regressione qual è la differenza tra "processo di generazione dei dati" e "modello"?
Risposte:
Tutti abbiamo un buon senso di cosa potrebbe significare "modello", sebbene la sua definizione tecnica varierà tra le discipline. Per confrontare questo con il DGP, ho iniziato osservando i primi cinque risultati (contando due risultati con lo stesso autore di uno) in Google "processo di generazione dei dati".
Un documento su come la US Air Force crea effettivamente dati nel supporto logistico.
Estratto di un articolo pubblicato su Environment and Planning A relativo al modo in cui "micropopolazioni sintetiche" vengono create tramite "modelli di simulazione" al computer.
Una pagina Web sulla "generazione di dati sintetici"; cioè simulazione "per esplorare gli effetti di determinate caratteristiche dei dati su ... modelli".
Estratto di un documento di conferenza nel data mining, in cui si afferma che "i dati nei database sono il risultato di un processo di generazione dei dati sottostante (dgp)".
Un capitolo del libro che caratterizza i dati di interesse come "derivanti da una trasformazione di un processo [stocastico] sottostante V t ... alcuni o tutti [di cui] potrebbero non essere osservati ..."
Questi collegamenti mostrano tre usi leggermente diversi ma strettamente correlati del termine "processo di generazione dei dati". Il più comune è in un contesto di simulazione statistica. Gli altri si riferiscono ai mezzi effettivi con cui vengono creati i dati in una situazione in corso (logistica) e ad un modello di probabilità per una procedura di creazione dei dati in corso, destinata a non essere analizzata direttamente. Nell'ultimo caso il testo sta differenziando un processo stocastico inosservabile, che tuttavia è modellato matematicamente, dai numeri reali che verranno analizzati.
Questi suggeriscono che sono possibili due risposte leggermente diverse:
Nel contesto della simulazione o della creazione di dati "sintetici" per l'analisi, il "processo di generazione dei dati" è un modo per creare dati per lo studio successivo, generalmente mediante un generatore di numeri pseudo casuali di un computer. L'analisi adotterà implicitamente alcuni modelli che descrivono le proprietà matematiche di questo DGP.
Nel contesto dell'analisi statistica, potremmo voler distinguere un fenomeno del mondo reale (DGP) dalle osservazioni che verranno analizzate. Abbiamo modelli sia per il fenomeno che per le osservazioni, nonché un modello per il modo in cui i due sono collegati.
Il DGP è il vero modello. Il modello è quello che abbiamo cercato di usare le nostre migliori capacità per rappresentare il vero stato della natura. Il DGP è influenzato dal "rumore". Il rumore può essere di molti tipi:
Se non controlli per questi 6 articoli, la tua capacità di identificare il vero DGP è ridotta.
La risposta di Whuber è eccellente, ma vale la pena aggiungere enfasi al fatto che un modello statistico non deve assomigliare al modello di generazione dei dati sotto tutti gli aspetti per essere un modello appropriato per l'esplorazione inferenziale dei dati. Liu e Meng spiegano questo punto con grande chiarezza nel loro recente articolo su arXived ( http://arxiv.org/abs/1510.08539 ):
Idea sbagliata 1. Un modello di probabilità deve descrivere la generazione dei dati.
). In nessun punto questo punto è più chiaro che nelle applicazioni che coinvolgono esperimenti informatici in cui viene utilizzato un modello probabilistico per descrivere i dati seguendo un modello deterministico noto (ma altamente complicato) (Kennedy e O'Hagan, 2001; Conti et al., 2009). Abbiamo bisogno di un modello descrittivo, non necessariamente di un modello generativo. Vedi Lehmann (1990), Breiman (2001) e Hansen e Yu (2001) per ulteriori informazioni su questo punto.
DGP è la realtà virtuale e una ricetta unica per la simulazione. Un modello è una raccolta di DGP o possibili modi in cui i dati avrebbero potuto essere generati.
Leggi la prima pagina di questo mini corso di Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf