Come contesto: quando si lavora con un set di dati molto grande, a volte mi viene chiesto se è possibile creare un set di dati sintetico in cui "conosciamo" la relazione tra predittori e la variabile di risposta o le relazioni tra predittori.
Nel corso degli anni, mi sono imbattuto in set di dati sintetici una tantum, che sembrano essere stati elaborati in modo ad hoc, o in set di dati più strutturati che sembrano particolarmente favorevoli al metodo di modellazione proposto dal ricercatore.
Credo che sto cercando metodi standard per la creazione di set di dati sintetici. Sebbene il ricampionamento bootstrap sia un metodo comune per la creazione di set di dati sintetici, non soddisfa la condizione che conosciamo a priori la struttura . Inoltre, lo scambio di campioni bootstrap con altri richiede essenzialmente lo scambio di dati, piuttosto che un metodo di generazione dei dati.
Se possiamo adattare una distribuzione parametrica ai dati o trovare un modello parametrico sufficientemente vicino, questo è un esempio in cui possiamo generare set di dati sintetici.
Quali altri metodi esistono? Sono particolarmente interessato a dati ad alta dimensione, dati sparsi e dati di serie temporali. Per dati ad alta dimensione, cercherei metodi in grado di generare strutture (ad esempio struttura di covarianza, modelli lineari, alberi, ecc.) Di interesse. Per i dati di serie temporali, dalle distribuzioni su FFT, modelli AR o vari altri modelli di filtro o previsione sembra un inizio. Per dati sparsi, la riproduzione di un modello di sparsità sembra utile.
Credo che questi graffino solo la superficie: si tratta di pratiche euristiche, non formali. Ci sono riferimenti o risorse per la generazione di dati sintetici che dovrebbero essere conosciuti dai professionisti?
Nota 1: mi rendo conto che questa domanda si rivolge alla letteratura su come si possono generare dati come un particolare modello di serie storiche. La distinzione qui è sulle pratiche, in particolare per indicare una struttura nota (la mia domanda), rispetto alla somiglianza / fedeltà a un set di dati esistente. Nel mio caso non è necessario avere la somiglianza, tanto quanto la struttura nota, sebbene la somiglianza sia molto preferita alla dissomiglianza. Un set di dati sintetici esotici per cui un modello mostra promessa è meno preferito di una simulazione realistica.
Nota 2: La voce di Wikipedia per i dati sintetici sottolinea che luminari come Rubin e Fienberg hanno affrontato questo problema, anche se non ho trovato riferimenti sulle migliori pratiche. Sarebbe interessante sapere cosa sarebbe accaduto, per esempio, con gli Annals of Applied Statistics (o l'AOS), o in rassegna i lavori su queste o altre riviste. In termini semplici e stravaganti, ci si può chiedere dove esiste la soglia tra "(accettabilmente) cotto" e "troppo cotto"?
Nota 3: sebbene non influisca sulla domanda, lo scenario di utilizzo è la modellazione di vari set di dati di grandi dimensioni e ad alta dimensione, in cui l'agenda di ricerca è quella di apprendere (sia dall'uomo che dalla macchina ;-)) la struttura dei dati. A differenza di scenari univariati, bivariati e altri scenari di bassa dimensione, la struttura non è facilmente deducibile. Mentre avanziamo verso una migliore comprensione della struttura, è in grado di generare insiemi di dati con proprietà simili per vedere come un metodo di modellazione interagisce con i dati (ad esempio per esaminare la stabilità dei parametri). Tuttavia, le guide più vecchie sui dati sintetici a bassa dimensione possono essere un punto di partenza che può essere esteso o adattato a serie di dati a dimensione superiore.