L'approccio generale consiste nell'eseguire analisi statistiche tradizionali sul set di dati per definire un processo casuale multidimensionale che genererà dati con le stesse caratteristiche statistiche. La virtù di questo approccio è che i tuoi dati sintetici sono indipendenti dal tuo modello ML, ma statisticamente "vicini" ai tuoi dati. (vedi sotto per la discussione della tua alternativa)
In sostanza, state valutando la distribuzione di probabilità multivariata associata al processo. Una volta stimata la distribuzione, è possibile generare dati sintetici attraverso il metodo Monte Carlo o metodi di campionamento ripetuti simili. Se i tuoi dati assomigliano ad una distribuzione parametrica (es. Lognormale), questo approccio è semplice e affidabile. La parte difficile è stimare la dipendenza tra le variabili. Vedi: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statistical_analysis .
Se i tuoi dati sono irregolari, i metodi non parametrici sono più facili e probabilmente più robusti. La stima della densità kernale multivariata è un metodo accessibile e attraente per le persone con background ML. Per un'introduzione generale e collegamenti a metodi specifici, consultare: https://en.wikipedia.org/wiki/Nonparametric_statistics .
Per confermare che questo processo ha funzionato per te, ripeti il processo di apprendimento automatico con i dati sintetizzati e dovresti finire con un modello abbastanza vicino al tuo originale. Allo stesso modo, se inserisci i dati sintetizzati nel tuo modello ML, dovresti ottenere output con una distribuzione simile a quelli originali.
Al contrario, stai proponendo questo:
[dati originali -> costruisci modello di apprendimento automatico -> usa il modello ml per generare dati sintetici .... !!!]
Ciò realizza qualcosa di diverso rispetto al metodo che ho appena descritto. Ciò risolverebbe il problema inverso : "quali input potrebbero generare un determinato set di output del modello". A meno che il tuo modello ML non sia adattato ai tuoi dati originali, questi dati sintetizzati no sembreranno i tuoi dati originali sotto tutti gli aspetti, o anche la maggior parte.
Considera un modello di regressione lineare. Lo stesso modello di regressione lineare può adattarsi in modo identico a dati con caratteristiche molto diverse. Una dimostrazione famosa di ciò è attraverso il quartetto di Anscombe .
Anche se non ho riferimenti, credo che questo problema possa sorgere anche nella regressione logistica, modelli lineari generalizzati, SVM e clustering dei mezzi K.
Esistono alcuni tipi di modelli ML (ad es. Albero decisionale) in cui è possibile invertirli per generare dati sintetici, anche se richiede del lavoro. Vedere: Generazione di dati sintetici per abbinare i modelli di data mining .