Uso una parola diversa a seconda del modo in cui utilizzo i dati. Se ho trovato il set di dati inventato in giro e ho indicato il mio algoritmo in modo confermativo, allora la parola "sintetico" va bene.
Tuttavia, spesso ogni volta che utilizzo questo tipo di dati, ho inventato i dati con l'intento specifico di mostrare le capacità del mio algoritmo. In altre parole, ho inventato i dati allo scopo specifico di ottenere "buoni risultati". In tali circostanze, sono affezionato al termine "inventato" insieme a una spiegazione delle mie aspettative per i dati. Questo perché non voglio che nessuno commetta l'errore di pensare che ho puntato il mio algoritmo su un set di dati sintetici arbitrario che ho trovato in giro e ha funzionato davvero bene. Se ho raccolto dati ciliegia (al punto di crearli effettivamente) in modo specifico per far funzionare bene il mio algoritmo, lo dico. Questo perché tali risultati forniscono la prova che il mio algoritmo puòfunziona bene, ma fornisce solo prove molto deboli che ci si potrebbe aspettare che l'algoritmo funzioni bene in generale . La parola "inventata" riassume davvero bene il fatto che ho scelto i dati con "buoni risultati" in mente, a priori.
"dà l'impressione di dati fraudolenti ?"
No, ma è importante essere chiari circa la fonte di qualsiasi set di dati e le vostre a priori aspettative come lo sperimentatore nel riferire i risultati su qualsiasi set di dati. Il termine "frode" include esplicitamente un aspetto di aver nascosto qualcosa o di aver mentito apertamente. Il modo # 1 per evitare di commissione di frodi nel campo della scienza è quello di essere semplicemente onesti e schietti circa la natura dei vostri dati e le vostre aspettative. In altre parole, se i tuoi dati sono fabbricati e non riesci a dire altrettanto in alcun modo , e c'è qualche tipo di aspettativa che i dati non siano fabbricati o, peggio ancora, dichiari che i dati sono raccolti in un tipo non fabbricato di modo, quindi quello è"frode". Non fare quella cosa. Se vuoi usare un sinonimo per il termine "fabbricato" che "suona meglio", come "sintetico", nessuno ti biasimerà, ma allo stesso tempo non penso che nessuno noterà la differenza tranne te.
Una nota a margine:
Meno ovvie sono le circostanze in cui si afferma di aver avuto aspettative a priori che sono in realtà spiegazioni post hoc . Questa è anche un'analisi fraudolenta dei dati.
Esiste il pericolo di ciò quando si scelgono i dati specificamente con l'intento di "mostrare" le capacità di un algoritmo, come spesso accade con i dati sintetici.
DHHDD
HDHD
Non c'è alcun problema nel fare questo, purché tu sia onesto e schietto su ciò che hai fatto. Se hai provato a creare un set di dati che fornisca "buoni risultati", dillo. Fintanto che fai conoscere al lettore i passaggi che hai compiuto nell'analisi dei dati, ha le informazioni necessarie per valutare efficacemente l'evidenza a favore o contro le tue ipotesi. Quando non sei onesto o non sei sincero , questo può dare l'impressione che le tue prove siano più forti di quanto non siano in realtà. Quando sei KNOWINGLY meno che onesto e schietto per rendere le tue prove più forti di quanto non sia in realtà, allora è davvero fraudolento.
In ogni caso, questo è il motivo per cui preferisco il termine "inventato" per tali set di dati, insieme a una breve spiegazione del fatto che sono, in effetti, scelti con un'ipotesi in mente. "Contrived" trasmette la sensazione che non solo ho creato un set di dati sintetico, ma lo ho fatto con particolari intenzioni che riflettono il fatto che la mia ipotesi era già in atto prima della creazione del mio set di dati.
ADx.y
tl; dr
Usa il termine che preferisci, "sintetico", "inventato", "fabbricato", "fittizio". Tuttavia, il termine utilizzato non è sufficiente per garantire che i risultati non siano fuorvianti . Assicurati di essere chiaro nel tuo rapporto su come sono stati generati i dati, comprese le tue aspettative per i dati e i motivi per cui hai scelto i dati che hai scelto.