Il termine migliore per i dati inventati?


23

Sto scrivendo un esempio e ho inventato alcuni dati. Voglio che sia chiaro al lettore che non si tratta di dati reali, ma non voglio anche dare l'impressione di malizia, dal momento che serve solo da esempio.

Non esiste un componente (pseudo) casuale per questi dati particolari, quindi mi sembra che "simulato" non sia appropriato. Se lo chiamo fittizio o inventato, dà l'impressione di dati fraudolenti ? "Trucco" è una parola che si adatterebbe in un contesto scientifico?

Qual è la terminologia nella letteratura statistica per i dati inventati non simulati?


9
Solo per aggiungere un commento che si diffonde in diverse risposte: "sintetico" è una buona parola per dati inventati che cercano di apparire il più realistico possibile, mentre "mock up" suggerisce dati che sono stati creati per dimostrare qualcosa di particolare. Ad esempio, i dati "mock up" potrebbero contenere valori anomali assurdi, solo per dimostrare quanto sia importante gestire correttamente i valori anomali.
Cort Ammon - Ripristina Monica il

Personalmente preferisco il termine "simulato" e l'ho incontrato di più nella letteratura statistica (vale a dire "abbiamo condotto simulazioni per confrontare il nostro modello rispetto a X, Y, Z ...."
Samir Rachid Zaim,

Risposte:


45

Probabilmente chiamerei questi dati "sintetici" o "artificiali", anche se potrei anche chiamarli "simulati" (la simulazione è molto semplice).


30
Si sentono "dati giocattolo", "esempio giocattolo" e "dati fittizi". Concordo anche sul fatto che "simulato" potrebbe adattarsi anche in assenza di numeri casuali.
rolando2

7
Anche "dati illustrativi" o "dati di esempio" potrebbero funzionare
Henry,

8
+1 " dati sintetici " e " esempio giocattolo " sono entrambi i termini che potrei usare, se l'occasione, come "esempio costruito". A volte dico "esempio illustrativo" o qualcosa di simile, in particolare quando l'esempio è stato esplicitamente costruito per avere caratteristiche particolari (ad esempio, quando progettato come controesempio di una nozione errata).
Glen_b

1
Tendo a usare i dati dei giocattoli (senza artificiali o simulati ) per insiemi di dati reali (misurati) che "abuso" per dimostrare qualcosa.
cbeleites supporta Monica il

1
Dipende un po 'dall'applicazione che funzionerà meglio. Ad esempio, sto anche facendo un progetto con dati "falsi", ma un'altra parte del progetto prevede l'uso di una simulazione del modello al computer. Quindi potrebbe confondere il lettore nel riferirmi ai dati falsi come "simulati", implicando erroneamente che i dati provengono dalla simulazione. Quindi ho fatto affidamento su "artificiale" e, a volte, descrivo i dati come "fabbricati". Personalmente eviterei "sintetico", poiché per me questo termine implicherebbe che i dati sono una sorta di combinazione di altre fonti di dati (una "sintesi", ad esempio, dei dati A e B).
Ceph,

12

Se vuoi fare riferimento ai tuoi dati come fittizi , saresti in buona compagnia, poiché questo è il termine usato da Francis Anscombe per descrivere il suo ormai famoso quartetto .

Da Anscombe, FJ (1973). " Grafici nell'analisi statistica ", em. Statistica. 27 (1):

Alcuni di questi punti sono illustrati da quattro insiemi di dati fittizi, ciascuno costituito da undici (x, y) coppie, mostrate nella tabella.

Ma penso che la tua attenzione sia ben posizionata, poiché il mio OED (v4) sembra indicare che questo uso fittizio è obsoleto

fittizio , a.

(fɪktɪʃəs)

[F. L. fictīci-us (f. Fingĕre to fashion, finge) + -ous: see -itious.]

1.1 † a.1.a Artificiale in contrapposizione al naturale (oss.). b.1.b contraffatto, "imitazione", finzione; non genuino.


In termini di leggibilità, il primo suggerimento e i commenti sono un'alternativa molto migliore. Non c'è bisogno di usare parole insolite e complicate.
Tim

1
@Tim: voglio essere d'accordo, ma non sono del tutto sicuro di cosa sarei d'accordo. Stai dicendo che la finzione sarebbe una cattiva scelta, nonostante fosse stata usata in un contesto simile prima? Perché è quello che sto dicendo.
AkselA

7

In IT spesso li chiamiamo dati di mockup , che possono essere presentati tramite un mockup (applicazione).

I dati del mockup possono anche essere presentati attraverso un'applicazione completamente funzionale, ad esempio per testare la funzionalità dell'applicazione in modo controllato.


5
Buon punto, ma credo che i dati di simulazione e i dati simulati non siano esattamente gli stessi. Quando si creano dati di mockup per unit test, è necessario solo per preservare alcune proprietà di base dei dati reali, mentre quando si utilizzano dati simulati per analisi statistiche, di solito si utilizzano esempi di dati più sofisticati.
Tim

2
Credo comunque che ErikE sia corretto, quando scrivi il codice analitico hai bisogno della cosa reale o dei dati simulati. I dati simulati possono essere grandi quanto vuoi che siano imo.
Mathijs Segers,

1
Probabilmente le pratiche variano così come l'uso della terminologia. Per molti dei nostri test e analisi utilizziamo dati in tempo reale che sono stati "disinnescati" per motivi di sicurezza e anonimato. Per altri creiamo dati di ossa nude proprio come descrive Tim. Non ho un'opinione forte, ma usiamo il termine mockup abbastanza vagamente.
ErikE

3

Ho visto ripetuti suggerimenti per il termine "dati sintetici". Quel termine ha tuttavia un significato ampiamente usato e molto diverso da quello che vuoi esprimere: https://en.wikipedia.org/wiki/Synthetic_data

Non sono sicuro che esista un termine scientifico generalmente accettato, ma il termine "dati di esempio" sembra difficile da fraintendere?


1
L'articolo sembra un po 'confuso: il rapporto con l'anonimato è piuttosto tenue.
Matt Krause,

+1 ma concordo con il commento precedente: a parte il secondo paragrafo (dicendo che i dati sintetizzati sono un tipo di dati anonimi), il resto di quell'articolo di Wikipedia sembra descrivere ciò che vuole l'interrogante. Cioè dati truccati dall'aspetto realistico.
Darren Cook,

3

2

Uso una parola diversa a seconda del modo in cui utilizzo i dati. Se ho trovato il set di dati inventato in giro e ho indicato il mio algoritmo in modo confermativo, allora la parola "sintetico" va bene.

Tuttavia, spesso ogni volta che utilizzo questo tipo di dati, ho inventato i dati con l'intento specifico di mostrare le capacità del mio algoritmo. In altre parole, ho inventato i dati allo scopo specifico di ottenere "buoni risultati". In tali circostanze, sono affezionato al termine "inventato" insieme a una spiegazione delle mie aspettative per i dati. Questo perché non voglio che nessuno commetta l'errore di pensare che ho puntato il mio algoritmo su un set di dati sintetici arbitrario che ho trovato in giro e ha funzionato davvero bene. Se ho raccolto dati ciliegia (al punto di crearli effettivamente) in modo specifico per far funzionare bene il mio algoritmo, lo dico. Questo perché tali risultati forniscono la prova che il mio algoritmo puòfunziona bene, ma fornisce solo prove molto deboli che ci si potrebbe aspettare che l'algoritmo funzioni bene in generale . La parola "inventata" riassume davvero bene il fatto che ho scelto i dati con "buoni risultati" in mente, a priori.

"dà l'impressione di dati fraudolenti ?"

No, ma è importante essere chiari circa la fonte di qualsiasi set di dati e le vostre a priori aspettative come lo sperimentatore nel riferire i risultati su qualsiasi set di dati. Il termine "frode" include esplicitamente un aspetto di aver nascosto qualcosa o di aver mentito apertamente. Il modo # 1 per evitare di commissione di frodi nel campo della scienza è quello di essere semplicemente onesti e schietti circa la natura dei vostri dati e le vostre aspettative. In altre parole, se i tuoi dati sono fabbricati e non riesci a dire altrettanto in alcun modo , e c'è qualche tipo di aspettativa che i dati non siano fabbricati o, peggio ancora, dichiari che i dati sono raccolti in un tipo non fabbricato di modo, quindi quello è"frode". Non fare quella cosa. Se vuoi usare un sinonimo per il termine "fabbricato" che "suona meglio", come "sintetico", nessuno ti biasimerà, ma allo stesso tempo non penso che nessuno noterà la differenza tranne te.

Una nota a margine:

Meno ovvie sono le circostanze in cui si afferma di aver avuto aspettative a priori che sono in realtà spiegazioni post hoc . Questa è anche un'analisi fraudolenta dei dati.

Esiste il pericolo di ciò quando si scelgono i dati specificamente con l'intento di "mostrare" le capacità di un algoritmo, come spesso accade con i dati sintetici.

DHHDD

HDHD

Non c'è alcun problema nel fare questo, purché tu sia onesto e schietto su ciò che hai fatto. Se hai provato a creare un set di dati che fornisca "buoni risultati", dillo. Fintanto che fai conoscere al lettore i passaggi che hai compiuto nell'analisi dei dati, ha le informazioni necessarie per valutare efficacemente l'evidenza a favore o contro le tue ipotesi. Quando non sei onesto o non sei sincero , questo può dare l'impressione che le tue prove siano più forti di quanto non siano in realtà. Quando sei KNOWINGLY meno che onesto e schietto per rendere le tue prove più forti di quanto non sia in realtà, allora è davvero fraudolento.

In ogni caso, questo è il motivo per cui preferisco il termine "inventato" per tali set di dati, insieme a una breve spiegazione del fatto che sono, in effetti, scelti con un'ipotesi in mente. "Contrived" trasmette la sensazione che non solo ho creato un set di dati sintetico, ma lo ho fatto con particolari intenzioni che riflettono il fatto che la mia ipotesi era già in atto prima della creazione del mio set di dati.

ADx.y

tl; dr

Usa il termine che preferisci, "sintetico", "inventato", "fabbricato", "fittizio". Tuttavia, il termine utilizzato non è sufficiente per garantire che i risultati non siano fuorvianti . Assicurati di essere chiaro nel tuo rapporto su come sono stati generati i dati, comprese le tue aspettative per i dati e i motivi per cui hai scelto i dati che hai scelto.


Anche se le risposte qui si sovrappongono e quasi tutti danno buoni punti a questo, penso che trasmetta al meglio il punto chiave che nessun singolo termine trasmetterà a tutti i lettori l' intenzione alla base della creazione dei dati. I reaoni possono variare da non solo appropriati ma essenziali allo scopo attraverso la pigrizia (poveri testi introduttivi) a truffe e frodi. Spiegare perché lo stai facendo a lungo potrebbe essere una buona idea.
Nick Cox,

... ragioni ...
Nick Cox,

1

Innanzitutto, non c'è motivo di non chiamarlo un "set di dati". Non ci sono termini universalmente concordati per dati "falsi" vs "simulati" vs .... Se l'obiettivo è essere completamente chiari, è meglio dedicare effettivamente una frase, piuttosto che una parola, per qualificare il set di dati. Successivamente, puoi rilassare la designazione e fare semplicemente riferimento ai tuoi dati come dati.

"Sintetico", "artificiale" non distingue da altri insiemi di dati "simulati" campionati MCMC nella mia mente. L'uso di un generatore di numeri quasirandom con un seme fisso (come detterebbe l'addestramento appropriato) crea anche un set di dati sintetico o artificiale.

Se il punto di curare un set di dati per una specifica illustrazione, piuttosto che generare un'istanza o una realizzazione da un modello di probabilità, penso che sia meglio chiamare un set di dati un " set di dati di esempio ". Dati come questi sono simili al quartetto di Anscombe: totalmente astratti e non plausibili, ma intesi a illustrare un punto.


1

In biologia, le analisi sono talvolta dimostrate utilizzando un set di dati di animali mitici. Se dichiarare esplicitamente che i dati sono simulati dipende dall'autore / revisore.

Una guida ecologista al modello animale, 2009

Questi tutorial descrivono una serie di analisi genetiche quantitative su una popolazione di grifoni (che riflette un compromesso tra i pregiudizi aviari e dei mammiferi degli autori). Dato che il Grifone è una bestia mitica, i dati forniti sono stati necessariamente simulati.

Varianza dell'effetto fisso e stima di ripetibilità ed ereditarietà: problemi e soluzioni, 2017

Per illustrare questo, torniamo al set di dati unicorno di Wilson (2008). È noto che negli unicorni la lunghezza del corno varia in base alla massa corporea individuale (pendenza: β = 0,403 per un modello completo comprendente età, sesso e loro interazione).


1
Approccio interessante! Penso che questo potrebbe essere ottimo per insegnare le statistiche agli studenti di biologia. Nel presentare al pubblico, però, non sono sicuro che questo darebbe la giusta impressione
Frans Rodenburg, il

0

Intuitivamente andrei al termine "dati fittizi", nello stesso senso in cui "Lorem ipsum ..." è chiamato "testo fittizio". La parola "manichino" è abbastanza generica e di facile comprensione per persone di diversa estrazione ed è quindi meno probabile che venga interpretata male da lettori con un background meno statistico.


2
Se è in un contesto di regressione, eviterei di sovraccaricare "fittizio", per non avere variabili fittizie che codificano dati fittizi.
Matt Krause,

Sono d'accordo, lo eviterei personalmente poiché "Dummy" ha già una connotazione prestabilita nella regressione. Dato che ci sono molti termini disponibili, probabilmente è meglio evitare quei termini che possono significare cose diverse per persone diverse.
Samir Rachid Zaim,

0

I dati sono in latino per dato , che viene utilizzato nei tempi moderni come scorciatoia per un determinato insieme di fatti registrati . Quindi, in un certo senso, riferirsi alle registrazioni fabbricate come una sorta di dato dato sarebbe una contraddizione aperta.

Tuttavia, a causa del crescente utilizzo dei dati per riferirsi semplicemente alle registrazioni - indipendentemente dalla presunzione originale dei dati come fatti - ci rendiamo felici a vicenda quando parliamo di registrazioni che possono o meno essere veritiere - quindi dati reali / falsi.

Riassumerò la mia esperienza sui modi per affrontare le registrazioni fabbricate di seguito. L'etichetta utilizzata dipende dal fatto che si stia supponendo che stiamo parlando di dati come registrazioni fabbricate che hanno lo scopo di sembrare ragionevolmente realistiche per consentire ulteriori analisi, o dati come un carico computazionale.

  • Nei circoli di analisi / scienza dei dati / consulenze strategiche, le persone si rivolgono più frequentemente a una serie fabbricata di registrazioni generate sotto ipotesi realistiche come dati sintetici - e occasionalmente dati simulati . Le registrazioni fabbricate create utilizzando ipotesi grezze vengono chiamate set di dati giocattolo .
  • Tra gli ingegneri del software, dati falsi , dati fittizi , dati resi-up e dei dati mock-up sono etichette frequenti quell'accenno principalmente alle registrazioni non necessariamente destinate ad avere proprietà realistiche, ma solo condividono le proprietà di base con i dati originali (dati di età è sempre numerica , gli indirizzi email sono sempre stringhe che contengono "@").
  • I ricercatori accademici farebbero riferimento a una serie realistica di registrazioni fabbricate come pseudo-dati o dati simulati . In alcuni ambienti, se l'insieme fabbricato di osservazioni è il risultato di una simulazione Monte Carlo, può essere definito colloquialmente Monte Carlo . Le registrazioni semi-realistiche sono comunemente utilizzate a scopo illustrativo o per testare ipotesi alternative e indicate come set di dati giocattolo

2
"Monte Carlo" è il nome del metodo, quindi il nome "colloquiale" sarebbe molto fuorviante.
Tim

@Tim in effetti, può essere visto come fuorviante. Tuttavia, il linguaggio è solo uno strumento basato sul consenso in una comunità come un modo per fare riferimento a qualcosa. Tanto che ci riferiamo su questo sito alle registrazioni e alle misurazioni fornite (inglese per dati latini ). Se dovessi adottare il tuo punto di vista, troverei le misurazioni simulate come false date altamente discutibili.
famargar,

Spero che ora vedrai che riferirsi a una "simulazione Monte Carlo" come semplicemente "Monte Carlo" è una versione moderna di riferirsi a "osservazioni date" come "date". Ho modificato la mia risposta per incorporare questa e altre considerazioni sul significato rispetto all'utilizzo effettivo della parola "dati".
famargar

1
"I ricercatori accademici farebbero riferimento a una serie realistica di registrazioni fabbricate più frequentemente come pseudo-dati": non ricordo di aver mai visto questo termine in oltre 40 anni di ricerca accademica. "Gli accademici in genere non servono a registrazioni non realistiche": scusate, ma sembra abbastanza sbagliato. Gli accademici in molti, molti campi usano simulazioni di diversi tipi. Anche simulazioni non realistiche possono essere utili, ad esempio la variabilità dei campioni normali è un contesto importante per la valutazione della non normalità.
Nick Cox,

@NickCox Pseudodata è frequentemente usato in fisica e l'ho visto in biologia e statistica. Sarebbe curioso sapere qual è il tuo campo e come il tuo campo si riferisce alle simulazioni. Per quanto riguarda i dati non realistici, ho fatto una distinzione tra irrealistico e semi-realistico. Ho perso il tuo caso d'uso?
Famargar
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.