Cosa si intende esattamente per "set di dati"?


10

È solo l'aggregazione di punti dati? O è la rappresentazione di punti dati per diversi elementi in un formato tabulare organizzato con valori delle diverse variabili? In che cosa differisce dai dati grezzi?


Cosa intendi con "punto dati", ti aspetti che sia almeno in 2D? Una serie temporale o una serie di punteggi degli esami può essere una serie di dati; almeno quelle potrebbero essere solo serie in una variabile, possibilmente senza etichette di riga. Per la risposta di @FranckDernoncourt
smci

1
Penso solo che sia una raccolta di dati. Questo è certamente il modo in cui uso il termine. Non credo ci sia troppo in questo. Se i dati sono "grezzi", preelaborati o puliti, ecc., È ortogonale.
gung - Ripristina Monica

Risposte:


9

Nella mia esperienza, "set di dati" (o "set di dati") è un termine informale che si riferisce a una raccolta di dati. Generalmente un set di dati contiene più di una variabile e riguarda un singolo argomento; è probabile che riguardi un singolo campione.

Un errore che vedo spesso gli autori di domande con convalida incrociata è l'utilizzo di "set di dati" come sinonimo di "variabile" o "vettore".


3
Concordato sul set di dati vs variabile o vettore. Non iniziare con "a data", come in "I have a data". Al contrario, "I have a dataset" è un modo meraviglioso di non irritare in entrambi i modi, irritando coloro che insistono sul fatto che i dati sono plurali o irritando coloro che considerano tale insistenza come pedante, se ci pensano affatto.
Nick Cox,

3
@NickCox Nelle guerre grammaticali sui "dati", sono nella fazione meno popolare, che afferma che "dati" è un nome di massa.
Kodiologo il

3
Ho il sospetto che sia la maggioranza adesso e più fortemente penso che stia guadagnando popolarità.
Nick Cox,

8

Penso che Wikipedia faccia un lavoro decente nel definirlo:

Più comunemente un set di dati corrisponde al contenuto di una singola tabella di database o di una singola matrice di dati statistici, in cui ogni colonna della tabella rappresenta una particolare variabile e ogni riga corrisponde a un determinato membro del set di dati in questione. Il set di dati elenca i valori per ciascuna delle variabili, come altezza e peso di un oggetto, per ciascun membro del set di dati. Ogni valore è noto come dato. Il set di dati può comprendere dati per uno o più membri, corrispondenti al numero di righe.

Il termine set di dati può anche essere usato più liberamente, per fare riferimento ai dati in una raccolta di tabelle strettamente correlate, corrispondenti a un particolare esperimento o evento. Un esempio di questo tipo sono i set di dati raccolti dalle agenzie spaziali che eseguono esperimenti con strumenti a bordo di sonde spaziali.

Nella disciplina dei dati aperti, il set di dati è l'unità per misurare le informazioni rilasciate in un archivio pubblico di dati aperti. Il portale europeo Open Data aggrega oltre mezzo milione di set di dati. In questo campo sono state proposte altre definizioni ma attualmente non ce n'è una ufficiale. Alcuni altri problemi (fonti di dati in tempo reale, set di dati non relazionali, ecc.) Aumentano la difficoltà a raggiungere un consenso al riguardo.

Come puoi vedere, il termine è piuttosto vago.


E in un'impostazione di visione artificiale, un set di dati potrebbe essere solo una raccolta di immagini naturali e le loro etichette o annotazioni.
Sycorax dice di reintegrare Monica il

Cosa si intende per "database *?
ankit,

@ankit Il significato CS tradizionale en.wikipedia.org/wiki/Database
Franck Dernoncourt

@Sycorax Sì, immagino che potremmo considerare un'immagine (o qualche altro segnale) come un dato BLOB nel database.
Franck Dernoncourt,

7

Penso che potresti dover definire un punto dati prima di poter definire un set di dati : perché una primitiva non ha bisogno di definizione, ma non viceversa?

Almeno due definizioni hanno senso per me:

  1. Una o più osservazioni (casi, record, righe) per una o più variabili (campi. Colonne).

  2. Qualunque cosa sia memorizzata come dati all'interno di un file leggibile da un programma di scelta.

Il layout tabulare è comune ma non penso che faccia parte di alcuna definizione; come vengono archiviati i dati può essere praticamente importante, naturalmente.

PS La parola "formato" è così sovraccarica che per me è meglio evitarlo se non specificato in modo univoco. L'ho visto usato per

  1. Formato di file binario o di testo generale o specifico

  2. Struttura dei dati, ad esempio tabulare o altro

  3. Memorizzazione dei dati o tipi di variabili, ad es. Bit, intero, reale, carattere

  4. Formato di visualizzazione che controlla la presentazione, ad es. Dettagli sul numero di cifre decimali; visualizzazione decimale, esadecimale o binaria.


6

Ci sono già alcune buone risposte qui e non credo di poter penetrare più in profondità di Nick Cox o Franck Dernoncourt sulla questione se "set di dati" si riferisce alla raccolta concettuale di dati correlati o alla disposizione particolare di tali dati, ad es. una tabella / matrice o un file leggibile dal computer. L'estratto di Franck menziona casi limite come dati raccolti in modo continuo o dati distribuiti su più tabelle, che vale la pena tenere presente se pensavi che ci sarebbe stata una definizione semplice. (Non tutti i software statistici sono in grado di gestirlo, ma è molto facile immaginare un caso in cui i dati sono archiviati in un database relazionale con più tabelle. L'intero database è un singolo "set di dati"?)

Una cosa che aggiungerò però è che i set di dati non sono generalmente impostati, in senso matematico! Sensu stricto o un set contiene un oggetto oppure no, ma non può contenere più di una copia di quell'oggetto. Se lancio un dado otto volte e punteggio 1, 4, 3, 5, 5, 4, 6, 4, il set di punteggi ottenuto è solo {1, 3, 4, 5, 6}. Si noti che gli elementi potrebbero essere in qualsiasi ordine, li ho appena scritti in ordine crescente di valore ma l'insieme {5, 4, 1, 6, 3} è matematicamente uguale ad esso, per esempio. Questo non è ciò che di solito intendiamo per set di dati!

X¯=1nΣio=1nXioX1X2

Ma i vettori sono solo per la registrazione di una variabile - per diversi, può essere più conveniente usare una matrice per tabulare con l'ordine conservato. Per situazioni più sofisticate come la misurazione nel tempo di una proprietà di una griglia tridimensionale di voxel , potresti persino passare alla disposizione dei dati in un tensore (vedi ad esempio questa domanda ).

Ma nota che concettualmente un multiset può essere sufficiente nella maggior parte delle situazioni semplici, anche se è scomodo per scopi pratici. Se avessi lanciato una moneta contemporaneamente al lancio del dado e volessi registrare i due risultati insieme, avrei potuto usare un multiset come {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} invece di una matrice. Un set ordinario non sarà sufficiente, poiché non conta la molteplicità di (4, H), per esempio.


1
Potrei comprare l'idea che un set di dati è un insieme di osservazioni con solo la ruga che potrebbe aver bisogno dei loro identificatori per renderle distinte. Ma hai ragione sul fatto che il significato qui è un po 'distante da quello nella teoria degli insiemi. Sottolinea, come accennerai qui, che l'ordine delle osservazioni è spesso cruciale e spesso, ma non sempre, sarà dato da un tempo o da altre variabili di ordinamento.
Nick Cox,

@NickCox (+1) In effetti quello che non ho ancora trovato il tempo, o inoltre il modo di esprimere, è che le osservazioni spesso arrivano con un identificatore - a volte temporale, a volte basato sulla posizione, a volte entrambi. Quando codifichiamo i dati in un vettore, matrice o tensore, che spesso fornisce direttamente la struttura che desideriamo e un identificatore esplicito (come un indice hardcoded) può essere reso superfluo, in particolare se è solo l'ordine o la posizione relativa che contano. Senza dubbio esiste una terminologia corretta per tutto questo.
Silverfish,

Non ho problemi a dire che l'ordine non ha importanza. Non ha una singola variabile. L'ordine conta quando si hanno valori X associati con, diciamo, il tempo di misurazione. Ma poi, possiamo davvero pensare che i punti siano multidimensionali e l'ordine di un insieme di dati multidimensionali non ha più importanza. Inoltre non ho problemi a pensare che ci sia in realtà un identificatore implicito che rende unici i 5.
gung - Ripristina Monica

@gung Stavo pensando a set di dati in cui il tempo o l'ordine seriale sono impliciti. Direi che era una pratica scadente, e ora non necessaria, non avere una variabile di ordinamento esplicita, ma la mancanza di tale variabile di ordine non esclude dall'essere un set di dati. In effetti, negli anni '70, elaboravo abitualmente serie spaziali con identificatore implicito perché i miei programmi Fortran rendevano superfluo il lavoro (non banale) di inserirne uno.
Nick Cox,

Mi sembra perfetto, @NickCox. Direi che la variabile d'ordine è implicita, in quel caso, ma in un certo senso è ancora lì.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.