È solo l'aggregazione di punti dati? O è la rappresentazione di punti dati per diversi elementi in un formato tabulare organizzato con valori delle diverse variabili? In che cosa differisce dai dati grezzi?
È solo l'aggregazione di punti dati? O è la rappresentazione di punti dati per diversi elementi in un formato tabulare organizzato con valori delle diverse variabili? In che cosa differisce dai dati grezzi?
Risposte:
Nella mia esperienza, "set di dati" (o "set di dati") è un termine informale che si riferisce a una raccolta di dati. Generalmente un set di dati contiene più di una variabile e riguarda un singolo argomento; è probabile che riguardi un singolo campione.
Un errore che vedo spesso gli autori di domande con convalida incrociata è l'utilizzo di "set di dati" come sinonimo di "variabile" o "vettore".
Penso che Wikipedia faccia un lavoro decente nel definirlo:
Più comunemente un set di dati corrisponde al contenuto di una singola tabella di database o di una singola matrice di dati statistici, in cui ogni colonna della tabella rappresenta una particolare variabile e ogni riga corrisponde a un determinato membro del set di dati in questione. Il set di dati elenca i valori per ciascuna delle variabili, come altezza e peso di un oggetto, per ciascun membro del set di dati. Ogni valore è noto come dato. Il set di dati può comprendere dati per uno o più membri, corrispondenti al numero di righe.
Il termine set di dati può anche essere usato più liberamente, per fare riferimento ai dati in una raccolta di tabelle strettamente correlate, corrispondenti a un particolare esperimento o evento. Un esempio di questo tipo sono i set di dati raccolti dalle agenzie spaziali che eseguono esperimenti con strumenti a bordo di sonde spaziali.
Nella disciplina dei dati aperti, il set di dati è l'unità per misurare le informazioni rilasciate in un archivio pubblico di dati aperti. Il portale europeo Open Data aggrega oltre mezzo milione di set di dati. In questo campo sono state proposte altre definizioni ma attualmente non ce n'è una ufficiale. Alcuni altri problemi (fonti di dati in tempo reale, set di dati non relazionali, ecc.) Aumentano la difficoltà a raggiungere un consenso al riguardo.
Come puoi vedere, il termine è piuttosto vago.
Penso che potresti dover definire un punto dati prima di poter definire un set di dati : perché una primitiva non ha bisogno di definizione, ma non viceversa?
Almeno due definizioni hanno senso per me:
Una o più osservazioni (casi, record, righe) per una o più variabili (campi. Colonne).
Qualunque cosa sia memorizzata come dati all'interno di un file leggibile da un programma di scelta.
Il layout tabulare è comune ma non penso che faccia parte di alcuna definizione; come vengono archiviati i dati può essere praticamente importante, naturalmente.
PS La parola "formato" è così sovraccarica che per me è meglio evitarlo se non specificato in modo univoco. L'ho visto usato per
Formato di file binario o di testo generale o specifico
Struttura dei dati, ad esempio tabulare o altro
Memorizzazione dei dati o tipi di variabili, ad es. Bit, intero, reale, carattere
Formato di visualizzazione che controlla la presentazione, ad es. Dettagli sul numero di cifre decimali; visualizzazione decimale, esadecimale o binaria.
Ci sono già alcune buone risposte qui e non credo di poter penetrare più in profondità di Nick Cox o Franck Dernoncourt sulla questione se "set di dati" si riferisce alla raccolta concettuale di dati correlati o alla disposizione particolare di tali dati, ad es. una tabella / matrice o un file leggibile dal computer. L'estratto di Franck menziona casi limite come dati raccolti in modo continuo o dati distribuiti su più tabelle, che vale la pena tenere presente se pensavi che ci sarebbe stata una definizione semplice. (Non tutti i software statistici sono in grado di gestirlo, ma è molto facile immaginare un caso in cui i dati sono archiviati in un database relazionale con più tabelle. L'intero database è un singolo "set di dati"?)
Una cosa che aggiungerò però è che i set di dati non sono generalmente impostati, in senso matematico! Sensu stricto o un set contiene un oggetto oppure no, ma non può contenere più di una copia di quell'oggetto. Se lancio un dado otto volte e punteggio 1, 4, 3, 5, 5, 4, 6, 4, il set di punteggi ottenuto è solo {1, 3, 4, 5, 6}. Si noti che gli elementi potrebbero essere in qualsiasi ordine, li ho appena scritti in ordine crescente di valore ma l'insieme {5, 4, 1, 6, 3} è matematicamente uguale ad esso, per esempio. Questo non è ciò che di solito intendiamo per set di dati!
Ma i vettori sono solo per la registrazione di una variabile - per diversi, può essere più conveniente usare una matrice per tabulare con l'ordine conservato. Per situazioni più sofisticate come la misurazione nel tempo di una proprietà di una griglia tridimensionale di voxel , potresti persino passare alla disposizione dei dati in un tensore (vedi ad esempio questa domanda ).
Ma nota che concettualmente un multiset può essere sufficiente nella maggior parte delle situazioni semplici, anche se è scomodo per scopi pratici. Se avessi lanciato una moneta contemporaneamente al lancio del dado e volessi registrare i due risultati insieme, avrei potuto usare un multiset come {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} invece di una matrice. Un set ordinario non sarà sufficiente, poiché non conta la molteplicità di (4, H), per esempio.