Panoramica
Esistono molte rappresentazioni possibili, e quindi schemi di database, per la memorizzazione di date-time fuzzy (o anche solo date fuzzy):
- Data-ora e codice che indicano la sua precisione o accuratezza
- Data-ora e intervallo in cui esistono diverse possibilità per rappresentare un intervallo:
- Rappresenta tutti gli intervalli come quantità intera (o altra quantità numerica) di alcune unità fisse, ad esempio giorni, minuti, nanosecondi.
- Rappresenta un intervallo sia come quantità intera (o altra quantità numerica) sia come codice che indica le sue unità.
- Data e ora di inizio e fine
- Corda
- Distribuzione di probabilità:
- Quantità decimali o in virgola mobile per i parametri che specificano una distribuzione specifica in una particolare famiglia, ad esempio media e deviazione standard di una distribuzione normale.
- Funzione di distribuzione della probabilità, ad es. Come codice (di ricerca) (potenzialmente con parametri di valori specifici) o come espressione in un linguaggio, formato o rappresentazione sufficientemente espressivi.
[1], [2] e [3] sono tutti (implicitamente) intervalli uniformi, ovvero un insieme di (ugualmente) possibili punti nel tempo.
[4] è il più espressivo, vale a dire quando si consente qualsiasi frase o frase scritta (o almeno arbitrariamente lunga) scritta. Ma è anche il più difficile con cui lavorare. Nel limite, l'intelligenza artificiale a livello umano sarebbe richiesta per gestire valori arbitrari. In pratica, l'intervallo di valori possibili dovrebbe essere severamente limitato e probabilmente i valori "strutturati" alternativi sarebbero probabilmente preferiti per molte operazioni, ad esempio ordinamento, ricerca.
[5] è probabilmente la rappresentazione compatta più generale che è (in qualche modo) pratica.
Intervalli uniformi
Gli intervalli uniformi sono il modo più semplice e compatto per rappresentare un insieme di (possibili) valori data-ora.
Per [1], le parti del valore data-ora vengono ignorate, vale a dire le parti corrispondenti alle unità più fini della precisione o accuratezza indicata; altrimenti questo equivale a [2] e il codice di precisione / accuratezza equivale a un intervallo con le stesse unità (e una quantità implicita di 1).
[2] e [3] sono espressamente equivalenti. [1] è strettamente meno espressivo di uno dei due in quanto vi sono intervalli effettivi che non possono essere rappresentati da [1], ad es. una data-ora sfocata equivalente a un intervallo di 12 ore che attraversa un limite di data.
[1] è più facile da inserire per gli utenti rispetto a qualsiasi altra rappresentazione e in genere dovrebbe richiedere (almeno leggermente) meno digitazione. Se è possibile inserire date-ora in varie rappresentazioni di testo, ad esempio "2013", "2014-3", "2015-5-2", "30/07/2016 11p", "2016-07-31 18:15" , la precisione o accuratezza potrebbe anche essere dedotta automaticamente dall'input.
L'accuratezza o la precisione di [1] è anche la più facile da convertire in un modulo da trasmettere agli utenti, ad esempio "2015-5 con accuratezza mensile" in "Maggio 2015", rispetto a "13 maggio 2015 2p, più o meno 13,5 giorni" (nota che quest'ultimo non può essere rappresentato comunque da [1]).
stringhe
In pratica, i valori di stringa dovranno essere convertiti in altre rappresentazioni per l'interrogazione, l'ordinamento o il confronto di più valori. Quindi, mentre qualsiasi linguaggio naturale (umano) scritto è strettamente più espressivo di [1], [2], [3] o [5], non abbiamo ancora i mezzi per gestire molto oltre le rappresentazioni o i formati di testo standard. Detto questo, questa è probabilmente la rappresentazione meno utile da sola .
Un vantaggio di questa rappresentazione è che i valori dovrebbero, in pratica, essere presentati agli utenti così come sono e non richiedere che la trasformazione sia facilmente comprensibile.
Distribuzioni di probabilità
Le distribuzioni di probabilità generalizzano le rappresentazioni di intervallo uniforme [1], [2], [3] e (probabilmente) equivalgono alla rappresentazione (generale) di stringhe [4].
Un vantaggio delle distribuzioni di probabilità sulle stringhe è che il primo non è ambiguo.
[5-1] sarebbe appropriato per valori che (principalmente) si conformano a una distribuzione esistente, ad esempio un valore di data e ora emesso da un dispositivo per il quale le misurazioni sono note (o ritenute) conformi a una distribuzione specifica.
[5-2] è probabilmente il modo migliore (in qualche modo) pratico per rappresentare in modo compatto valori arbitrari di "datetime fuzzy". Naturalmente la calcolabilità delle specifiche distribuzioni di probabilità ha usato la materia e ci sono sicuramente problemi interessanti (e forse impossibili) da risolvere quando si interrogano, si ordinano o si confrontano valori diversi, ma molto di questo è probabilmente già noto o risolto da qualche parte nell'esistente letteratura matematica e statistica, quindi questo rappresenta sicuramente una rappresentazione estremamente generale e non ambigua.