Qual è la differenza tra i dati discreti e continui di dati?
Qual è la differenza tra i dati discreti e continui di dati?
Risposte:
I dati discreti possono assumere solo valori particolari. Ci può essere potenzialmente un numero infinito di tali valori, ma ciascuno è distinto e non c'è zona grigia intermedia. I dati discreti possono essere numerici - come il numero di mele - ma possono anche essere categorici - come rosso o blu, o maschio o femmina, o buono o cattivo.
I dati continui non sono limitati a valori distinti definiti, ma possono occupare qualsiasi valore in un intervallo continuo. Tra due valori di dati continui ci può essere un numero infinito di altri. I dati continui sono sempre essenzialmente numerici.
A volte ha senso trattare i dati numerici correttamente di un tipo come se fossero dell'altro. Ad esempio, qualcosa come l' altezza è continua, ma spesso non ci interessa davvero molto delle minuscole differenze e invece raggruppiamo le altezze in un numero di bin discreti . Al contrario, se contiamo grandi quantità di qualche entità discreta - chicchi di riso, termiti o penny nell'economia - potremmo scegliere di non pensare a 2.000.006 e 2.000.008 come valori sostanzialmente diversi ma invece come punti vicini su un continuum approssimativo.
A volte può anche essere utile trattare i dati numerici come categorici, ad esempio sottopeso, normale, obeso. Questo di solito è solo un altro tipo di binning.
Raramente ha senso considerare i dati categorici come continui.
I dati sono sempre discreti. Dato un campione di n
valori su una variabile, il numero massimo di valori distinti che la variabile può assumere è uguale n
. Vedi questa citazione
Tutti gli spazi campione effettivi sono discreti e tutte le variabili casuali osservabili hanno distribuzioni discrete. La distribuzione continua è una costruzione matematica, adatta per il trattamento matematico, ma non praticamente osservabile. EJG Pitman (1979, p. 1).
I dati su una variabile si presumono in genere tratti da una variabile casuale. La variabile casuale è continua su un intervallo se esiste un numero infinito di possibili valori che la variabile può assumere tra due punti diversi nell'intervallo. Ad esempio, altezza, peso e tempo sono generalmente considerati continui. Naturalmente, qualsiasi misurazione di queste variabili sarà finemente accurata e in un certo senso discreta.
È utile distinguere tra
variabili discrete ordinate (cioè ordinali), non ordinate (cioè nominali) e binarie.
Alcuni libri di testo introduttivi confondono una variabile continua con una variabile numerica. Ad esempio, un punteggio su un gioco per computer è discreto anche se è numerico.
Alcuni libri di testo introduttivi confondono una variabile di rapporto con variabili continue. Una variabile di conteggio è una variabile di rapporto, ma non è continua.
Nella pratica reale, una variabile viene spesso considerata continua quando può assumere un numero sufficientemente grande di valori diversi.
Le temperature sono continue. Può essere 23 gradi, 23,1 gradi, 23,100004 gradi.
Il sesso è discreto. Puoi essere solo maschio o femmina (comunque nel pensiero classico). Qualcosa che potresti rappresentare con un numero intero come 1, 2, ecc
La differenza è importante poiché molti algoritmi statistici e di data mining possono gestire un tipo ma non l'altro. Ad esempio nella regressione regolare, Y deve essere continuo. Nella regressione logistica Y è discreta.
I dati discreti possono assumere solo determinati valori.
Esempio: il numero di studenti in una classe (non puoi avere metà studente).
I dati continui sono dati che possono assumere qualsiasi valore (all'interno di un intervallo)
Esempi:
Nel caso del database, archiviamo sempre i dati in modo discreto anche se la natura dei dati è continua. Perché dovrei enfatizzare la natura dei dati? Dovremmo prendere la distribuzione di dati che potrebbero aiutarci ad analizzare i dati. SE la natura dei dati è continua, ti suggerisco di usarli mediante analisi continue.
Prendi un esempio di continuo e discreto: MP3. Anche il tipo di "suono" è un'analogia, se memorizzato in formato digitale. Dovremmo analizzarlo sempre in modo analogico.
Da un lato, da un punto di vista pratico concordo con la risposta di Jeromy Anglim. Alla fine ci occupiamo quasi sempre di variabili discrete - sebbene dal punto di vista teorico siano continue - e ciò ha un impatto reale, ad esempio, per la classificazione. Ricorda il documento di Strobl che indica che le foreste casuali sono distorte verso variabili con più punti di taglio (maggiore precisione ma natura potenzialmente simile). In base alla mia esperienza personale, le reti neurali probabilistiche possono presentare un pregiudizio quando le variabili presentano una precisione diversa a meno che non siano dello stesso tipo (cioè continue). D'altra parte, da un punto di vista teorico la classificazione classica (ad esempio, continua, discreta, nominale ecc.) È, IMHO, giusto. In conformità, penso che il nome di origine dell'articolo di Quinlan che descriva l'algoritmo M5, che è un "regressore", è un'ottima scelta. Quindi la definizione e le implicazioni del continuo rispetto al discreto sono rilevanti a seconda dell '"ambiente".
refs:
Quinlan JR (1992). Apprendimento con lezioni continue. In: 5ª Conferenza congiunta australiana sull'intelligenza artificiale. Sydney (Australia), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A. e Hothorn T. (2007). Distorsione nelle misure casuali di importanza variabile nella foresta: illustrazioni, fonti e una soluzione. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
I dati discreti assumono valori particolari, mentre i dati continui non sono limitati a valori separati.
I dati discreti sono distinti e non vi è alcuna area grigia nel mezzo, mentre i dati continui occupano qualsiasi valore su un valore di dati continuo.
Dati discreti Possono assumere valori particolari. Sono numerici.
I dati discreti possono assumere solo valori interi mentre i dati continui possono assumere qualsiasi valore. Ad esempio, il numero di pazienti affetti da cancro trattati da un ospedale ogni anno è discreto, ma il peso è continuo. Alcuni dati sono continui ma misurati in modo discreto, ad esempio la tua età. È comune segnalare la tua età come diciamo 31.