Qual è la differenza tra i dati discreti e continui di dati?


63

Qual è la differenza tra i dati discreti e continui di dati?


2
Hai provato prima Google? Per me, dà questo .
Robin Girard,

Ecco un bel video, che risponde alla tua domanda. youtube.com/watch?v=MIX3ZpzEOdM

2
Basti pensare digitale vs analogico. Stessa cosa - nomi diversi.
Pithikos

Io veramente non so quale sia la differenza tra i dati "continui" "discreto" e. Per alcune ragioni, le classi stat intro sembrano godere realmente rendere gli studenti a imparare a memoria le regole per distinguere queste due cose. Per quanto ho potuto capire, le differenze non sono nei dati - ma nel modo in cui scelgono di modellare i dati.
user795305

1
Questo è stato il risultato superiore in Google, @robingirard.
Denson

Risposte:


58

I dati discreti possono assumere solo valori particolari. Ci può essere potenzialmente un numero infinito di tali valori, ma ciascuno è distinto e non c'è zona grigia intermedia. I dati discreti possono essere numerici - come il numero di mele - ma possono anche essere categorici - come rosso o blu, o maschio o femmina, o buono o cattivo.

I dati continui non sono limitati a valori distinti definiti, ma possono occupare qualsiasi valore in un intervallo continuo. Tra due valori di dati continui ci può essere un numero infinito di altri. I dati continui sono sempre essenzialmente numerici.

A volte ha senso trattare i dati numerici correttamente di un tipo come se fossero dell'altro. Ad esempio, qualcosa come l' altezza è continua, ma spesso non ci interessa davvero molto delle minuscole differenze e invece raggruppiamo le altezze in un numero di bin discreti . Al contrario, se contiamo grandi quantità di qualche entità discreta - chicchi di riso, termiti o penny nell'economia - potremmo scegliere di non pensare a 2.000.006 e 2.000.008 come valori sostanzialmente diversi ma invece come punti vicini su un continuum approssimativo.

A volte può anche essere utile trattare i dati numerici come categorici, ad esempio sottopeso, normale, obeso. Questo di solito è solo un altro tipo di binning.

Raramente ha senso considerare i dati categorici come continui.


@walktalky as @jeromy allude, almeno in psicologia, a variabili categoriali come le risposte alle domande spesso si presume che siano una rappresentazione di un tratto sottostante, quindi in tal senso i dati categorici sono talvolta considerati continui.
richiemorrisroe,

@richiemorrisroe Si potrebbe fare chiarezza sulla differenza tra i dati e il carattere putativo, ma ovviamente hai ragione. Alcuni ulteriori punti molto interessanti sono stati fatti in risposta a questa domanda di follow-up .
walkytalky,

grazie per il link, quelle risposte sono davvero molto interessanti.
richiemorrisroe,

> " Potrebbe esserci potenzialmente un numero infinito di quei valori, ma ognuno è distinto e non c'è una zona grigia tra " - è in realtà perfettamente possibile avere una distribuzione discreta con valori distinti, e allo stesso tempo , per due valori distinti che scegli, hanno sempre più valori tra loro ('area grigia' in un certo senso). In pratica non escono molto spesso, ma è perfettamente possibile che si realizzino davvero; in effetti posso pensare a due esempi distinti (se correlati) che possono facilmente sorgere.
Glen_b,

quindi per chiarire, anche se avessi 10 miliardi di righe di dati Ohlc per un asset di borsa, sarebbe ancora considerato discreto? ma allora il prezzo di un'attività non può essere compreso tra 1 e l'infinito, come pensare in questo tipo di situazione?
PirateApp

19

I dati sono sempre discreti. Dato un campione di nvalori su una variabile, il numero massimo di valori distinti che la variabile può assumere è uguale n. Vedi questa citazione

Tutti gli spazi campione effettivi sono discreti e tutte le variabili casuali osservabili hanno distribuzioni discrete. La distribuzione continua è una costruzione matematica, adatta per il trattamento matematico, ma non praticamente osservabile. EJG Pitman (1979, p. 1).

I dati su una variabile si presumono in genere tratti da una variabile casuale. La variabile casuale è continua su un intervallo se esiste un numero infinito di possibili valori che la variabile può assumere tra due punti diversi nell'intervallo. Ad esempio, altezza, peso e tempo sono generalmente considerati continui. Naturalmente, qualsiasi misurazione di queste variabili sarà finemente accurata e in un certo senso discreta.

È utile distinguere tra
variabili discrete ordinate (cioè ordinali), non ordinate (cioè nominali) e binarie.

Alcuni libri di testo introduttivi confondono una variabile continua con una variabile numerica. Ad esempio, un punteggio su un gioco per computer è discreto anche se è numerico.

Alcuni libri di testo introduttivi confondono una variabile di rapporto con variabili continue. Una variabile di conteggio è una variabile di rapporto, ma non è continua.

Nella pratica reale, una variabile viene spesso considerata continua quando può assumere un numero sufficientemente grande di valori diversi.

Riferimenti

  • Pitman, EJG 1979. Qualche teoria di base per l'inferenza statistica. Londra: Chapman and Hall. Nota: ho trovato la citazione nell'introduzione del capitolo 2 del libro di Murray Aitkin Statistical Inference: An Bayesian / Likelihood Approach integrato

12
Anche una probabilità è una "costruzione matematica" e non "direttamente osservabile". Questo significa che la probabilità non esiste? Nel complesso, questa risposta sembra interessante basa su una premessa insostenibile che i dati devono essere caratterizzati dai valori che non hanno, piuttosto che dai valori di un modello matematico permette loro di avere. Quest'ultima è la caratteristica cruciale, non la prima. Tutto ciò suggerisce che ciò che conta nella distinzione continua / discreta è il modo in cui pensiamo ai dati (cioè come li modelliamo).
whuber

3
C'è una piccola favola intelligente che illustra il punto di @ whuber: Lord (1953), "Sul trattamento statistico dei numeri di calcio", American Psychologist , 8 , pp750-51.
Scortchi - Ripristina Monica

Grazie, @ Scortchi. Le versioni Web sono disponibili tramite una ricerca Google Scholar . Lord sta affrontando un malinteso, dibattuto con entusiasmo 60 anni fa, sulla misura in cui la "teoria della misurazione" dovrebbe influenzare (o addirittura limitare la portata) dell'analisi statistica. Il mio punto era diverso riguardo alla distinzione tra costrutti modello e osservazioni.
whuber

12

Le temperature sono continue. Può essere 23 gradi, 23,1 gradi, 23,100004 gradi.

Il sesso è discreto. Puoi essere solo maschio o femmina (comunque nel pensiero classico). Qualcosa che potresti rappresentare con un numero intero come 1, 2, ecc

La differenza è importante poiché molti algoritmi statistici e di data mining possono gestire un tipo ma non l'altro. Ad esempio nella regressione regolare, Y deve essere continuo. Nella regressione logistica Y è discreta.


5
Quando si registra la temperatura al livello più vicino, può essere considerata discreta - e forse deve essere considerata per determinate forme di analisi. Inoltre, nella regressione "normale" (OLS?), non deve essere continuo: molti - e praticamente tutte le sue proprietà utili - si applicano a molti tipi di dati discreti, anche alle risposte binarie. Ciò che questi punti e contrappunti iniziano a suggerire è che i dati non sono necessariamente discreti o continui, ma piuttosto le procedure statistiche sono discrete o continue. Y
whuber

8

I dati discreti possono assumere solo determinati valori.

Esempio: il numero di studenti in una classe (non puoi avere metà studente).

I dati continui sono dati che possono assumere qualsiasi valore (all'interno di un intervallo)

Esempi:

  • Altezza di una persona: potrebbe essere qualsiasi valore (entro la gamma delle altezze umane), non solo determinate altezze fisse,
  • Tempo in una gara: potresti persino misurarlo in frazioni di secondo,
  • Il peso di un cane,
  • La lunghezza di una foglia,
  • Il peso di una persona,

2
Potresti anche dirci da dove hai copiato incollato la risposta da: mathsisfun.com/data/data-discrete-continuous.html
philmcole

Ben descritto.
Arsman Ahmad,

0

Nel caso del database, archiviamo sempre i dati in modo discreto anche se la natura dei dati è continua. Perché dovrei enfatizzare la natura dei dati? Dovremmo prendere la distribuzione di dati che potrebbero aiutarci ad analizzare i dati. SE la natura dei dati è continua, ti suggerisco di usarli mediante analisi continue.

Prendi un esempio di continuo e discreto: MP3. Anche il tipo di "suono" è un'analogia, se memorizzato in formato digitale. Dovremmo analizzarlo sempre in modo analogico.


0

Da un lato, da un punto di vista pratico concordo con la risposta di Jeromy Anglim. Alla fine ci occupiamo quasi sempre di variabili discrete - sebbene dal punto di vista teorico siano continue - e ciò ha un impatto reale, ad esempio, per la classificazione. Ricorda il documento di Strobl che indica che le foreste casuali sono distorte verso variabili con più punti di taglio (maggiore precisione ma natura potenzialmente simile). In base alla mia esperienza personale, le reti neurali probabilistiche possono presentare un pregiudizio quando le variabili presentano una precisione diversa a meno che non siano dello stesso tipo (cioè continue). D'altra parte, da un punto di vista teorico la classificazione classica (ad esempio, continua, discreta, nominale ecc.) È, IMHO, giusto. In conformità, penso che il nome di origine dell'articolo di Quinlan che descriva l'algoritmo M5, che è un "regressore", è un'ottima scelta. Quindi la definizione e le implicazioni del continuo rispetto al discreto sono rilevanti a seconda dell '"ambiente".

refs:

Quinlan JR (1992). Apprendimento con lezioni continue. In: 5ª Conferenza congiunta australiana sull'intelligenza artificiale. Sydney (Australia), 343–348.

Strobl C., Boulesteix A.-L., Zeileis A. e Hothorn T. (2007). Distorsione nelle misure casuali di importanza variabile nella foresta: illustrazioni, fonti e una soluzione. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25


-1

I dati discreti assumono valori particolari, mentre i dati continui non sono limitati a valori separati.

I dati discreti sono distinti e non vi è alcuna area grigia nel mezzo, mentre i dati continui occupano qualsiasi valore su un valore di dati continuo.


-2

Dati discreti Possono assumere valori particolari. Sono numerici.


Benvenuto in CV! Grazie per aver risposto, ma per favore prenditi il ​​tempo di guardare le risposte precedenti e di considerare se stai aggiungendo qualcosa di utile.
Scortchi - Ripristina Monica

-3

I dati discreti possono assumere solo valori interi mentre i dati continui possono assumere qualsiasi valore. Ad esempio, il numero di pazienti affetti da cancro trattati da un ospedale ogni anno è discreto, ma il peso è continuo. Alcuni dati sono continui ma misurati in modo discreto, ad esempio la tua età. È comune segnalare la tua età come diciamo 31.


11
I dati possono essere discreti senza essere limitati a numeri interi. O numeri, del resto. È sempre possibile rappresentare dati discreti con numeri interi, ma ciò non significa che i dati possano assumere solo tali valori.
walkytalky,

-4

I dati discreti parlano in modo perticolare dei valori finiti e i dati continui parlano dei valori di ifinite .....


2
Ti interessa elaborare?
chl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.