Apprezzo le altre risposte, ma mi sembra che un background topologico darebbe una struttura tanto necessaria alle risposte.
definizioni
Cominciamo con la definizione delle definizioni dei domini:
la variabile categoriale è una il cui dominio contiene elementi, ma non esiste alcuna relazione nota tra loro (quindi abbiamo solo categorie). Gli esempi dipendono dal contesto, ma direi nel caso generale, è difficile confrontare i giorni della settimana: è lunedì prima di domenica, in caso affermativo, che dire del prossimo lunedì? Forse un esempio più semplice, ma meno utilizzato sono i capi di abbigliamento: senza fornire un contesto che avrebbe un senso per un ordine, è difficile dire se i pantaloni vengono prima dei maglioni o viceversa.
la variabile ordinale è una che ha un ordine totale definito sul dominio, ovvero per ogni due elementi del dominio, possiamo dire che o sono identici o uno è più grande dell'altro. Una scala di Likert è un buon esempio di definizione di una variabile ordinale. "un po 'd'accordo" è decisamente più vicino a "fortemente d'accordo" che a "non essere d'accordo".
la variabile intervallo è una, il cui dominio definisce le distanze tra gli elementi (una metrica ), permettendoci così di definire gli intervalli.
Esempi di dominio
Come set più comune che utilizziamo, i numeri naturali e reali hanno un ordine e metriche totali standard. Questo è il motivo per cui dobbiamo stare attenti quando assegniamo i numeri alle nostre categorie. Se non stiamo attenti a ignorare l'ordine e la distanza, praticamente convertiamo i nostri dati categorici in dati di intervallo. Quando si utilizza un algoritmo di apprendimento automatico senza sapere come funziona, si rischia di fare involontariamente tali assunzioni, potenzialmente invalidando i propri risultati. Ad esempio, gli algoritmi di deep learning più popolari funzionano con numeri reali sfruttando il loro intervallo e le proprietà continue. Un altro esempio, pensa alle scale di Likert a 5 punti e al modo in cui l'analisi che applichiamo su di esse presuppone che la distanza tra fortemente d'accordo e d'accordoè lo stesso che non sono d'accordo e né accordo né in disaccordo . Difficile sostenere una simile relazione.
Un altro set con cui lavoriamo spesso sono le stringhe . Esistono numerose metriche di somiglianza delle stringhe che risultano utili quando si lavora con le stringhe. Tuttavia, questi non sono sempre utili. Ad esempio, per gli indirizzi, John Smith Street e John Smith Road sono abbastanza vicini in termini di somiglianza delle stringhe, ma ovviamente rappresentano due entità diverse che potrebbero essere a miglia di distanza.
Statistiche riassuntive
Ok, ora vediamo come alcune statistiche riassuntive si adattano a questo. Poiché la statistica funziona con i numeri, le sue funzioni sono ben definite su intervalli. Ma vediamo esempi su se / come possiamo generalizzarli a dati categorici o ordinali:
- modalità - sia quando si lavora con dati categorici che ordinali, possiamo dire quale elemento viene utilizzato più frequentemente. Quindi abbiamo questo. Quindi possiamo anche derivare tutte le altre misure che @Maddenker elenca nella loro risposta. L'intervallo di confidenza di @ gung potrebbe anche essere utile.
- mediana - come dice @peter-flom, finché hai un ordine, puoi derivare la tua mediana.
- media , ma anche deviazione standard, percentili, ecc. - li ottieni solo con i dati di intervallo, a causa della necessità di una metrica della distanza.
Esempio di contestualità dei dati
Alla fine, voglio sottolineare ancora una volta che l'ordine e le metriche definite sui dati sono molto contestuali. Ormai dovrebbe essere ovvio, ma lascia che ti dia un ultimo esempio: quando lavoriamo con posizioni geografiche, abbiamo molti modi diversi di affrontarli:
- se siamo interessati alla distanza tra loro, possiamo lavorare con la loro geolocalizzazione, che sostanzialmente ci dà uno spazio numerico bidimensionale, quindi intervallo.
- se siamo interessati alla loro parte della relazione, possiamo definire un ordine totale (ad es. una strada fa parte di una città, due città sono uguali, un continente contiene un paese)
- se siamo interessati a sapere se due stringhe rappresentano lo stesso indirizzo, potremmo lavorare con una certa distanza di stringa che tollererebbe gli errori di ortografia e lo scambio di posizioni delle parole, ma assicurandoci di distinguere termini e nomi diversi. Questa non è una cosa facile, ma solo per fare il caso.
- Ci sono molti altri casi d'uso che tutti noi incontriamo quotidianamente, dove nulla di tutto ciò ha senso. In alcuni di essi non c'è altro da fare che trattare gli indirizzi solo come categorie diverse, in altri si tratta di modellazione e preelaborazione dei dati molto intelligenti.