I tipi di dati (nominali / ordinali / intervallo / rapporto) dovrebbero davvero essere considerati tipi di variabili?


10

Quindi, ad esempio, ecco le definizioni che ottengo dai libri di testo standard

Variabile - caratteristica della popolazione o del campione. ex. Prezzo di uno stock o grado in un test

Dati - valori osservati effettivi

Quindi, per un rapporto a due colonne [Nome | Reddito] i nomi delle colonne sarebbero le variabili e i valori effettivamente osservati {dave | 100K}, {jim | 200K} sarebbero i dati

Quindi, se dico che la colonna [Nome] è un dato nominale e che [reddito] è un dato di rapporto, non sarei più preciso nel descriverlo come un tipo di variabile anziché come un tipo di dati come fa la maggior parte dei libri di testo? Capisco che questa potrebbe essere una semantica, e va bene lo è anche tutto. Ma temo che potrei perdere qualcosa qui.


Non mi sembra una differenza significativa; Considererei accettabile l'una o l'altra frase, personalmente. La definizione di "variabile" sembra un po 'fuori posto.
Nick Stauner,

2
@Nick Credo che se traduciamo la "caratteristica" colloquiale nella "funzione di valore reale" matematica, otteniamo parte della definizione di una variabile casuale. (La parte mancante, ovviamente, è la misurabilità rispetto ad un campo sigma sulla popolazione.) Normalmente, però, tradurremmo "caratteristica di un campione" nel termine tecnico statistico : forse è quello a cui ti riferisci come un "poco fuori." Con queste traduzioni, le variabili non hanno affatto "tipi" nel senso di Stevens (possiamo solo distinguere le distribuzioni discrete da quelle continue ) - ma alcuni dati possono.
whuber

Risposte:


16

Stevens' tipologia scala non è necessariamente una certa caratteristica intrinseca delle variabili, e nemmeno si dati, ma di come trattiamo le informazioni - di quello che stiamo usando per dire .

In alcune circostanze, esattamente lo stesso valore può essere considerato rapporto, intervallo, ordinale o nominale, a seconda di ciò che stiamo facendo con esso - è una questione di quale significato diamo i valori, che può cambiare da un'analisi alla successiva. La tipologia di Stevens ha un certo valore, ma non deve essere eccessivamente prescrittiva al riguardo.

Questo problema dell'importanza della scala come significato risale almeno a Lord (1953), che offrì un esempio in cui c'erano interpretazioni sia nominali che a intervalli dello stesso insieme di numeri.

Questo punto è stato ancora più chiaramente chiarito da Velleman e Wilkinson (1993), che offrono un esempio di persone che ricevono biglietti numerati consecutivi all'ingresso di un ricevimento con un premio assegnato a uno dei biglietti; a seconda dell'uso dei numeri sui biglietti, essi hanno interpretazioni su tutte e quattro le scale.

Ad esempio, "ho vinto?" è una domanda che considera il numero come nominale, mentre "sono arrivato troppo presto per ottenere il biglietto vincente?" è una domanda che lo considera ordinale; d'altra parte (e non credo che questo sia sul giornale) usando 5 numeri di biglietti casuali per stimare il numero di persone nella stanza li tratterà come rapporto (ad esempio se ci fossero 4 numeri estratti casualmente che hanno ottenuto premi di consolazione, avresti complessivamente 5 numeri casuali da cui stimare la partecipazione totale).

Sostengono che "una buona analisi dei dati non assume tipi di dati", "le categorie di Stevens non descrivono attributi fissi di dati", "le categorie di Stevens non sono sufficienti per descrivere le scale di dati" e "le procedure statistiche non possono essere classificate secondo i criteri di Stevens" (anzi ogni affermazione è anche un titolo di sezione).

Le critiche furono anche offerte in diversi punti da Tukey (ad es. Nel capitolo 5 del libro Mosteller e Tukey del 1977 Analisi e regressione dei dati ); Mosteller e Tukey hanno offerto una tipologia: nomi , voti (etichette ordinate), gradi (a partire da 1, che può rappresentare il più grande o il più piccolo), frazioni conteggiate (delimitate da zero e una, comprese le percentuali), conteggi (non negativi numeri interi), importi (numeri reali non negativi), saldi (valori illimitati, positivi o negativi).

Nel mio lavoro, ho visto situazioni in cui gravi problemi con l'analisi erano causati da persone che non riuscivano ad apprezzare la grande differenza tra le variabili relative ai livelli (a volte chiamate variabili "stock") e ai flussi : un semplice esempio di questi tipi è la differenza nel tipo di analisi appropriato per le quantità di acqua effettivamente presenti in un serbatoio di stoccaggio in ciascuna sequenza di periodi e la quantità di acqua che scorre in essa. Questi (in alcuni di questi casi) sarebbero entrambi sottocategorie del tipo di " quantità " di Mosteller e Tukey (e in quegli stessi casi, entrambe le variabili di rapporto nello schema di Stevens), indicando che i problemi di tipologia possono essere abbastanza sottili, ma può ancora avere un impatto critico su analisi appropriate.

PFVelleman e L. Wilkinson (1993),
"Le tipologie nominali, ordinali, di intervallo e di rapporto sono fuorvianti",
The American Statistician , vol. 47 n. 1 pagg. 65-72

(una versione funzionante sembra essere disponibile sulla pagina Web dei 2 autori qui )

Lord, F. (1953),
"Sul trattamento statistico dei numeri di calcio",
American Psychologist , 8 , pp. 750-751

(L'anno di questo documento è riportato erroneamente nei riferimenti della versione del documento di Velleman e Wilkinson a cui ho collegato, ma a cui si fa correttamente riferimento nel corpo del documento)


Grazie. Risposta molto approfondita. Stavo pensando in tal senso, ma quando si effettuano ricerche su questa roba molte volte mi sembra che sia concreto e che sia stato raggiunto il consenso. Ecco perché sono finito qui.
Utente 42

La tipologia di Stevens è stata discussa e contestata sin dalla sua prima pubblicazione. È un framework a volte utile, non un teorema.
Glen_b

C'è qualche "nuovo preferito" oltre a Stevens e Mosteller? Nell'esempio dei livelli / flussi, se ti capisco correttamente, entrambi hanno lo stesso tipo, ma devono essere trattati in modo diverso? Puoi spiegare questa differenza? E come ad esempio la trasformazione dei log di un valore si inserisce in questa tipologia? Grazie.
Erich Schubert,

1. Non conosco alcun tentativo recente di realizzarne uno e penso che non siano necessariamente utili poiché tendono a portare le persone con le scarpe a delle analisi meno appropriate (vedi l'articolo di Lord per un esempio di giocattolo, ma le conseguenze per le analisi sono molto reale - quegli elenchi di analisi per tipo non causano la fine di terribili analisi statistiche, mentre eliminano vaste strisce di statistiche dalla possibilità di considerazione in situazioni appropriate). .. ctd
Glen_b -Reinstate Monica

ctd ... 2. Un esempio di come i livelli e i flussi sono abbastanza diversi: Nota che se guardassi il livello ogni giorno, il livello di oggi sarebbe il livello precedente più il flusso in entrata o in uscita (o la somma di entrambi , se entrambi sono possibili). Quindi le misurazioni del livello sono necessariamente dipendenti, spesso altamente. Non ha senso trattarli come se fossero indipendenti, eppure vedo che le persone lo fanno sempre. 3. Non sono sicuro di quello che stai chiedendo con il registro. Puoi essere più esplicito su quello? Quale tipologia (nota che ne cito più di una)?
Glen_b -Restate Monica

1

Il tipo di dati è correlato ma non identico al tipo di variabile. La maggior parte dei casi, sono gli stessi ma non devono esserlo.

Ad esempio, se si raccolgono N campioni da una distribuzione normale. Penseresti che sia un dato numerico (rapporto o scala). Ma posso anche dire che è una variabile categoriale con N categorie diverse, con frequenza 1 per ogni categoria. Sembra stupido ma è anche una variabile valida.


Questo sembra un po 'in contrasto con Stevens (a cui è attribuita la formulazione di questa tipologia), che ha scritto "il vero problema è il significato della misurazione". Sebbene sia sempre possibile scegliere di trattare tali dati come nominali, ciò non li rende nominali nella stima di Stevens. Il suo documento è disponibile su gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… .
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.