I nomi di variabili validi sono:
a) breve / facile da scrivere,
b) facile da ricordare,
c) comprensibile / comunicativo.
Sto dimenticando qualcosa? La coerenza è qualcosa da cercare. Il modo in cui lo direi è che convenzioni di denominazione coerenti contribuiscono alle qualità di cui sopra. La coerenza contribuisce a (b) facilità di richiamo e (c) comprensibilità, sebbene altri fattori siano spesso più importanti. Esiste un chiaro compromesso tra (a) lunghezza del nome / facilità di digitazione (ad esempio tutte le lettere minuscole) e (c) comprensibilità.
Sto investendo un bel po 'di pensiero su questi problemi perché migliaia di persone utilizzano i dati e spero che molti utilizzeranno il mio codice per preparare i dati e facilitare alcuni tipi di analisi. I dati, tratti dallo studio longitudinale sulla salute degli adolescenti, sono suddivisi in più set di dati. Il mio primo passo è stato quello di prendere le 227 variabili nel set di dati più comunemente usato, ricodificarle, dare loro nomi più significativi. I nomi delle variabili originali sono cose come "aid", "s1", "s2", che ho ribattezzato "aid2", "age" e "male.is". Ci sono migliaia di altre variabili negli altri set di dati che possono essere unite a seconda degli obiettivi del ricercatore.
Finché sto rinominando le variabili, voglio renderle il più utili possibile. Ecco alcuni dei problemi che ho considerato. Finora ho usato solo lettere minuscole ed evitato di usare trattini o caratteri di sottolineatura e ho usato solo punti per uno scopo molto specifico. Ciò ha la virtù della semplicità e della coerenza e non causa problemi per la maggior parte delle variabili. Ma man mano che le cose diventano più complesse, sono tentato di interrompere la mia coerenza. Prendiamo, ad esempio, la mia variabile "talkprobmsum", sarebbe più facile da leggere come "talkProbMSum" o meglio ancora "talk.prob.m.sum", ma se userò lettere maiuscole o punti per separare le parole, allora non dovrei farlo per tutte le variabili?
Alcune variabili vengono registrate in più di una volta, ad esempio le variabili di gara, quindi ho aggiunto .is o .ih per indicare se provengono dal questionario a scuola o a casa. Ma ci sono sicuramente alcune ripetizioni di cui non sono ancora a conoscenza, sarebbe meglio aggiungere un riferimento all'insieme di dati al nome di ogni variabile?
Ho bisogno di raggruppare e standardizzare un sacco di variabili, il modo in cui l'ho fatto è aggiungendo .zms che significa z-score per maschio e per scuola.
Qualsiasi pensiero o risorsa generale o specifica è molto apprezzato. Vedi questo repository per alcuni dei miei codici e statistiche descrittive con un elenco di nomi di variabili. Ho brevemente descritto il motivo della condivisione di questo codice qui , ed è stato pubblicizzato un po ' qui , ma questi ultimi due collegamenti non sono realmente rilevanti per il problema delle convenzioni di denominazione delle variabili. Aggiunto: l' ho modificato leggermente, principalmente spostando un paragrafo, per cercare di evitare un po 'di confusione evidente nei commenti. Grazie per i pensieri!
05/05/2016 aggiunto: Vale la pena notare la Guida allo stile R di Hadley Wickham e la Guida allo stile R di Google ... Hadley afferma:
I nomi delle variabili e delle funzioni devono essere minuscoli. Utilizzare un trattino basso (_) per separare le parole all'interno di un nome.
Google dice:
Non utilizzare caratteri di sottolineatura (_) o trattini (-) negli identificatori. Gli identificatori dovrebbero essere nominati secondo le seguenti convenzioni. La forma preferita per i nomi delle variabili sono tutte le lettere minuscole e le parole separate da punti (variabile.nome), ma è accettata anche variabileNome; i nomi delle funzioni hanno lettere maiuscole iniziali e nessun punto (FunctionName); le costanti sono chiamate come funzioni ma con un k iniziale.
R
, ma piuttosto di pratiche appropriate per documentare e utilizzare i dati.