Qualche mese fa sono stato internato in questa organizzazione; e, come regalo d'addio, ho deciso di trascorrere la mia ultima settimana, con tutto il tempo libero che avevo, per studiare i fattori che influenzano gli stipendi degli insegnanti. Un problema che ho riscontrato con gli stipendi degli insegnanti era che la distribuzione per lo stato dato era distorta. Ho avuto molte osservazioni che si aggrappavano all'estremità inferiore dello spettro salariale. Ho provato a risolverlo incorporando un indice dei salari comparabili nella mia variabile dipendente (salari degli insegnanti), ma i risultati che ho trovato erano completamente obsoleti per lo scopo del mio progetto. Ho invece deciso di registrare la mia variabile dipendente. Questo è stato bello perché ora i miei salari avevano una distribuzione normale ed era semplicemente perfetto nell'istogramma. Quando ho iniziato il test, sono arrivato al punto in cui ero rimasto con un'ultima variabile indipendente, dichiarazioni dei redditi da proprietà. Il problema con i miei salari normativi era evidente anche nelle mie osservazioni sulla dichiarazione dei redditi da proprietà. Ho avuto un'enorme inclinazione dei numeri di dichiarazione dei redditi da proprietà verso l'estremità inferiore dello spettro. Quindi, ho registrato anche questa variabile e ha comunque superato il test di ipotesi nulla.
Non sono sicuro che questo sia esattamente corretto, ma confrontando la modifica di una variabile registrata con un'altra variabile registrata mi ha dato l'elasticità. Supponendo che ciò sia corretto, la mia equazione di regressione (qualcosa come LogWages = B0 + B1 (LogPropertyTaxReturns)) mostra l'elasticità tra le due variabili. Questo è significativo però? Se il mio obiettivo fosse vedere quale variabile ha influenzato maggiormente gli stipendi degli insegnanti in una determinata contea del mio stato, allora sta mostrando utile l'elasticità tra le due variabili? Vogliamo aumentare le contee con i salari degli insegnanti più bassi più in alto per aumentare il loro tenore di vita, ma temo di aver estrapolato così lontano dalle osservazioni reali che la mia equazione di regressione conclusiva non ha senso.
Modifica: una delle mie paure più grandi è che avrei dovuto usare un modello non lineare per mostrare la relazione. Sento che forzare la variabile dipendente e quella indipendente a cooperare in questa regressione lineare è in qualche modo fuorviante.