Nomenclatura lato sinistro e lato destro nei modelli di regressione


9

y=β0+β1x1+ε0

Il linguaggio per descrivere i modelli di regressione, come la regressione lineare molto semplice sopra specificata, spesso varia e tali variazioni comportano spesso sottili cambiamenti di significato. Ad esempio, la parte del modello sul lato sinistro dell'equazione può essere definita (tra le altre cose di cui ignoro) con connotazioni e denotazioni tra parentesi:

  • Variabile dipendente (accenni alla dipendenza causale)
  • Variabile prevista (implica le previsioni del modello / effettua previsioni)
  • Variabile di risposta (implica la causalità o almeno il sequenziamento temporale)
  • Variabile di risultato (implica causalità)

La variazione della nomenclatura è vera anche sul lato destro dell'equazione (stesso disclaimer che io sono un ignorante riguardo ad altri termini):

  • Variabile indipendente (implica priorità causale, accenni alla progettazione sperimentale)
  • Variabile predittore (implica previsioni, implica che alla variabile è associata una stima di parametro diversa da zero)

Nel corso della proposta di controllo o comunicazione della ricerca, ho avuto occasione non solo di essere chiamato all'uso di un termine o di un altro, ma di essere successivamente chiamato al termine con cui ho scelto di sostituirlo. Mentre le persone che chiamavano erano ovviamente pedanti (NB: sono un pedante professionista, quindi simpatizzo), perché ovviamente abbiamo capito tutti cosa veniva comunicato , mi chiedo ancora:

Ci sono termini comunemente usati per le variabili della mano sinistra e della mano destra nei modelli di regressione che sono agnostici rispetto a (a) gli usi esterni del modello, (b) le relazioni causali tra le variabili e (c) gli aspetti dello studio disegni utilizzati per produrre le variabili stesse?

NB: Sono non chiedendo circa le questioni importanti di una corretta modellazione e l'interpretazione corretta (vale a dire che mi interessa molto di causalità, il disegno dello studio, ecc), ma sono più interessato a un linguaggio per parlare di tali modelli in generale.

(Mi rendo conto che "variabili della mano sinistra" e "variabili della mano destra" potrebbero, suppongo, essere interpretate come una risposta credibile, ma questi termini sembrano goffi ... forse questa è una domanda goffa. :)


Non ci dovrebbe essere confusione al riguardo.
Carl,

1
Penso che la risposta breve sia no. Questo è per una buona ragione secondo me. In casi formali, il linguaggio usato per identificare le variabili dovrebbe essere sufficientemente sfumato da implicare un'interpretazione distinta all'interno di un modello previsto applicazione / dominio (vale a dire che è molto importante sapere se la causalità è implicita in un modello di regressione e il corretto utilizzo della nomenclatura aiuterà con questo).
Zachary Blumenfeld,

2
@ZacharyBlumenfeld (a) Non rispondere nei commenti. :) (b) Eppure, parliamo della "regressione" stessa in termini generali, senza ricorrere allo studio del design, ai domini della conoscenza disciplinare, ecc. (ad esempio molte persone parlano e scrivono dello stimatore dei minimi quadrati senza invocare il disegno dello studio, la causalità , eccetera.). Se abbiamo un linguaggio indipendente dall'applicazione per descrivere un'ampia classe di sforzi statistici, perché non esiste un linguaggio altrettanto agnostico per i componenti di tali sforzi?
Alexis,

1
X(XX)1XyyX

1
@Kenji Concordo con tutto il cuore con la maggior parte della tua prospettiva. Tuttavia, non sono d'accordo sul fatto che si possa / si debba parlare solo di equazioni di regressione in un caso applicato: dovremmo avere un linguaggio in grado di parlare delle variabili della mano sinistra e della destra di tutti i modelli di regressione, ad esempio, quando si esamina l'applicazione di tali metodi a livello meta attraverso le discipline.
Alexis,

Risposte:


6

Questa è un'ottima domanda In realtà, è così bello che non ci sono risposte. Per quanto ne so, non esiste un vero termine "agnostico" per descrivere Y.

Nella mia esperienza e letture, ho scoperto che il semantico è specifico del dominio e anche specifico dell'obiettivo del modello.

Gli econometrici useranno i termini delle variabili dipendenti durante la costruzione di un modello esplicativo. Possono usare i termini variabile prevista o adattata o stimata quando stanno costruendo un modello di previsione più focalizzato sulla stima / previsione accurata piuttosto che sul potere esplicativo teorico.

La folla dei Big Data / Deep Learning usa un linguaggio completamente diverso. E in genere useranno i termini Variabile di risposta o Variabile di destinazione. I loro modelli sono scatole nere tali che in genere non tentano di spiegare un fenomeno piuttosto di prevederlo e stimarlo con precisione. Ma, in qualche modo, non sarebbero stati scoperti usando il termine Predicted. Preferiscono di gran lunga i termini Risposta o Target.

Conosco meno il termine Variabile di risultato. Può essere prevalente in altre aree in cui sono meno esposto, come le scienze sociali, tra cui psicologia, medicina, studi clinici, epidemiologia.

Alla luce di quanto sopra, non ho potuto fornirti alcuna semantica "agnostica" per descrivere Y. Invece, ho fornito un po 'di informazioni su quale semantica usare quando si rivolge a un pubblico diverso e riflette anche l'obiettivo del tuo modello. In sintesi, non penso che qualcuno si faccia male se parli di Variabile dipendente con econometrici e Variabile di risposta o Target con tipi di Deep Learning. Se tutto va bene, puoi separare quelle folle altrimenti potresti avere una lotta verbale con il cibo in mano.


Vorrei poterti dare un voto extra per "lotta al cibo verbale": D
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.