Nell'analisi di regressione, perché chiamiamo variabili indipendenti "indipendenti"?


30

Voglio dire che alcune di queste variabili sono fortemente correlate tra loro. Come / perché / in quale contesto li definiamo variabili indipendenti ?


1
È storico e proviene da opere scientifiche francesi. Sto cercando di trovare il riferimento.
Alecos Papadopoulos,

1
Definirei un insieme di variabili "potenzialmente co-dipendenti" per evitare di inferire la causalità.
qed

1
Una bella domanda
Rafael Marazuela,

Risposte:


29

Se ci allontaniamo dall'attenzione odierna sull'apprendimento automatico e ricordiamo quanta analisi statistica è stata sviluppata per studi sperimentali controllati, la frase "variabili indipendenti" ha molto senso.

In studi sperimentali controllati, le scelte di un farmaco e le sue concentrazioni, o le scelte di un fertilizzante e le sue quantità per acro, sono fatte indipendentemente dallo sperimentatore. L'interesse è su come una variabile di risposta di interesse (ad es. Pressione sanguigna, resa delle colture) dipende da queste manipolazioni sperimentali. Idealmente, le caratteristiche delle variabili indipendenti sono strettamente specificate, sostanzialmente senza errori nella conoscenza dei loro valori. Quindi la regressione lineare standard, ad esempio, modella le differenze tra i valori delle variabili dipendenti in termini di valori delle variabili indipendenti più errori residui.

Lo stesso formalismo matematico utilizzato per la regressione nel contesto di studi sperimentali controllati può anche essere applicato all'analisi di insiemi di dati osservati con manipolazione sperimentale minima o nulla, quindi forse non sorprende che la frase "variabili indipendenti" sia stata trasferita a tali tipi di studi. Ma, come notano altri in questa pagina, è probabilmente una scelta sfortunata, con "predittori" o "caratteristiche" più appropriati in tali contesti.


2
Ma la scelta dei livelli del farmaco dipende da ciò che fa l'investigatore ed è per questo che non riesco mai a ricordare quale sia quale.
mdewey,

Nell'apprendimento automatico, le "caratteristiche" sono spesso variabili latenti e non osservate. Le "caratteristiche osservate" sono più comuni.
Neil G,

18

In molti modi, la "variabile indipendente" è una scelta sfortunata. Le variabili non devono essere indipendenti l'uno dall'altro, e naturalmente non devono essere indipendenti dalla variabile dipendente . Nell'insegnamento e nel mio libro Strategie di modellizzazione della regressione uso la parola predittore . In alcune situazioni quella parola non è abbastanza forte, ma funziona bene in media. Una descrizione completa del ruolo delle variabili X (lato destro) in un modello statistico potrebbe essere troppo lunga da usare ogni volta: l'insieme di variabili o misure su cui è condizionata la distribuzione di Y. Questo è un altro modo di dire l'insieme di variabili di cui attualmente non ci interessano le distribuzioni, ma i cui valori trattiamo come costanti.YXY


Quindi tutto quello che stai dicendo che chiamare le variabili di input come "indipendenti" è una pratica sbagliata? @Frank
Amarpreet Singh,

11
Non si presume che siano indipendenti da NIENTE, quindi è una pratica sbagliata, usata solo per abitudine.
Frank Harrell,

1
"l'insieme di variabili o misure su cui è condizionata la distribuzione di Y" ... in realtà le considero come (e talvolta le chiamano) le "variabili condizionanti" o "variabili condizionate", che non è troppo lungo descrizione e funziona naturalmente con la notazione E(Y|X)
Silverfish,

11

Concordo con le altre risposte qui che "indipendente" e "dipendente" è una terminologia scadente. Come spiega EdM , questa terminologia è nata nel contesto di esperimenti controllati in cui il ricercatore potrebbe impostare i regressori indipendentemente l'uno dall'altro. Ci sono molti termini preferibili che non hanno questa connotazione causale carica e, nella mia esperienza, gli statistici tendono a preferire i termini più neutrali. Ci sono molti altri termini usati qui, inclusi i seguenti:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Personalmente, uso i termini variabili esplicative e variabile di risposta, dal momento che quei termini non hanno connotazione di indipendenza o controllo statistico, ecc. (Si potrebbe sostenere che la "risposta" ha una connotazione causale, ma questa è una connotazione abbastanza debole, quindi io non l'ho trovato problematico.)


1
(+1) Suppongo che regressore / regresso siano i termini più neutrali, ma preferisco anche spiegare usando esplicativo / risposta.
Frans Rodenburg,

2
Concordo con la tendenza a preferire termini neutrali, ma "esplicativo" mi sembra abbastanza causale come in: "Le variabili X spiegano perché la variabile Y agisce nel modo in cui lo fa".
timwiz,

1
Lo prendo per dire esplicativo in un senso probabilistico - cioè, spiega i cambiamenti nella distribuzione della variabile di risposta. Potresti avere ragione, ma in tutti questi casi la connotazione con qualsiasi causalità è debole.
Ripristina Monica il

2
La spiegazione implica causale, quindi è inappropriato.
Frank Harrell,

1
@Frank: non sono necessariamente d'accordo con questa visione. La spiegazione deriva dalla parola "spiegazione", quindi ritengo che le variabili spieghino in qualche modo la variabile di risposta. Quella spiegazione potrebbe essere causale, o potrebbe essere semplicemente statistica, e ritengo che sia quest'ultima. Tuttavia, sembra che le persone stiano interpretando le connotazioni di queste parole in modo diverso, quindi ammetterò che alcuni lo leggeranno come connotazioni causali.
Ripristina Monica il

9

Per aggiungere alle risposte di Frank Harrell e Peter Flom:

Concordo sul fatto che chiamare una variabile "indipendente" o "dipendente" è spesso fuorviante. Ma alcune persone lo fanno ancora. Una volta ho sentito una risposta perché:

YXXYY X 's.

Y


Stai dicendo che Y dipende da X, (quindi Y è chiamato variabile dipendente) e con ciò intendi che X non dipende da Y. Ma ci possono essere casi in cui X può dipendere da Y o correlare con Y (quindi può non si chiamerà più "indipendente"). Qualche opinione su questo?
Amarpreet Singh,

No, non intendo che X non dipenda da Y. Voglio solo dire che la spiegazione più basilare di ciò che fa l'analisi di regressione è che descrive come Y dipende da X. Quindi il nome più semplice per Y sarebbe "dipendente" "
Łukasz Deryło,

6
Non sto cercando di rispondere alla domanda "dovremmo chiamare X indipendente?" ma piuttosto "perché lo chiamiamo indipendente?", proprio come nel titolo del tuo post
Łukasz Deryło,

5

"Dipendente" e "indipendente" possono essere termini confusi. Un senso è pseudo-causale o addirittura causale e questo è quello che si intende quando si dice "variabile indipendente" e "variabile dipendente". Intendiamo che il DV, in un certo senso, dipende dal IV. Quindi, per esempio, quando modelliamo la relazione tra altezza e peso nell'uomo adulto, diciamo che il peso è il DV e l'altezza è il IV.

Questo cattura qualcosa che "predittore" non capisce, vale a dire la direzione della relazione. L'altezza prevede il peso, ma anche il peso prevede l'altezza. Cioè, se ti fosse detto di indovinare l'altezza delle persone e ti fosse stato detto il loro peso, sarebbe utile.

Ma non diremmo che l'altezza dipende dal peso.


Sei specifico sul modello SEM?
Amarpreet Singh,

No. Stavo pensando alla regressione.
Peter Flom - Ripristina Monica

Ok, quindi è solo una questione di nome. Mi sono confuso che chiamare le variabili di input come "indipendenti" significhi qualcosa.
Amarpreet Singh,

12
DV e IV sono abbreviazioni comuni (che personalmente non mi piacciono), ma attenzione per molti economisti e alcuni altri scienziati sociali per i quali IV può significare solo variabile strumentale. È meno comune incontrare persone per le quali DV può significare solo Deo volente (a Dio piacendo).
Nick Cox,

0

Sulla base delle risposte di cui sopra, sì, sono d'accordo che questa variabile dipendente e indipendente sia una terminologia debole. Ma posso spiegare il contesto in cui viene utilizzato da molti di noi. Dici che per un problema di regressione generale abbiamo una variabile di output, ad esempio Y, il cui valore dipende da altre variabili di input, ad esempio x1, x2, x3. Ecco perché si chiama "Variabile dipendente". E allo stesso modo a seconda del tale contesto solo , e solo di distinguere tra output e variabile di input, x1, x2, x3 è definito come variabile indipendente. Perché a differenza di Y non dipende da nessun'altra variabile (ma sì, qui non stiamo parlando della dipendenza con se stessi.)


Hai risposto in modo simile a quello di @Ramya R.
Amarpreet Singh,

-2

Le variabili indipendenti sono chiamate indipendenti perché non dipendono da altre variabili. Ad esempio, considera il problema di previsione del prezzo della casa. Supponiamo di avere dati su house_size, posizione e house_price. Qui, il prezzo della casa viene determinato in base alla dimensione e alla posizione della casa, ma la posizione e la dimensione della casa possono variare a seconda della casa.


4
A volte le cosiddette variabili "indipendenti" nella regressione sono correlate. Quindi non sono necessariamente statisticamente indipendenti. Sarebbe meglio chiamarli variabili predittive.
Michael R. Chernick,

Micheal, grazie per averlo sottolineato. Ho una domanda di follow-up. Nei casi in cui abbiamo due variabili predittive che sono collineari, non ne scartiamo una per eliminare il problema della multicollinearità in modo tale che le nostre variabili predittive siano indipendenti l'una dall'altra?
Ramya R,

1
Non necessariamente. Dipende dal fatto che influenzi o meno la stabilità delle stime e quanto sia più forte la previsione quando entrambe le variabili sono incluse. Se due variabili hanno una correlazione 0.1 non sono indipendenti ma la relazione tra loro è debole.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.