Voglio dire che alcune di queste variabili sono fortemente correlate tra loro. Come / perché / in quale contesto li definiamo variabili indipendenti ?
Voglio dire che alcune di queste variabili sono fortemente correlate tra loro. Come / perché / in quale contesto li definiamo variabili indipendenti ?
Risposte:
Se ci allontaniamo dall'attenzione odierna sull'apprendimento automatico e ricordiamo quanta analisi statistica è stata sviluppata per studi sperimentali controllati, la frase "variabili indipendenti" ha molto senso.
In studi sperimentali controllati, le scelte di un farmaco e le sue concentrazioni, o le scelte di un fertilizzante e le sue quantità per acro, sono fatte indipendentemente dallo sperimentatore. L'interesse è su come una variabile di risposta di interesse (ad es. Pressione sanguigna, resa delle colture) dipende da queste manipolazioni sperimentali. Idealmente, le caratteristiche delle variabili indipendenti sono strettamente specificate, sostanzialmente senza errori nella conoscenza dei loro valori. Quindi la regressione lineare standard, ad esempio, modella le differenze tra i valori delle variabili dipendenti in termini di valori delle variabili indipendenti più errori residui.
Lo stesso formalismo matematico utilizzato per la regressione nel contesto di studi sperimentali controllati può anche essere applicato all'analisi di insiemi di dati osservati con manipolazione sperimentale minima o nulla, quindi forse non sorprende che la frase "variabili indipendenti" sia stata trasferita a tali tipi di studi. Ma, come notano altri in questa pagina, è probabilmente una scelta sfortunata, con "predittori" o "caratteristiche" più appropriati in tali contesti.
In molti modi, la "variabile indipendente" è una scelta sfortunata. Le variabili non devono essere indipendenti l'uno dall'altro, e naturalmente non devono essere indipendenti dalla variabile dipendente . Nell'insegnamento e nel mio libro Strategie di modellizzazione della regressione uso la parola predittore . In alcune situazioni quella parola non è abbastanza forte, ma funziona bene in media. Una descrizione completa del ruolo delle variabili X (lato destro) in un modello statistico potrebbe essere troppo lunga da usare ogni volta: l'insieme di variabili o misure su cui è condizionata la distribuzione di Y. Questo è un altro modo di dire l'insieme di variabili di cui attualmente non ci interessano le distribuzioni, ma i cui valori trattiamo come costanti.
Concordo con le altre risposte qui che "indipendente" e "dipendente" è una terminologia scadente. Come spiega EdM , questa terminologia è nata nel contesto di esperimenti controllati in cui il ricercatore potrebbe impostare i regressori indipendentemente l'uno dall'altro. Ci sono molti termini preferibili che non hanno questa connotazione causale carica e, nella mia esperienza, gli statistici tendono a preferire i termini più neutrali. Ci sono molti altri termini usati qui, inclusi i seguenti:
Personalmente, uso i termini variabili esplicative e variabile di risposta, dal momento che quei termini non hanno connotazione di indipendenza o controllo statistico, ecc. (Si potrebbe sostenere che la "risposta" ha una connotazione causale, ma questa è una connotazione abbastanza debole, quindi io non l'ho trovato problematico.)
Per aggiungere alle risposte di Frank Harrell e Peter Flom:
Concordo sul fatto che chiamare una variabile "indipendente" o "dipendente" è spesso fuorviante. Ma alcune persone lo fanno ancora. Una volta ho sentito una risposta perché:
's.
"Dipendente" e "indipendente" possono essere termini confusi. Un senso è pseudo-causale o addirittura causale e questo è quello che si intende quando si dice "variabile indipendente" e "variabile dipendente". Intendiamo che il DV, in un certo senso, dipende dal IV. Quindi, per esempio, quando modelliamo la relazione tra altezza e peso nell'uomo adulto, diciamo che il peso è il DV e l'altezza è il IV.
Questo cattura qualcosa che "predittore" non capisce, vale a dire la direzione della relazione. L'altezza prevede il peso, ma anche il peso prevede l'altezza. Cioè, se ti fosse detto di indovinare l'altezza delle persone e ti fosse stato detto il loro peso, sarebbe utile.
Ma non diremmo che l'altezza dipende dal peso.
Sulla base delle risposte di cui sopra, sì, sono d'accordo che questa variabile dipendente e indipendente sia una terminologia debole. Ma posso spiegare il contesto in cui viene utilizzato da molti di noi. Dici che per un problema di regressione generale abbiamo una variabile di output, ad esempio Y, il cui valore dipende da altre variabili di input, ad esempio x1, x2, x3. Ecco perché si chiama "Variabile dipendente". E allo stesso modo a seconda del tale contesto solo , e solo di distinguere tra output e variabile di input, x1, x2, x3 è definito come variabile indipendente. Perché a differenza di Y non dipende da nessun'altra variabile (ma sì, qui non stiamo parlando della dipendenza con se stessi.)
Le variabili indipendenti sono chiamate indipendenti perché non dipendono da altre variabili. Ad esempio, considera il problema di previsione del prezzo della casa. Supponiamo di avere dati su house_size, posizione e house_price. Qui, il prezzo della casa viene determinato in base alla dimensione e alla posizione della casa, ma la posizione e la dimensione della casa possono variare a seconda della casa.