Interpretazione delle proporzioni che si sommano a una come variabili indipendenti nella regressione lineare


13

Conosco il concetto di variabili categoriche e la rispettiva codifica delle variabili fittizie che ci consente di adattarci a un livello come base per evitare collinearità. Conosco anche come interpretare le stime dei parametri da tali modelli: il cambiamento previsto nel risultato per un dato livello adattato del predittore categorico, relativamente alla categoria di base.

Ciò di cui non sono sicuro è come interpretare un insieme di variabili indipendenti che sono proporzioni che si sommano a una . Abbiamo di nuovo collinearità se adattiamo tutte le proporzioni nel modello, quindi presumibilmente dovremmo lasciare una categoria fuori dalla linea di base. Presumo anche che esaminerei il SS di tipo III per il test generale del significato di questa variabile. Tuttavia, come interpretiamo le stime dei parametri per quei livelli che si adattano al modello rispetto a quelli considerati basali?

Un esempio : a livello di codice postale, la variabile indipendente è la proporzione di rocce metamorfiche, ignee e sedimentarie. Come forse saprai, questi sono i tre principali tipi di roccia e tutte le rocce sono classificate come una di queste. Pertanto, le proporzioni di tutte e tre le somme sono 1. Il risultato è il livello medio di radon in un rispettivo codice postale.

Se dovessi adattare, diciamo, le proporzioni metamorfiche ed ignee come predittori nel modello, lasciando sedimentario come base, un test F di tipo III SS generale dei due livelli adattati significherebbe se il tipo di roccia, nel suo insieme, è importante predittore del risultato (livello medio di radon). Quindi, ho potuto esaminare i singoli valori p (in base alla distribuzione t ) per determinare se uno o entrambi i tipi di roccia erano significativamente diversi dalla linea di base.

Tuttavia, quando si tratta di stime dei parametri, il mio cervello continua a voler interpretarli puramente come il cambiamento previsto nel risultato tra gruppi (tipi di roccia), e non capisco come incorporare il fatto che siano adatti come proporzioni .

Se la stima per metamorfico fosse, diciamo, 0.43, l'interpretazione non è semplicemente che il livello medio di radon previsto aumenta di 0,43 unità quando la roccia è metamorfica rispetto a sedimentaria. Tuttavia, l'interpretazione non è anche semplicemente per una sorta di aumento di unità (diciamo 0.1) nella proporzione del tipo di roccia metamorfica, perché ciò non riflette il fatto che è anche relativo alla linea di base ( sedimentaria ) e, inoltre, che cambia la proporzione di metamorfico modifica intrinsecamente la proporzione dell'altro livello di roccia adatto al modello, ignea .β

Qualcuno ha una fonte che fornisce l'interpretazione di un tale modello o potresti fornire un breve esempio qui?


2
+1 Spesso le proporzioni non hanno relazioni lineari con la risposta. Se le come dovessero migliorare il modello, permetterebbero anche interpretazioni semplici e naturali. Hai esaminato la linearità nei tuoi dati? (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber

1
No, ma suppongo che sarà problematico, soprattutto perché molte delle "proporzioni" sono effettivamente risultate come 0 e 1, o valori molto vicini a 0 e 1, e quindi agiscono essenzialmente come binarie. Come tale, è probabile che ne ricaveremo dei gruppi reali (e elimineremo le proporzioni), ma ciò ha comunque suscitato il mio interesse su quale sarebbe la corretta interpretazione, ipoteticamente.
Meg,

Abbastanza giusto - è una buona domanda.
whuber

2
I sono modi matematicamente equivalenti per rappresentare il . Per interpretarli, considera cheIl lato sinistro verrebbe chiamato "rapporto di probabilità di log" quando i sono probabilità; ha un significato comparabile per qualsiasi insieme di proporzioni. Pertanto, può essere interpretato proprio come i rapporti di probabilità del registro. Per un insieme di regressori che si sommano all'unità, puoi usare di come un modo per re-esprimere quei regressori nel tuo modello. (È necessaria una certa attenzione ogni volta che o )λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
whuber

2
λi=log(πi) dovrebbe funzionare bene, perché quindi e come previsto.
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi
whuber

Risposte:


8

Come follow-up e quale penso sia la risposta corretta (mi sembra ragionevole): ho pubblicato questa domanda sul listino di ASA Connect e ho ricevuto la seguente risposta da Thomas Sexton a Stony Brook:

"Il tuo modello di regressione lineare stimato è simile a:

ln (Radon) = (un'espressione lineare in altre variabili) + 0,43 M + 0,92I

dove M e I rappresentano le percentuali di rocce metamorfiche ed ignee, rispettivamente, nel codice postale. Sei vincolato da:

M + I + S = 100

dove S rappresenta le percentuali di roccia sedimentaria nel codice postale.

L'interpretazione dello 0.43 è che un aumento di un punto percentuale in M ​​è associato ad un aumento di 0,43 in ln (Radon) mantenendo fisse tutte le altre variabili nel modello . Pertanto, il valore di I non può cambiare e l'unico modo per avere un aumento di un punto percentuale in M ​​pur soddisfacendo il vincolo è avere una diminuzione di un punto percentuale in S, la categoria omessa.

Naturalmente, questa modifica non può avvenire nei codici postali in cui S = 0, ma una riduzione in M ​​e un corrispondente aumento in S sarebbero possibili in tali codici postali. "

Ecco il link al thread ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b5613db=23fb233d=b

Sto pubblicando questo come risposta corretta accettata, ma sono ancora aperto a ulteriori discussioni se qualcuno ha qualcosa da aggiungere.


Un consiglio sarebbe quello di andare al thread ASA, in quanto c'è un bel po 'di discussione che mette in discussione la risposta fornita qui.
Maxim.K

@ Maxim.K: ti riferisci al mio thread ASA che ho collegato sopra? In tal caso, sì, c'erano molti avvertimenti senza risposta e non sono ancora completamente sicuro della risposta "corretta" (se ne esiste una). Questo è il motivo per cui ho aggiunto il qualificatore, "Sto pubblicando questo come risposta corretta accettata, ma sono ancora aperto a ulteriori discussioni se qualcuno ha qualcosa da aggiungere".
Meg
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.