Bontà di adattamento e quale modello scegliere la regressione lineare o Poisson


19

Ho bisogno di un consiglio riguardo a due dilemmi principali nella mia ricerca, che è un caso studio di 3 grandi prodotti farmaceutici e innovazione. Il numero di brevetti all'anno è la variabile dipendente.

Le mie domande sono

  • Quali sono i criteri più importanti per un buon modello? Cosa è più / meno importante? È che la maggior parte o tutte le variabili saranno significative? È la prob di "F STATISTIC"? È il valore di "Rettificato R al quadrato"?

  • In secondo luogo, come posso decidere il modello più appropriato per la ricerca? Oltre ai brevetti che sono una variabile di conteggio (quindi forse un conteggio di Poisson) ho variabili esplicative come ritorno sugli attivi, budget di ricerca e sviluppo, partner ripetuti (% non una variabile binaria), dimensioni dell'azienda (dipendenti) e un altro paio. Dovrei fare una regressione lineare o Poisson?


5
Kjetil ha dato una buona risposta dettagliata. Un'opinione più rapida e più breve, coerente con la sua argomentazione, è che ciò che etichetti "secondo" è la domanda davvero importante. Ciò che menzioni per primo è casuale.
Nick Cox,

Risposte:


31

Il più importante è la logica dietro il modello. La variabile "numero di brevetti all'anno" è una variabile di conteggio, quindi viene indicata la regressione di Poisson. Quello è un GLM (modello lineare generalizzato) con (solitamente) funzione log link, mentre la normale regressione lineare è un GLM gaussiano con collegamento identità. In questo caso, è davvero la funzione di collegamento al registro che è più importante, più importante della distribuzione degli errori (Poisson o Gaussiana).

La variabile "Brevetti" è una variabile estesa : vedi proprietà intensive ed estese . Per variabili intensive , come la temperatura, sono spesso appropriati modelli lineari (con collegamento identità). Ma con una variabile estesa è diverso. Pensa che una delle tue aziende farmaceutiche si divida in due diverse società. Quindi i brevetti hanno dovuto essere divisi tra le due nuove società. Cosa succede con le covariabili, le nella tua regressione? Anche le variabili come il numero di dipendenti e il budget RD dovrebbero essere divise.x

In generale, in questo contesto, una variabile intensiva è una variabile che è indipendente dalla dimensione dell'azienda, mentre una variabile estesa dipende (tipicamente, linearmente) dalla dimensione dell'azienda. Quindi, in un certo senso, se abbiamo molte diverse variabili estese nell'equazione di regressione, stiamo misurando ripetutamente gli effetti di dimensione . Sembra ridondante, quindi dovremmo cercare, quando possibile, di esprimere variabili in forma intensiva , come il budget RD per dipendente (o come percentuale del budget totale), allo stesso modo entrate, ecc. Una variabile come il numero di dipendenti dovrà essere lasciata come ampia. Vedi la risposta di @ onestop a Trattare con regressori correlati per un'altra discussione su questo problema variabile esteso / intensivo.

Diamo un'occhiata algebricamente: sono Brevetti, Budget (per dipendente), Dipendenti nella società originale, mentre P 1 , B 1 , E 1 e P 2 , B 2 , E 2 sono le variabili corrispondenti dopo un Diviso. Supponiamo, come sopra, che E sia l'unica estesa covariabile (con P , ovviamente, anche estesa).P,B,EP1,B1,E1P2,B2,E2EP

Quindi, prima della divisione, abbiamo il modello, il collegamento identità, con la parte casuale esclusa: Lascia che le frazioni di divisione siano α , 1 - α, quindi per la società 1 dopo la divisione otteniamo α P

P=μ+β1E+β2B
α,1-α dalP1=αP,E1=αEmaB1=B. Allo stesso modo per l'azienda due. Quindi il modello dipende in modo abbastanza complicato dalle dimensioni dell'azienda, solo dal coefficiente di regressione suE
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEessendo indipendente dalla dimensione dell'azienda, dimensione che influenza tutti gli altri parametri. Ciò rende difficile l'interpretazione dei risultati, soprattutto se nei tuoi dati ci sono aziende di dimensioni variabili, come interpreterai questi coefficienti? Il confronto con altri studi basati su altri dati, ecc., Diventa estremamente complicato.

Vediamo ora se può essere utile utilizzare una funzione di collegamento al registro. Ancora una volta, scriviamo modelli idealizzati senza termini di disturbo. Le variabili sono come sopra.

Innanzitutto, il modello prima della divisione: Dopo la divisione, per l'azienda uno, otteniamo: P 1

P=exp(μ+β1E+β2B)
Questo sembra quasi giusto, tranne per un problema, la parte della dipendenza daEnon funziona del tutto. Quindi vediamo che il numero di dipendenti, quello covariabile in forma estesa, deve essere utilizzato su una scala logaritmica. Quindi, riprovando, otteniamo:
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ

Ciò rende le interpretazioni dei risultati molto più semplici e anche confronti con studi che utilizzano altri dati, tendenze nel tempo e così via. Non è possibile ottenere questo modulo con parametri con interpretazioni indipendenti dalla dimensione con un collegamento di identità.

Conclusione: utilizzare un GLM con funzione log link, forse una regressione di Poisson, o binomio negativo, o ... La funzione link è ordini di grandezza più importanti!

Per riassumere, quando si costruisce un modello di regressione per una variabile di risposta che è estesa , come una variabile di conteggio.

  1. Cerca di esprimere le covariabili in forma intensiva.

  2. Covariabili che devono essere lasciati estesi: registrali (l'algebra sopra dipende dal fatto che esiste al massimo una estesa covariabile).

  3. Utilizzare una funzione di collegamento al registro.

Quindi, altri criteri, come quelli basati sull'adattamento, possono essere utilizzati per decisioni secondarie, come la distribuzione del termine di disturbo.


3
Pensavo che una regressione di Poisson fosse una regressione GLS con la funzione log link?
Spettacolo Bob

1
Di solito sì, ma potresti anche prendere in considerazione una regressione di Poisson con link di identità (o altro, come la radice quadrata). Ma il mio argomento qui mostra che di solito si desidera il collegamento al registro.
kjetil b halvorsen,

(1β)μ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.