Il più importante è la logica dietro il modello. La variabile "numero di brevetti all'anno" è una variabile di conteggio, quindi viene indicata la regressione di Poisson. Quello è un GLM (modello lineare generalizzato) con (solitamente) funzione log link, mentre la normale regressione lineare è un GLM gaussiano con collegamento identità. In questo caso, è davvero la funzione di collegamento al registro che è più importante, più importante della distribuzione degli errori (Poisson o Gaussiana).
La variabile "Brevetti" è una variabile estesa : vedi proprietà intensive ed estese . Per variabili intensive , come la temperatura, sono spesso appropriati modelli lineari (con collegamento identità). Ma con una variabile estesa è diverso. Pensa che una delle tue aziende farmaceutiche si divida in due diverse società. Quindi i brevetti hanno dovuto essere divisi tra le due nuove società. Cosa succede con le covariabili, le nella tua regressione? Anche le variabili come il numero di dipendenti e il budget RD dovrebbero essere divise.x
In generale, in questo contesto, una variabile intensiva è una variabile che è indipendente dalla dimensione dell'azienda, mentre una variabile estesa dipende (tipicamente, linearmente) dalla dimensione dell'azienda. Quindi, in un certo senso, se abbiamo molte diverse variabili estese nell'equazione di regressione, stiamo misurando ripetutamente gli effetti di dimensione . Sembra ridondante, quindi dovremmo cercare, quando possibile, di esprimere variabili in forma intensiva , come il budget RD per dipendente (o come percentuale del budget totale), allo stesso modo entrate, ecc. Una variabile come il numero di dipendenti dovrà essere lasciata come ampia. Vedi la risposta di @ onestop a Trattare con regressori correlati per un'altra discussione su questo problema variabile esteso / intensivo.
Diamo un'occhiata algebricamente:
sono Brevetti, Budget (per dipendente), Dipendenti nella società originale, mentre
P 1 , B 1 , E 1 e P 2 , B 2 , E 2 sono le variabili corrispondenti dopo un Diviso. Supponiamo, come sopra, che E sia l'unica estesa covariabile (con P , ovviamente, anche estesa).P, B , EP1, B1, E1P2, B2, E2EP
Quindi, prima della divisione, abbiamo il modello, il collegamento identità, con la parte casuale esclusa:
Lascia che le frazioni di divisione siano α , 1 - α, quindi per la società 1 dopo la divisione otteniamo
α P
P= μ + β1E+ β2B
α , 1 - α
dal
P1=αP,E1=αEma
B1=B. Allo stesso modo per l'azienda due. Quindi il modello dipende in modo abbastanza complicato dalle dimensioni dell'azienda, solo dal coefficiente di regressione su
Eα PP1= α μ + α β1E+ α β2B= α μ + β1E1+ α β2B1
P1= α P, E1= α EB1= BEessendo indipendente dalla dimensione dell'azienda, dimensione che influenza tutti gli altri parametri. Ciò rende difficile l'interpretazione dei risultati, soprattutto se nei tuoi dati ci sono aziende di dimensioni variabili, come interpreterai questi coefficienti? Il confronto con altri studi basati su altri dati, ecc., Diventa estremamente complicato.
Vediamo ora se può essere utile utilizzare una funzione di collegamento al registro. Ancora una volta, scriviamo modelli idealizzati senza termini di disturbo. Le variabili sono come sopra.
Innanzitutto, il modello prima della divisione:
Dopo la divisione, per l'azienda uno, otteniamo:
P 1
P= exp( μ + β1E+ β2B )
Questo sembra quasi giusto, tranne per un problema, la parte della dipendenza da
Enon funziona del tutto. Quindi vediamo che il numero di dipendenti, quello covariabile in forma estesa, deve essere utilizzato su una scala logaritmica. Quindi, riprovando, otteniamo:
P1P1= exp( logα ) exp( μ + β1E+ β2B )= exp( logα+μ+β1E+β2B1)
E
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
Ciò rende le interpretazioni dei risultati molto più semplici e anche confronti con studi che utilizzano altri dati, tendenze nel tempo e così via. Non è possibile ottenere questo modulo con parametri con interpretazioni indipendenti dalla dimensione con un collegamento di identità.
Conclusione: utilizzare un GLM con funzione log link, forse una regressione di Poisson, o binomio negativo, o ... La funzione link è ordini di grandezza più importanti!
Per riassumere, quando si costruisce un modello di regressione per una variabile di risposta che è estesa , come una variabile di conteggio.
Cerca di esprimere le covariabili in forma intensiva.
Covariabili che devono essere lasciati estesi: registrali (l'algebra sopra dipende dal fatto che esiste al massimo una estesa covariabile).
Utilizzare una funzione di collegamento al registro.
Quindi, altri criteri, come quelli basati sull'adattamento, possono essere utilizzati per decisioni secondarie, come la distribuzione del termine di disturbo.