Comprensione delle regressioni: il ruolo del modello


46

Come può essere utile un modello di regressione se non si conosce la funzione per cui si sta tentando di ottenere i parametri?

Ho visto una ricerca che diceva che le madri che allattavano al seno i loro bambini avevano meno probabilità di soffrire di diabete in età avanzata. La ricerca proveniva da un sondaggio di circa 1000 madri e fu controllata per vari fattori e fu usato un modello loglineare.

Questo significa che calcolano tutti i fattori che determinano la probabilità del diabete di adattarsi a una bella funzione (presumibilmente esponenziale) che si traduce ordinatamente in un modello lineare con i registri e che se la donna allattata al seno si è rivelata statisticamente significativa?

Mi manca qualcosa di sicuro ma, come diavolo conoscono la modella?


Grazie mille a tutti. Voglio passare un po 'di tempo a pensare alle tue risposte e forse, se non ti dispiace se provo a scriverle nei miei termini per le tue opinioni. Mi piace questa descrizione del processo come proveniente dalla serie Taylor. Ho dovuto raccogliere la mia conoscenza della regressione a casaccio e attraverso l'economia e la matematica per gli economisti e il legame con Taylor è evidente per la sua assenza.
Jonathan Andrews,

Ho unito i tuoi account; ma per favore, registralo qui stats.stackexchange.com/users/login in modo da non perderlo di nuovo.

Risposte:


43

Aiuta a vedere la regressione come un'approssimazione lineare della vera forma. Supponiamo che la vera relazione sia

y=f(x1,...,xk)

con fattori che spiegano la . Quindi l'approssimazione di Taylor del primo ordine di attorno allo zero è:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

dove è l'errore di approssimazione. Ora denota e e hai una regressione:α 0 = f ( 0 , . . . , 0 ) α k = f ( 0 )εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

Quindi, anche se non conosci la vera relazione, se è piccolo ottieni un'approssimazione, dalla quale puoi ancora dedurre utili conclusioni.ε


1
Ciao, bella spiegazione ma non riesco a capire la parte "sigma" nell'espansione della serie di taylor. Come ridurre questa equazione trovata qui: mathworld.wolfram.com/TaylorSeries.html in "Una serie di Taylor di una funzione reale in due variabili" alla tua?
Arun,

1
@Arun, prendi nella formula (32). n=1
mpiktas,

18

L'altro lato della risposta, complementare alla risposta di mpiktas ma non menzionato finora, è:

"Non lo fanno, ma non appena assumono una struttura del modello, possono verificarlo con i dati".

Le due cose di base che potrebbero andare storte sono: La forma della funzione, ad esempio non è nemmeno lineare nei registri. Quindi inizieresti a tracciare il residuo appropriato rispetto ai valori previsti. Oppure la scelta della distribuzione condizionale , ad esempio i conteggi osservati sono sovraispersi rispetto a Poisson. Quindi testeresti contro una versione binomiale negativa dello stesso modello, o vedrai se le covariate extra rappresentano la variazione extra.

Vorresti anche verificare eventuali valori anomali, osservazioni influenti e una miriade di altre cose. Un posto ragionevole da leggere sul controllo di questo tipo di problemi tipo è il cap. 5 di Cameron e Trivedi 1998. (Sicuramente c'è un posto migliore per i ricercatori orientati epidemiologicamente - forse altre persone possono suggerirlo.)

Se questi dati diagnostici indicano che il modello non è stato adattato ai dati, è necessario modificare l'aspetto pertinente del modello e riavviare l'intero processo.


1
+1 Questa è la chiave che impedisce a tutto di essere agitando la mano: non lo sai, ma provi qualcosa e poi guardi quanto bene corrisponde e in che modo non corrisponde ai tuoi dati.
Wayne,

15

Un'eccellente prima domanda! Concordo con la risposta di mpiktas, ovvero la risposta breve è "non lo fanno, ma sperano di avere un'approssimazione al modello giusto che dia approssimativamente la risposta giusta".

Nel gergo dell'epidemiologia, questo modello di incertezza è una fonte di ciò che è noto come " confondimento residuo ". Vedi la pagina di Steve Simon "Che cos'è il confondimento residuo?" per una breve descrizione, o l'articolo di Heiko Becher del 1992 in Statistics in Medicine (abbonamento richiesto) per un trattamento più lungo e più matematico, o Fewell, l'articolo più recente di Davey Smith & Sterne sull'American Journal of Epidemiology (abbonamento richiesto ).

Questo è uno dei motivi per cui l'epidemiologia dei piccoli effetti è difficile e i risultati sono spesso controversi: se la dimensione dell'effetto misurato è piccola, è difficile escludere confusione residua o altre fonti di pregiudizio come spiegazione.


1
Direi che la mancata specificazione del modello - che sembra essere ciò di cui parla l'OP, è in qualche modo distinta dal confondimento residuo. La confusione richiede una covariata. Puoi rovinare una regressione con la semplice errata specificazione di un'esposizione e di un risultato.
Fomite

13

C'è la famosa citazione "Essenzialmente, tutti i modelli sono sbagliati, ma alcuni sono utili" di George Box . Quando si adattano modelli come questo, cerchiamo di (o dovremmo) pensare al processo di generazione dei dati e al mondo fisico, reale, alle relazioni tra la risposta e le covariate. Cerchiamo di esprimere queste relazioni in un modello che si adatta ai dati. O, per dirla in altro modo, è coerente con i dati. Come tale viene prodotto un modello empirico.

Se sia utile o meno viene determinato in seguito: fornisce previsioni valide e affidabili, ad esempio per le donne che non sono abituate al modello? I coefficienti del modello sono interpretabili e di uso scientifico? Le dimensioni dell'effetto sono significative?


3

Le risposte che hai già ottenuto sono eccellenti, ma darò una risposta (si spera) complementare dal punto di vista di un epidemiologo. Ho davvero tre pensieri su questo:

Per prima cosa no. Vedi anche: Tutti i modelli sono sbagliati, alcuni modelli sono utili. L'obiettivo non è quello di produrre un singolo numero definitivo che viene preso come "verità" di una funzione sottostante. L'obiettivo è quello di produrre una stima di quella funzione, con una quantificazione dell'incertezza attorno ad essa, che sia un'approssimazione ragionevole e utile della funzione sottostante.

Ciò è particolarmente vero per le misure di grande effetto. Il messaggio "take away" di uno studio che trova un rischio relativo di 3.0 non è molto diverso se la relazione "true" è 2.5 o 3.2. Come accennato da @onestop, questo diventa più difficile con le stime delle misure di piccolo effetto, perché la differenza tra 0.9, 1.0 e 1.1 può essere enorme dal punto di vista della salute e delle politiche.

Secondo, c'è un processo nascosto nella maggior parte degli articoli di epidemiologia. Questo è l'effettivo processo di selezione del modello . Tendiamo a segnalare il modello con cui siamo finiti, non tutti i modelli che abbiamo considerato (perché sarebbe noioso, se non altro). Ci sono una serie di passaggi per la costruzione di modelli, diagrammi concettuali, diagnostica, statistiche di adattamento, analisi di sensibilità, imprecazioni sui computer e scarabocchi su lavagne bianche coinvolte nell'analisi anche di piccoli studi osservazionali.

Perché mentre si sta facendo ipotesi, molti di loro sono anche le ipotesi che si possono verificare.

Terzo, a volte no. E poi andiamo alle conferenze e discutiamo l'uno con l'altro;)

Se sei interessato alle nozioni di base dell'epidemiologia come campo e al modo in cui eseguiamo la ricerca, il posto migliore per iniziare è probabilmente la terza edizione di Modern Epidemiology di Rothman, Groenlandia e Lash. È una panoramica moderatamente tecnica e molto buona di come viene condotta la ricerca Epi.


1
+1, questo è un buon complemento a ciò che è qui. È bello vedere che si può ancora dare un utile contributo, anche dopo che ne esistono già tanti altri buoni.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.