Come spiegheresti modelli lineari generalizzati a persone senza background statistico?


16

Ho sempre difficoltà a spiegare le tecniche statistiche al pubblico senza background statistico. Se volessi spiegare che cosa è GLM per tale pubblico (senza gettare gergo statistico), quale sarebbe il modo migliore o più efficace?

Spiego di solito GLM con tre parti: (1) la componente casuale che è variabile di risposta, (2) la componente sistematica che è predittori lineari e (3) la funzione di collegamento che è la "chiave" per connettere (1) e (2). Quindi farei un esempio di regressione lineare o logistica e spiegherei come viene selezionata la funzione di collegamento in base alla variabile di risposta. Quindi funge da chiave per collegare due componenti.


Che tipo di background ha il pubblico? Spiegare la GLM a un matematico o a un biologo è molto diverso.

1
Ci saranno pochi matematici senza background statistico, @Procrastinator. Ma il tuo punto è positivo: avere un'idea più chiara del pubblico previsto contribuirà a mantenere le risposte coerenti e mirate. Ti dispiacerebbe modificare la domanda per espanderla, Ken?
whuber

1
Vedo il tuo punto, @Procrastinator ma speravo di ottenere una risposta di facile comprensione per tutti (matematici e / o biologi), in generale perché se non ho una base matematica o biologica (che è il caso), Non saprei come spiegare loro GLM rispetto al loro background comunque.
Ken,

4
Penso che sia importante tenere a mente che puoi ottenere una laurea, un master o anche un dottorato in biologia senza aver mai seguito un corso di statistica, anche in molte università di primo livello. La mia laurea in biochimica ha richiesto due semestri di calcolo introduttivo e un semestre di equazioni differenziali. La sostanza di queste lezioni viene rapidamente dimenticata perché molti studenti non useranno mai più queste abilità! Quindi penso davvero che sia necessario smorzare la spiegazione per i tipici non statistici.
Alexander,

Un commento da aggiungere alle risposte di seguito; se riesci ad attraversare il raccordo di una linea (cioè la funzione di collegamento e i predittori lineari), la connessione a un'efficiente ponderazione della varianza inversa non è così difficile da comunicare; vogliamo semplicemente sovrappesare contributi precisi e ridurre il peso degli altri. Ciò consente di evitare di dire qualcosa di troppo tecnico sulla casualità dei risultati. NB I GLM sono stati concepiti come (solo) i modelli in cui IWLS può essere utilizzato per fornire l'MLE, quindi il modo di pensare sopra descritto sopra cattura la maggior parte del perché sono effettivamente utili.
ospite

Risposte:


25

Se il pubblico non ha davvero un background statistico, penso che proverei a semplificare un po 'di più la spiegazione. Innanzitutto, disegnerei un piano di coordinate sul tabellone con una linea su di esso, in questo modo:

y = mx + b

Tutti al tuo discorso avranno familiarità con l'equazione per una linea semplice, y = m x + b , perché è qualcosa che si impara nella scuola elementare. Quindi lo mostrerei accanto al disegno. Tuttavia, lo scriverei al contrario, in questo modo: y=mX+B

 mX+B=y

Direi che questa equazione è un esempio di una semplice regressione lineare. Spiegherei quindi come tu (o un computer) potresti adattare una simile equazione a un diagramma a dispersione di punti dati, come quello mostrato in questa immagine:

Trama a dispersione

Direi che qui stiamo usando l'età dell'organismo che stiamo studiando per prevedere quanto è grande e che la risultante equazione di regressione lineare che otteniamo (mostrata nell'immagine) può essere usata per prevedere quanto è grande un organismo è se conosciamo la sua età.

 mX+B=y

Spiegherei di nuovo che questo era un esempio di una semplice equazione di regressione lineare e che in realtà esistono varietà più complicate. Ad esempio, in una varietà chiamata regressione logistica , alle y è consentito solo 1 o 0. Si potrebbe voler utilizzare questo tipo di modello se si sta tentando di prevedere una risposta "sì" o "no", ad esempio se qualcuno ha una malattia o meno. Un'altra varietà speciale è qualcosa chiamata regressione di Poisson , che viene utilizzata per analizzare i dati di "conteggio" o "evento" (non approfondirei questo argomento se non fosse realmente necessario).

Spiegherei quindi che la regressione lineare, la regressione logistica e la regressione di Poisson sono in realtà tutti esempi speciali di un metodo più generale, qualcosa chiamato "modello lineare generalizzato". La cosa grandiosa di "modelli lineari generalizzati" è che ci permettono di usare dati di "risposta" che possono assumere qualsiasi valore (come la dimensione di un organismo nella regressione lineare), prendere solo 1 o 0 (come se qualcuno abbia o meno un malattia nella regressione logistica) o prendere conteggi discreti (come il numero di eventi nella regressione di Poisson).

Direi quindi che in questi tipi di equazioni, le x (predittori) sono collegate alle y (risposte) tramite qualcosa che gli statistici chiamano "funzione di collegamento". Usiamo queste "funzioni di collegamento" nei casi in cui le x non sono correlate alle y in modo lineare.

Ad ogni modo, quelli sono i miei due centesimi sulla questione! Forse la mia spiegazione proposta suona un po 'hokey e stupida, ma se lo scopo di questo esercizio è solo quello di far conoscere il pubblico al pubblico, forse una spiegazione come questa non è poi così male. Penso che sia importante che il concetto sia spiegato in modo intuitivo ed eviti di gettare parole come "componente casuale", "componente sistematico", "funzione di collegamento", "deterministico", "funzione di logit", ecc. Se tu ' parlando con persone che non hanno veramente un background statistico, come un tipico biologo o un medico, i loro occhi si limiteranno a sbirciare nel sentire quelle parole. Non sanno cos'è una distribuzione di probabilità, non hanno mai sentito parlare di una funzione di collegamento e non sanno cosa sia un "logit"

Nella tua spiegazione a un pubblico non statistico, vorrei anche concentrarmi su quando utilizzare quale varietà di modello. Potrei parlare di quanti predittori ti è permesso includere nella parte sinistra dell'equazione (ho sentito delle regole empiriche come non più della dimensione del tuo campione divisa per dieci). Sarebbe anche bello includere un foglio di esempio con i dati e spiegare al pubblico come utilizzare un pacchetto software statistico per generare un modello. Vorrei quindi esaminare l'output di quel modello passo dopo passo e provare a spiegare cosa significano tutte le diverse lettere e numeri. I biologi non sono a conoscenza di queste cose e sono più interessati a imparare quali test usare quando invece di acquisire una comprensione della matematica dietro la GUI di SPSS!

Gradirei qualsiasi commento o suggerimento riguardo alla mia spiegazione proposta, in particolare se qualcuno nota errori o pensa a un modo migliore per spiegarlo!


4
Non tutti hanno familiarità con l'equazione per una linea; nemmeno tutti gli studenti laureati lo sono, né tutte le persone con dottorato di ricerca.
Peter Flom - Ripristina Monica

6
Voglio dire, sono sicuro che esiste uno studente universitario là fuori nel mondo che non conosce l'equazione per una linea, ma presumibilmente un pubblico a cui vorresti spiegare modelli lineari generalizzati avrebbe almeno mezzo indizio sull'alta algebra di livello scolastico! Eeeek !!!
Alexander,

Sono d'accordo con te Alexander e il tuo approccio mi sembra molto naturale. Non mi concentrerei troppo sulla "g" della glm (o troppo presto) e non andrei nemmeno a fare distinzioni su random vs fixed. Naturalmente dipende dalla quantità di tempo che devi spiegare tutto questo.
Dominic Comtois,

Y=αX+βα

10

Non definirei la risposta un componente casuale. È una combinazione di un componente deterministico e uno casuale.

log(p/(1-p))[0,1]


3
Mi chiedo di questo uso di "risposta". Il nostro pubblico previsto probabilmente capirà che per indicare la risposta osservata : sì o no, 0 o 1, ecc. Nella regressione logistica modelliamo qualcosa di non osservato (e mai direttamente osservabile); vale a dire, l'ipotetica possibilità della risposta. Il "collegamento" è semplicemente una questione di esprimere quelle possibilità come probabilità di registro piuttosto che come probabilità. La regressione logistica presuppone che le probabilità del registro variano linearmente con gli IV. (Il mio uso di "modello", "ipotizza" e "ipotetico", piuttosto che "è" e "prevedere", indica anche un diverso punto di vista cognitivo e ontologico.)
whuber

1
Buon punto whuber.
Michael R. Chernick,

-2

Spiegherei dicendo che a volte ho bisogno di cose previste. Ad esempio, il prezzo di una casa ha fornito alcune informazioni al riguardo. Diciamo, le sue dimensioni, la posizione, quanti anni ha la costruzione, ecc. Voglio trasformarlo in un modello che tenga conto dell'influenza di questi fattori per prevedere il prezzo.

Ora, prendendo un sottoesempio, diciamo, considero solo le dimensioni della casa. Ciò implicherebbe che nient'altro influisce sul prezzo. Potrebbe essere un caso in cui sto confrontando case che si trovano nella stessa località, sono state costruite nello stesso periodo ecc. O potrebbe essere che non voglio complicare le cose per me stesso e quindi voglio che la vita reale si adegui a come lontano posso pensare. Passando, faccio un modello in cui ho un elenco di dimensioni e prezzi corrispondenti di proprietà simili (diciamo, da vendite che si sono verificate di recente ... ma che avrebbero un grave pregiudizio da case che non sono in vendita e quindi influenzano il prezzo delle case che lo sono. ma ignoriamo quello).

Ora vedo che una casa di 100 piedi quadrati costa $ 1 milione (superati, questo è un esempio semplificato). Quindi, naturalmente, ti aspetteresti che una casa di 200 piedi quadrati abbia un costo doppio. Ed è quello che chiameremmo un "modello lineare". Naturalmente quando raccogliamo i dati e le dimensioni della trama rispetto al prezzo, vediamo che non è esattamente il doppio. Ma c'è sicuramente una tendenza crescente.

Quindi provo a quantificare la tendenza. Quanto aumento per ogni piede quadrato aumentato? Questa è regressione lineare.

INSERIRE la mappa terminologica e continuare con concetti statistici. Un modo di spiegare componenti casuali e sistematici potrebbe essere che qualunque cosa tu abbia dimenticato di modellare, o che non sia possibile misurare, sia casuale. Tutto ciò che potresti è sistematico. (Ad esempio, supponiamo che sia il 2008 e che desideri vendere una casa.)

I presupposti che stanno alla base di questo modello sono che il grafico a dispersione dovrebbe apparire come un'asta. Il che significa che sia X che Y sono "normali". e tutti hanno una varianza simile.

In caso contrario, immettere GLM. e ora spiega la funzione di collegamento in tutto ciò.

È semplificato, ma dovrebbe funzionare come un'introduzione.

Puoi inserire la storia di GLM e modelli fattoriali. Laddove Fisher richiedeva che le cose iniziassero a variare insieme e questo quadro era adatto a quel tipo di complessità.

Spero che sia di aiuto...


1
Apprezziamo i tuoi sforzi ma non è necessario pubblicare il tuo materiale fino a quando non hai effettivamente finito di scriverlo. Nella sua forma attuale, il modo in cui decade in note criptiche sparse alla fine deluderà i lettori.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.