Se il pubblico non ha davvero un background statistico, penso che proverei a semplificare un po 'di più la spiegazione. Innanzitutto, disegnerei un piano di coordinate sul tabellone con una linea su di esso, in questo modo:
Tutti al tuo discorso avranno familiarità con l'equazione per una linea semplice, y = m x + b , perché è qualcosa che si impara nella scuola elementare. Quindi lo mostrerei accanto al disegno. Tuttavia, lo scriverei al contrario, in questo modo: y= m x + b
m x + b = y
Direi che questa equazione è un esempio di una semplice regressione lineare. Spiegherei quindi come tu (o un computer) potresti adattare una simile equazione a un diagramma a dispersione di punti dati, come quello mostrato in questa immagine:
Direi che qui stiamo usando l'età dell'organismo che stiamo studiando per prevedere quanto è grande e che la risultante equazione di regressione lineare che otteniamo (mostrata nell'immagine) può essere usata per prevedere quanto è grande un organismo è se conosciamo la sua età.
m x + b = y
Spiegherei di nuovo che questo era un esempio di una semplice equazione di regressione lineare e che in realtà esistono varietà più complicate. Ad esempio, in una varietà chiamata regressione logistica , alle y è consentito solo 1 o 0. Si potrebbe voler utilizzare questo tipo di modello se si sta tentando di prevedere una risposta "sì" o "no", ad esempio se qualcuno ha una malattia o meno. Un'altra varietà speciale è qualcosa chiamata regressione di Poisson , che viene utilizzata per analizzare i dati di "conteggio" o "evento" (non approfondirei questo argomento se non fosse realmente necessario).
Spiegherei quindi che la regressione lineare, la regressione logistica e la regressione di Poisson sono in realtà tutti esempi speciali di un metodo più generale, qualcosa chiamato "modello lineare generalizzato". La cosa grandiosa di "modelli lineari generalizzati" è che ci permettono di usare dati di "risposta" che possono assumere qualsiasi valore (come la dimensione di un organismo nella regressione lineare), prendere solo 1 o 0 (come se qualcuno abbia o meno un malattia nella regressione logistica) o prendere conteggi discreti (come il numero di eventi nella regressione di Poisson).
Direi quindi che in questi tipi di equazioni, le x (predittori) sono collegate alle y (risposte) tramite qualcosa che gli statistici chiamano "funzione di collegamento". Usiamo queste "funzioni di collegamento" nei casi in cui le x non sono correlate alle y in modo lineare.
Ad ogni modo, quelli sono i miei due centesimi sulla questione! Forse la mia spiegazione proposta suona un po 'hokey e stupida, ma se lo scopo di questo esercizio è solo quello di far conoscere il pubblico al pubblico, forse una spiegazione come questa non è poi così male. Penso che sia importante che il concetto sia spiegato in modo intuitivo ed eviti di gettare parole come "componente casuale", "componente sistematico", "funzione di collegamento", "deterministico", "funzione di logit", ecc. Se tu ' parlando con persone che non hanno veramente un background statistico, come un tipico biologo o un medico, i loro occhi si limiteranno a sbirciare nel sentire quelle parole. Non sanno cos'è una distribuzione di probabilità, non hanno mai sentito parlare di una funzione di collegamento e non sanno cosa sia un "logit"
Nella tua spiegazione a un pubblico non statistico, vorrei anche concentrarmi su quando utilizzare quale varietà di modello. Potrei parlare di quanti predittori ti è permesso includere nella parte sinistra dell'equazione (ho sentito delle regole empiriche come non più della dimensione del tuo campione divisa per dieci). Sarebbe anche bello includere un foglio di esempio con i dati e spiegare al pubblico come utilizzare un pacchetto software statistico per generare un modello. Vorrei quindi esaminare l'output di quel modello passo dopo passo e provare a spiegare cosa significano tutte le diverse lettere e numeri. I biologi non sono a conoscenza di queste cose e sono più interessati a imparare quali test usare quando invece di acquisire una comprensione della matematica dietro la GUI di SPSS!
Gradirei qualsiasi commento o suggerimento riguardo alla mia spiegazione proposta, in particolare se qualcuno nota errori o pensa a un modo migliore per spiegarlo!