In [1, §3.2], David Freedman suggerisce una risposta essenzialmente negativa alla tua domanda. Cioè, nessun (semplice) modello statistico o algoritmo potrebbe risolvere il problema di John Snow. Il problema di Snow era quello di sviluppare un argomento critico a sostegno della sua teoria secondo cui il colera è una malattia infettiva dovuta all'acqua, contro la teoria prevalente del miasma dei suoi tempi. (Il capitolo 3 di [1], intitolato "Modelli statistici e calzature in pelle", è disponibile anche in forma precedentemente pubblicata [2] qui .)
In queste brevi pagine [1, pp.47–53], molte delle quali sono una citazione estesa dello stesso John Snow, Freedman sostiene che "ciò che Snow fece effettivamente nel 1853–54 è persino più interessante della favola [della Broad Street Pump]. " Per quanto riguarda le prove statistiche di smistamento (altri preliminari come l'identificazione del caso indice, ecc., Sono discussi oltre), Snow ha sfruttato la variazione naturale per effettuare un quasi-esperimento davvero notevole.
Si scopre che in precedenza, c'era una forte concorrenza tra le società di approvvigionamento idrico a Londra, e questo ha provocato una miscelazione spaziale dell'approvvigionamento idrico che era (nelle parole di Snow) "del tipo più intimo".
Le condotte di ogni compagnia scendono per tutte le strade e in quasi tutti i campi e i vicoli. Alcune case sono fornite da una società e alcune dall'altra, secondo la decisione del proprietario o dell'occupante in quel momento in cui le compagnie idriche erano in competizione attiva.
...
Poiché non vi è alcuna differenza nelle case o nelle persone che ricevono la fornitura delle due società idriche o in una qualsiasi delle condizioni fisiche con cui sono circondati, è ovvio che non sarebbe stato possibile elaborare alcun esperimento che avrebbe testato più a fondo il effetto dell'approvvigionamento idrico sull'andamento del colera rispetto a questo, che le circostanze hanno posto pronto fatto davanti all'osservatore.
—John Snow
Un altro pezzetto di "variazione naturale" di fondamentale importanza che John Snow ha sfruttato in questo quasi-esperimento è stato il fatto che una compagnia idrica aveva il suo apporto idrico sul Tamigi a valle degli scarichi fognari , mentre l'altra aveva alcuni anni prima che lo trasferisse a monte . Ti farò indovinare quale era quale dalla tabella dei dati di John Snow!
| Numero di | Colera | Morti per
Azienda | case | morti | 10.000 case
-------------------------------------------------- --------
Southwark e Vauxhall | 40.046 | 1263 | 315
Lambeth | 26,107 | 98 | 37
Resto di Londra | 256.423 | 1422 | 59
Come nota Freedman appassionatamente,
Come parte della tecnologia statistica, [la tabella sopra] non è affatto notevole. Ma la storia che racconta è molto convincente. La forza dell'argomentazione deriva dalla chiarezza del ragionamento precedente, dall'unione di molte diverse linee di prova e dalla quantità di pelle di scarpe che Snow era disposta a usare per ottenere i dati. [1, p.51]
Un altro punto di variazione naturale sfruttato da Snow si è verificato nella dimensione temporale : il summenzionato trasferimento dell'assunzione di acqua si è verificato tra due epidemie, consentendo a Snow di confrontare l'acqua della stessa azienda con e senza aggiunta di acque reflue. (Grazie a Philip B. Stark, un autore di [1], per queste informazioni via Twitter . Vedi questa sua lezione online .)
Questa questione fornisce anche uno studio istruttivo sul contrasto tra deduttivismo e induttivismo , come discusso in questa risposta .
Freedman D, Collier D, Sekhon JS, Stark PB. Modelli statistici e inferenza causale: un dialogo con le scienze sociali. Cambridge; New York: Cambridge University Press; 2010.
Freedman DA. Modelli statistici e scarpe in pelle. Metodologia sociologica . 1991; 21: 291-313. DOI: 10,2307 / 270.939. Testo intero