Quale modello statistico o algoritmo potrebbe essere utilizzato per risolvere il problema John Snow Cholera?


23

Sono interessato a imparare come sviluppare un'approssimazione geografica di un qualche tipo di epicentro basato sui dati dell'epidemia di John Snow Cholera. Quale modello statistico potrebbe essere utilizzato per risolvere un tale problema senza una conoscenza preliminare di dove si trovano i pozzi.

Come problema generale, avresti a disposizione il tempo, la posizione dei punti noti e il percorso a piedi dell'osservatore. Il metodo che sto cercando userebbe queste tre cose per stimare l'epicentro dello "scoppio".


2
I modelli di Kriging vengono utilizzati per la previsione geografica. Potrebbe essere un punto di partenza. Per includere le informazioni sul tempo, dovrai fare un passo ulteriore e utilizzare un modello spazio-temporale (non le ho usate però).
Ottimo38

4
@Great Kriging sarebbe difficile da applicare qui: non è inteso per stimare extrema, né è adatto alla geometria del tempo di percorrenza lungo le strade che è rilevante, né è ben adattato al controllo di importanti covariate come la densità di popolazione o numero di lavoratori negli edifici.
whuber

Questo pacchetto R potrebbe essere di interesse github.com/lindbrook/cholera .
David C. Norris,

Risposte:


25

Non per dare una risposta completa o autorevole, ma solo per stimolare idee, riferirò su una rapida analisi che ho fatto per un esercizio di laboratorio in un corso di statistica spaziale che insegnavo dieci anni fa. Lo scopo era vedere quale effetto avrebbe avuto un metodo esplorativo relativamente semplice una stima accurata della densità dei percorsi di viaggio (a piedi) rispetto all'utilizzo delle distanze euclidee: una stima della densità del kernel. Dove sarebbe il picco (o picchi) della densità rispetto alla pompa di cui rimuoveva la maniglia Snow?

Utilizzando una rappresentazione raster ad alta risoluzione (2946 righe per 3160 colonne) della mappa di Snow (correttamente georeferenziata), ho digitalizzato ciascuna delle centinaia di piccole bare nere mostrate sulla mappa (trovandone 558 a 309 indirizzi), assegnandole a il bordo della strada corrispondente al suo indirizzo, e riassumendo per indirizzo in un conteggio in ogni posizione.

Mappa dei punti dei dati di input

Dopo aver elaborato alcune immagini per identificare le strade e i vicoli, ho condotto una semplice diffusione gaussiana limitata a quelle aree (usando ripetuti mezzi focali in un GIS). Questo è il KDE.

Il risultato parla da solo - non ha nemmeno bisogno di una leggenda per spiegarlo. (La mappa mostra molte altre pompe, ma si trovano tutte al di fuori di questa vista, che si concentra sulle aree di massima densità.)

Mappa di Snow che mostra la densità con il colore.


WOW. Quindi per riassumere; 1. linearizzare il percorso di spostamento, 2. eseguire il livellamento in una dimensione, 3. estendere il livellamento in due dimensioni, 4. mediare il kde attraverso i percorsi?
cylondude,

1
Il livellamento è stato eseguito in 2D, ma limitato alla regione mostrata a colori. Ci sono anche altri modi per farlo, simili alla tua descrizione. Tuttavia, non è necessario fare la media dei "percorsi" (qualunque essi siano). Questa mappa è interessante in parte perché condivide le proprietà delle geometrie unidimensionali e bidimensionali.
whuber

Per ogni punto A sulle strade, conta il numero di passi tra loro per il punto B tra le posizioni degli indirizzi. Inserisci quel numero di passaggi in una densità gaussiana e moltiplica quel valore per il numero di morti in B. Aggiungi tutti quei prodotti (cioè su tutti i punti di indirizzo B) per ottenere la densità del kernel nel punto A. Fallo per tutti i punti A sulle strade. Questa è la densità che stiamo vedendo in ogni punto della mappa. Sì?
Hatshepsut,

2
@Hatshepsut Questa è una proposta ragionevole. Quello che ho fatto è stato solo leggermente diverso. Per ogni punto sulle posizioni dell'indirizzo (sorgente), ho creato una funzione gaussiana della distanza percorsa da quel punto come descritto, e poi l'ho normalizzata in modo che il suo integrale sulla griglia stradale fosse uguale al conteggio in quella posizione sorgente. In questo modo ogni morte veniva "diffusa" nel suo quartiere. Questi valori sono stati sommati su tutte le posizioni di origine per produrre l'immagine mostrata. B
whuber

2
@Hat Non è il caso che il gaussiano abbia un'unità integrale quando è vincolato alle strade e ai passaggi pedonali! Viene quindi troncato e deve essere rinormalizzato.
whuber

19

In [1, §3.2], David Freedman suggerisce una risposta essenzialmente negativa alla tua domanda. Cioè, nessun (semplice) modello statistico o algoritmo potrebbe risolvere il problema di John Snow. Il problema di Snow era quello di sviluppare un argomento critico a sostegno della sua teoria secondo cui il colera è una malattia infettiva dovuta all'acqua, contro la teoria prevalente del miasma dei suoi tempi. (Il capitolo 3 di [1], intitolato "Modelli statistici e calzature in pelle", è disponibile anche in forma precedentemente pubblicata [2] qui .)

In queste brevi pagine [1, pp.47–53], molte delle quali sono una citazione estesa dello stesso John Snow, Freedman sostiene che "ciò che Snow fece effettivamente nel 1853–54 è persino più interessante della favola [della Broad Street Pump]. " Per quanto riguarda le prove statistiche di smistamento (altri preliminari come l'identificazione del caso indice, ecc., Sono discussi oltre), Snow ha sfruttato la variazione naturale per effettuare un quasi-esperimento davvero notevole.

Si scopre che in precedenza, c'era una forte concorrenza tra le società di approvvigionamento idrico a Londra, e questo ha provocato una miscelazione spaziale dell'approvvigionamento idrico che era (nelle parole di Snow) "del tipo più intimo".

Le condotte di ogni compagnia scendono per tutte le strade e in quasi tutti i campi e i vicoli. Alcune case sono fornite da una società e alcune dall'altra, secondo la decisione del proprietario o dell'occupante in quel momento in cui le compagnie idriche erano in competizione attiva.

...

Poiché non vi è alcuna differenza nelle case o nelle persone che ricevono la fornitura delle due società idriche o in una qualsiasi delle condizioni fisiche con cui sono circondati, è ovvio che non sarebbe stato possibile elaborare alcun esperimento che avrebbe testato più a fondo il effetto dell'approvvigionamento idrico sull'andamento del colera rispetto a questo, che le circostanze hanno posto pronto fatto davanti all'osservatore.

—John Snow

Un altro pezzetto di "variazione naturale" di fondamentale importanza che John Snow ha sfruttato in questo quasi-esperimento è stato il fatto che una compagnia idrica aveva il suo apporto idrico sul Tamigi a valle degli scarichi fognari , mentre l'altra aveva alcuni anni prima che lo trasferisse a monte . Ti farò indovinare quale era quale dalla tabella dei dati di John Snow!

                     | Numero di | Colera | Morti per
Azienda | case | morti | 10.000 case
-------------------------------------------------- --------
Southwark e Vauxhall | 40.046 | 1263 | 315
Lambeth | 26,107 | 98 | 37
Resto di Londra | 256.423 | 1422 | 59

Come nota Freedman appassionatamente,

Come parte della tecnologia statistica, [la tabella sopra] non è affatto notevole. Ma la storia che racconta è molto convincente. La forza dell'argomentazione deriva dalla chiarezza del ragionamento precedente, dall'unione di molte diverse linee di prova e dalla quantità di pelle di scarpe che Snow era disposta a usare per ottenere i dati. [1, p.51]

Un altro punto di variazione naturale sfruttato da Snow si è verificato nella dimensione temporale : il summenzionato trasferimento dell'assunzione di acqua si è verificato tra due epidemie, consentendo a Snow di confrontare l'acqua della stessa azienda con e senza aggiunta di acque reflue. (Grazie a Philip B. Stark, un autore di [1], per queste informazioni via Twitter . Vedi questa sua lezione online .)


Questa questione fornisce anche uno studio istruttivo sul contrasto tra deduttivismo e induttivismo , come discusso in questa risposta .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Modelli statistici e inferenza causale: un dialogo con le scienze sociali. Cambridge; New York: Cambridge University Press; 2010.

  2. Freedman DA. Modelli statistici e scarpe in pelle. Metodologia sociologica . 1991; 21: 291-313. DOI: 10,2307 / 270.939. Testo intero


1
+1 per aver sottolineato che la semplice identificazione di un epicentro sarebbe stata insufficiente per risolvere il "problema di John Snow", come affermato. La teoria del miasma era una delle teorie prevalenti al momento, come sottolinea David. Per falsificare la teoria del miasma, si dovrebbe dimostrare che i tassi geografici non aumentano in prossimità del fiume. Un approccio moderno a questo problema avrebbe potuto utilizzare kriging.
AdamO,

Grazie, @AdamO; ma mi chiedo come Kriging accolga la mescolanza spaziale "intima" in questo caso, che sembra quasi un affronto alla continuità necessaria per applicare una tecnica di interpolazione (come capisco che Kriging sia).
David C. Norris,

Forse ho frainteso le parole di Snow: la mia presunzione era che la "mescolanza intima [delle fonti di approvvigionamento delle pompe idriche]" si riferiva a un disegno a blocchi quasi perfetto in cui, stratificato per distanza dal fiume, ogni strato concentrico di isolati aveva almeno pompe dei fornitori A, B, C ... ciò ha a che fare con il sostenere la teoria secondo cui l'acqua contaminata causa colera. Kriging respingerebbe l'ipotesi del miasma dimostrando che la vicinanza al fiume non è associata ad una maggiore incidenza di colera. Ciò è supportato dalle persone che annaffiano alle pompe: il miasma non viaggia per tubo.
AdamO,

2
@AdamO In realtà, William Farr aveva studiato i tassi di mortalità per colera (dal 1849) e li aveva confrontati con l'elevazione sopra il Tamigi. La corrispondenza tra queste variabili è sorprendente e quasi perfettamente in linea con le previsioni della teoria del miasma. Vedi Langmuir AD. Rassegna batteriologica 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Questo articolo rileva che anche al momento della morte del Dr. Snow nel 1858, la sua teoria non era "accettata negli ambienti ufficiali".
whuber

1
Mille grazie per quei riferimenti, @whuber. A titolo di cura, noto che l'articolo di Langmuir è ad accesso aperto .
David C. Norris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.