Visualizzazione al flusso di lavoro di inferenza


9

Fornisco supporto statistico per un dipartimento di sanità pubblica. Come puoi immaginare, abbiamo messo insieme molte mappe su base regolare. Per me, le mappe sono solo un altro tipo di visualizzazione dei dati - utile per farsi un'idea dei dati, per generare e verificare ipotesi, ecc. Ma spesso non seguiamo i modelli reali e i test delle ipotesi .

Come fai tu / la tua organizzazione a fare questo? Che aspetto ha un flusso di lavoro che include l'inferenza? Chi è coinvolto? quali strumenti usi? Come sarebbe idealmente , se avessi la tua strada?

Grazie!

MODIFICARE

Per essere chiari, sono curioso di conoscere diverse strategie per passare dai dati spaziali ai test formali e statistici delle ipotesi su ciò che sta accadendo nel mondo. Ad esempio, supponiamo che sto cercando di indirizzare una campagna educativa per aumentare i test sulla tubercolosi. Io (personalmente) mapperei i casi di tubercolosi contro le covariate di interesse (diciamo, reddito medio o percentuale di residenti di origine straniera) e proverei a vedere se ci fossero dei modelli.

Potrei o non trovarne nessuno; ma alla fine vorrei costruire un modello per stimare l'associazione tra quelle covariate e il numero di dati demografici. Questo è un passo fondamentale a causa di quanto siano bravi gli umani a trovare schemi in cui nessuno esiste o a trovare quelli poco interessanti. So come farlo da solo, ma sono curioso di sapere come le diverse organizzazioni lo istituzionalizzano (se non del tutto).


Ottima domanda!
whuber

Stai dicendo che devi avere un flusso di lavoro in modo che se c'è un focolaio di una malattia per la quale è disponibile una fornitura limitata di vaccino, devi essere in grado di dimostrare che stai distribuendo in modo ottimale il vaccino?
Kirk Kuykendall,

In generale, sono solo interessato a come le persone incorporano l'inferenza statistica nei loro processi di mappatura. Quello che descrivi è certamente uno scenario possibile, ma ce ne sono molti altri e non sono nemmeno particolarmente interessato alle risposte dell'epidemiologia.
Matt Parker,

Risposte:


2

Domanda molto interessante!

In primo luogo, la tua domanda allude a ciò che io chiamo "data mining" e penso che valga la pena riaffermare il problema esplicitamente poiché alcune persone qui potrebbero non averlo: con qualsiasi set di dati (non deve essere spaziale) per ottenere un statisticamente valido relazione della convenzione è che deve avere una probabilità pari o superiore al 95%. Tuttavia, se si eseguono 20 test, è probabile che almeno uno dei risultati "statisticamente validi" ottenuti sia dovuto alla pura possibilità. Quindi è una cattiva pratica giocare con un set di dati (in GIS sarebbe mapparlo) per visualizzare molte possibili relazioni tra variabili, trovarne una interessante e collegare le statistiche e citare il risultato come se questo fosse l'unico test aveva fatto. Puoi comunque utilizzare il risultato ma devi tenere conto del numero di test che hai effettuato.

È quello che stavi guidando?

La tua domanda sembra porsi come le persone si formalizzano evitando questo problema. La mia risposta è che l'opzione "per niente" che citi è comune. I medici statistici (ad es. La mia ragazza) nella mia esperienza applicano un rigore molto più elevato a questo tipo di processo rispetto a quello che si trova in altre aree, sospetto che tutti i tipi di mappatura dei dati al di fuori della salute pubblica vengano eseguiti senza alcun tipo di considerazione formale del problema con le formule delle statistiche applicate ciecamente senza comprendere correttamente il processo. Viene in mente un esempio geologico:

Ho letto un documento peer review in cui gli autori hanno esaminato come la resa del pozzo (quantità di acqua che poteva essere pompata) fosse correlata alle influenze geologiche e spaziali in Africa, ad esempio lo spessore dello strato di ghiaia che è stato scavato prima che la roccia del letto fosse colpita. L'idea era di aiutare i trapani da trivellazione in modo che potessero indirizzare le posizioni migliori per i fori. Gli autori hanno minuziosamente minato i dati combinando tutti i tipi di variabili per vedere quali sono emersi con un livello di confidenza del 95% e (presumo) nessuno dei revisori aveva messo in dubbio la validità dei risultati. Le loro conclusioni erano quindi completamente inaffidabili.

Spero sia di interesse


Puoi spiegarci un po 'di più perché il documento che descrivi non è affidabile? Non è ovvio per me perché questo è il caso. Se la relazione esiste statisticamente, importa quale "modello mentale" hai usato per identificarla? Capisco che non spiega il meccanismo, ma questo è un problema separato.
DJJ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.