La pulizia dei dati può peggiorare i risultati dell'analisi statistica?


17

Un aumento del numero di casi e decessi si verifica durante le epidemie (improvviso aumento del numero) a causa di una circolazione del virus (come il virus del Nilo occidentale negli Stati Uniti nel 2002) o una riduzione della resistenza delle persone o della contaminazione di cibo o acqua o aumento del numero di zanzare. Queste epidemie si presenteranno come valori anomali che possono verificarsi ogni 1-5 anni. Rimuovendo questi valori anomali stiamo rimuovendo prove di epidemie che costituiscono una parte importante della previsione e della comprensione della malattia.

La pulizia dei dati è necessaria quando si affrontano i valori anomali causati dalle epidemie?

Migliorerà i risultati o peggiorerà i risultati dell'analisi statistica?

Risposte:


12

In realtà dipende dallo scopo della tua ricerca. A mio avviso, ci potrebbero essere diversi:

  1. Vuoi capire quali sono i fattori tipici che causano casi e morti e che non sono influenzati da periodi epidemici e fattori che causano epidemie (quindi sei interessato a non forzare le probabilità principali principali) - in questo caso ovviamente devi rimuovere l'epidemia periodi dai dati, così come sono allo scopo di ricercare gli outlier a ciò che vorresti concludere
  2. Potresti voler includere cambiamenti epidemici nei tuoi modelli (modelli di cambio di regime, ad esempio, tutti i buoni collegamenti e suggerimenti di modelli della comunità sono i benvenuti qui), perché vuoi sapere la probabilità che si verifichi il periodo dell'epidemia (e anche per quanto tempo durerà), per testare la stabilità e per prevedere - in questo caso non si escludono periodi epidemici, ma si cercano modelli più complicati piuttosto che utilizzare un martello-strumento econometrico o qualcosa di simileOLS
  3. Il tuo obiettivo principale è quello di rilevare i periodi epidemici e monitorarli in tempo reale - è un campo speciale in econometria con cui alcuni miei colleghi stanno lavorando all'Università di Vilnius (sicuramente, vorresti avere molte osservazioni epidemiche da affrontare )

Quindi, se il tuo obiettivo principale è qualcosa di simile a 2, la cancellazione dei dati causerà conclusioni errate sulle previsioni future, ovvero prestazioni di previsione imprecise. È anche vero che il secondo caso non fornisce necessariamente previsioni migliori, ma almeno potresti trarre conclusioni sulle probabilità dei periodi epidemici e sulla loro durata. Questo è di vitale importanza per i matematici attuariali, quindi potresti essere tu?


Grande e semplice risposta. Hai una conoscenza apprezzabile in giovane età.
DrWho,

15

Personalmente non definirei questa "pulizia dei dati". Penso alla pulizia dei dati più nel senso della modifica dei dati: a eliminare le incongruenze nel set di dati (ad esempio, un record ha riportato un'età di 1000 anni o una persona di 4 anni è un genitore single, ecc.).

La presenza di un effetto reale nei tuoi dati non lo rende "disordinato" (al contrario, la presenza di effetti reali lo renderebbe ricco), sebbene possa rendere più coinvolto il tuo compito matematico. Vorrei suggerire che i dati vengano "puliti" in questo modo se è l'unico modo possibile per ottenere una previsione. Se esiste un modo fattibile che non getta via le informazioni, allora usale.

Sembra che potresti trarre beneficio da una sorta di analisi ciclica, dato che dici che questo effetto si verifica periodicamente (un po 'come un "ciclo economico").

Dal mio punto di vista, se stai cercando di prevedere qualcosa, rimuovere un effetto reale da quella fonte non può che peggiorare le tue previsioni. Questo perché hai effettivamente "gettato via" le stesse informazioni che desideri prevedere!

L'altro punto è che può essere difficile determinare la quantità di morti causata dall'epidemia e quanto è stato causato dalle normali fluttuazioni.

Nella terminologia statistica, l'epidemia suona così, dal tuo punto di vista, è una "seccatura" per ciò che realmente vuoi analizzare. Quindi non ti interessa particolarmente, ma devi in ​​qualche modo tenerne conto nella tua analisi. Un modo "rapido e sporco" per farlo in un contesto di regressione è quello di includere un indicatore per gli anni / i periodi epidemici come variabile regressore. Ciò fornirà una stima media dell'effetto delle epidemie (e presuppone implicitamente che l'effetto sia lo stesso per ogni epidemia). Tuttavia, questo approccio funziona solo per descrivere l'effetto, perché nella previsione la tua variabile di regressione è sconosciuta (non sai quali periodi in futuro saranno epidemici).

Un altro modo di spiegare l'epidemia è usare un modello di miscela con due componenti: un modello per la parte epidemica e un modello per la parte "ordinaria". Il modello procede quindi in due fasi: 1) classifica un periodo come epidemico o normale, quindi 2) applica il modello a cui è stato classificato.


(+1) bei suggerimenti, anche se probabilmente sono possibili altri trucchi non così sporchi.
Dmitrij Celov,

+1; Per i posteri, voglio fare il seguente commento: Afferma che "rimuovere un effetto genuino ... può solo peggiorare le tue previsioni". Nel contesto, hai chiaramente ragione, tuttavia, nel caso generale questo non è necessariamente vero. (Sto pensando al "trade-biance variance", che è un grosso problema nella modellazione predittiva.) Ancora una volta, penso che tu sia proprio qui, e so che conosci il trade-biance-variance; Voglio menzionarlo per chiunque si imbattesse in questa risposta in futuro e potrebbe interpretare erroneamente tale affermazione.
gung - Ripristina Monica

5

Per darti una risposta generale alla tua domanda, permettimi di paraparizzare uno dei miei vecchi direttori generali: le opportunità di ricerca si trovano nei valori anomali del modello che stai adattando.

La situazione è simile all'esperimento condotto dal mio Robert Millikan nel determinare la carica di un elettrone. Decenni dopo aver vinto il premio Nobel per il suo esperimento, i suoi appunti sono stati esaminati e si è scoperto che ha buttato via un gran numero di punti dati perché non erano d'accordo con i risultati che stava cercando. È una cattiva scienza?

Se trovi alcuni valori anomali, forse sono dovuti a "abberazioni statistiche". Tuttavia, se trovi più di alcuni valori anomali, devi esplorare i tuoi dati più da vicino. Se non è possibile attribuire una causa per le abberazioni, non si comprende il processo e un modello statistico non risolverà il problema. Lo scopo di un modello è di riassumere un processo, il modello non riassumerà magicamente un processo che lo sperimentatore non capisce.


È la tendenza umana. Robert Millikan non ha fatto eccezione. Sono molto contento che siano state illuminate così tante cose nuove e sia stata enfatizzata la filosofia alla base di un modello statistico.
DrWho,

5

Il ruolo della "pulizia dei dati" è identificare quando "le nostre leggi (modello) non funzionano". L'aggiustamento per valori anomali o punti di dati anomali ci consente di ottenere "stime affidabili" dei parametri nel modello corrente che stiamo intrattenendo. Questi "valori anomali" se non trattati consentono una distorsione indesiderata nei parametri del modello poiché la stima è "guidata per spiegare questi punti di dati" che "non si comportano secondo il nostro modello ipotizzato". In altre parole, c'è un sacco di rimborso in termini di somma dei quadrati spiegata concentrandosi sui "cattivi". I punti identificati empiricamente che richiedono la pulizia devono essere attentamente esaminati al fine di sviluppare / suggerire potenzialmente fattori di causa che non sono nel modello attuale.

Come valutare l'effetto dell'intervento in uno stato rispetto a un altro usando il tasso annuale di mortalità dei casi?

Fare scienza è cercare schemi ripetuti.

Rilevare anomalie significa identificare valori che non seguono schemi ripetuti. In quale altro modo sapresti che un punto ha violato quel modello? In effetti, il processo di crescita, comprensione, ricerca ed esame dei valori anomali deve essere iterativo. Questo non è un nuovo pensiero.

Sir Frances Bacon, scrivendo a Novum Organum circa 400 anni fa, disse: “Errori di natura, sport e mostri correggono la comprensione delle cose ordinarie e rivelano forme generali. Perché chi conosce le vie della natura noterà più facilmente le sue deviazioni; e, d'altra parte, chiunque conosca le sue deviazioni descriverà più accuratamente le sue vie. "

Modifichiamo le nostre regole osservando quando le regole attuali falliscono.

Se effettivamente gli outlier identificati sono tutti impulsi e hanno effetti (dimensioni) simili, allora suggeriamo quanto segue (citato da un altro poster)

"Un modo" rapido e sporco "per farlo in un contesto di regressione è includere un indicatore per gli anni / i periodi epidemici come variabile regressore. Ciò fornirà una stima media dell'effetto delle epidemie (e presuppone implicitamente che l'effetto sia lo stesso per ogni epidemia). Tuttavia, questo approccio funziona solo per descrivere l'effetto, perché nella previsione la tua variabile di regressione è sconosciuta (non sai quali periodi in futuro saranno epidemici). "

Questo se il corso richiede che le singole anomalie (anni di impulso) abbiano effetti simili. Se differiscono, una variabile portmanteau sopra descritta sarebbe errata.


@IrishStat: ottima spiegazione e una citazione memorabile. Hai mantenuto la tua anzianità e competenza. Puoi gentilmente espandere la tua affermazione "conoscenza in attesa di essere scoperta" con riferimento alla mia domanda precedente stats.stackexchange.com/questions/8358/…
DrWho,

1
@DrWHO: L'identificazione del LEVEL SHIFT nel 2014 che ha posto rimedio a un diagramma residuo dall'aspetto molto cattivo è un esempio di "conoscenza in attesa di essere scoperta" in quanto ha svelato il ritardo apparente tra una data di modifica della politica e la sua data di piena attuazione / realizzazione. l'affermazione che nel 2004 (anno 11 di 17) è stato realizzato un passaggio di livello permanente (fase) riflette la data di fatto in cui la data di scadenza era alcuni anni prima.
IrishStat

@IrishStat: grazie per il chiarimento. È molto difficile convincere i decisori politici, i medici e il pubblico che un determinato trattamento può avere drastici cambiamenti nell'esito della malattia. Ci vogliono decenni. Questo spostamento di livello nel 2004 riflette il ritardo nell'accettare qualcosa di nuovo. È meglio lasciare il passaggio di livello o trattarlo come un valore anomalo per i calcoli dei tassi di mortalità
DrWho

1
il mio commento sopra avrebbe dovuto essere SHIFT LIVELLO al 2004. Mi dispiace per la confusione.
IrishStat,

1
@DrWHO: in risposta alla tua domanda "È meglio lasciare il passaggio di livello o trattarlo come un valore anomalo per i calcoli dei tassi di mortalità dei casi dello Stato 1 mentre si occupa della domanda". Se non lo trattate, allora si può semplicemente dire che STATE1 ha avuto un cambio di cambio di livello al 2004, mentre STATE2 non lo ha fatto in modo diverso, ma non è possibile stabilire una probabilità su tale affermazione. Dopo aver trattato STATE1 per il Level Shift uno ha normalizzato i dati per un cambio di stato al 2004. I dati normalizzati (dati puliti) possono quindi essere confrontati con i dati normalizzati di STATE2 senza perdita di generalità.
IrishStat

5

Uno dei metodi più comunemente usati per trovare epidemie nei dati retrospettivi è in realtà la ricerca di valori anomali - molti ricercatori di influenza, ad esempio, si concentrano principalmente sui residui dei loro modelli adattati, piuttosto che sui modelli stessi, per vedere i luoghi in cui il "giorno in, day out "le previsioni del modello falliscono - uno dei modi in cui il modello può fallire è con la comparsa di un'epidemia.

È imperativo, tuttavia, distinguere tra la ricerca dei valori anomali nei risultati - probabilmente non la più grande idea di sempre - e ciò che la maggior parte delle persone chiama "pulizia dei dati". Qui, stai cercando valori anomali non perché rappresentano un problema statistico, ma perché sollevano problemi di qualità dei dati.

Ad esempio, in un set di dati che ho, c'è una variabile per l'insorgenza della malattia. Per un argomento, questa data è nel novembre del 1929. Penso che sia corretto? No. Questo indica un problema di qualità dei dati che deve essere risolto, in questo caso correggendo la data in base ad altre informazioni sull'argomento. Questo tipo di pulizia dei dati migliorerà attivamente la qualità dei risultati statistici.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.