Ridurre al minimo i pregiudizi nella modellazione esplicativa, perché? ("Spiegare o predire" di Galit Shmueli)


15

Questa domanda fa riferimento al documento di Galit Shmueli "Spiegare o predire" .

Nello specifico, nella sezione 1.5, "Spiegazione e previsione sono diverse", il professor Shmueli scrive:

Nella modellistica esplicativa l'attenzione si concentra sulla minimizzazione della distorsione per ottenere la rappresentazione più accurata della teoria sottostante.

Questo mi ha lasciato perplesso ogni volta che ho letto il giornale. In che senso minimizzare la distorsione nelle stime fornisce la rappresentazione più accurata della teoria sottostante?

Ho anche visto il discorso del professor Shmueli qui , tenuto al JMP Discovery Summit 2017, e afferma:

... cose che sono modelli di contrazione, complessi, non li vedrai mai. Perché tali modelli, in base alla progettazione, introducono distorsioni al fine di ridurre la distorsione / varianza complessiva. Ecco perché non ci saranno, non ha senso teorico farlo. Perché dovresti rendere il tuo modello distorto di proposito?

Questo non fa davvero luce sulla mia domanda, semplicemente riaffermando l'affermazione che non capisco.

Se la teoria ha molti parametri e abbiamo scarsi dati per stimarli, l'errore di stima sarà dominato dalla varianza. Perché sarebbe inappropriato utilizzare una procedura di stima distorta come la regressione della cresta (risultante in stime distorte della varianza inferiore) in questa situazione?


1
Buona domanda! +1 Ho fatto una domanda relativa a stats.stackexchange.com/questions/204386/…
Adrian

@Adrian Questa è un'ottima domanda, ben fatta. Mi piacerebbe anche vedere una risposta esauriente a quella!
Matthew Drury,

Risposte:


6

Questa è davvero una grande domanda, che richiede un tour nel mondo dell'uso di modelli statistici nella ricerca econometrica e delle scienze sociali (da quello che ho visto, statistici applicati e minatori di dati che svolgono un lavoro descrittivo o predittivo in genere non si occupano di parzialità di questo modulo). Il termine "parzialità" che ho usato nell'articolo è ciò che gli econometrici e gli scienziati sociali considerano un grave pericolo per inferire la causalità dagli studi empirici. Si riferisce alla differenza tra il tuo modello statistico e il modello teorico causale che sta alla base . Un termine correlato è "specifica del modello", un argomento ampiamente insegnato in econometria a causa dell'importanza di "specificare correttamente il modello di regressione" (rispetto alla teoria) quando il tuo obiettivo è la spiegazione causale. Vederel'articolo di Wikipedia sulle specifiche per una breve descrizione. Un importante problema di errata specificazione è la sotto specifica , chiamata "Omissed Variable Bias" (OVB), in cui si omette una variabile esplicativa dalla regressione che avrebbe dovuto essere lì (secondo la teoria) - questa è una variabile correlata con la variabile dipendente e con almeno una delle variabili esplicative. Vedi questa descrizione accurata ) che spiega quali sono le implicazioni di questo tipo di distorsione. Da un punto di vista teorico, OVB danneggia la tua capacità di inferire la causalità dal modello.

Nell'appendice del mio documento Per spiegare o prevedere? c'è un esempio che mostra come un modello non specificato ("sbagliato") a volte possa avere un potere predittivo più elevato. Ma ora spero che tu possa capire perché ciò sia in contraddizione con l'obiettivo di un "buon modello esplicativo causale".


2
Penso che ci sia ancora molta confusione sui modelli predittivi e esplicativi. Ho intervistato uno scienziato di dati presso un'importante compagnia assicurativa e ho chiesto se costruissero modelli predittivi o esplicativi nel suo team. Ha detto "non importa davvero" - Non credo che conoscesse la differenza.
Robert F,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.