Pensieri pratici sulla modellistica esplicativa vs. predittiva


70

Ad aprile, ho partecipato a un discorso alla serie di seminari sul gruppo di statistiche del Dipartimento di matematica UMD intitolata "Spiegare o predire?". Il discorso è stato tenuto dal Prof. Galit Shmueli che insegna alla Smith Business School dell'UMD . Il suo intervento si basava sulla ricerca che aveva fatto per un documento intitolato "Predictive vs. Explanatory Modeling in IS Research" , e un lavoro di follow-up intitolato "To Explain or To Predict?" .

L'argomentazione del Dr. Shmueli è che i termini predittivi ed esplicativi in ​​un contesto di modellistica statistica si sono confusi e che la letteratura statistica non ha una discussione approfondita delle differenze. Nel documento, lei contrappone entrambi e parla delle loro implicazioni pratiche. Ti incoraggio a leggere i giornali.

Le domande che vorrei porre alla comunità dei praticanti sono:

  • Come si definisce un esercizio predittivo rispetto a uno esplicativo / descrittivo? Sarebbe utile se potessi parlare dell'applicazione specifica.
  • Sei mai caduto nella trappola dell'uso dell'uno quando intendevi usare l'altro? Certamente. Come fai a sapere quale usare?

2
Si propone di chiudere questa domanda. Vedi: meta.stats.stackexchange.com/questions/213/… Vedo che ha 2 voti. Gli up-votanti o il PO potrebbero commentare perché vorrebbero vedere la domanda rimanere aperta nel meta thread?

9
Piuttosto che dire "questo dovrebbe essere chiuso. Qualcuno dovrebbe difenderlo" che ne dici di iniziare a spiegare perché lo vuoi chiuso. Troppo vago? Quindi chiedere chiarimenti. Questa mi sembra una domanda ragionevole. Il richiedente presenta un documento e chiede che la differenza sia tra le statistiche predittive e quelle esplicative. L'unica modifica che vorrei apportare alla domanda è di chiarire esattamente la domanda, facilitando così il voto.
JD Long

2
Ho già offerto un motivo sul meta thread. Sento che le "meta discussioni" sulla domanda ingombrerebbero questa pagina in particolare.

2
@Srikant @JD Rafforzerò la domanda. Grazie per il feedback. Penso che questo sia un argomento che merita discussione.
wahalulu,

4
Potresti aggiungere dei collegamenti adeguati ai discorsi / articoli sopra menzionati?
chl

Risposte:


39

In una frase

La modellazione predittiva si basa su "cosa è probabile che accada?", Mentre la modellazione esplicativa riguarda "cosa possiamo fare al riguardo?"

In molte frasi

Penso che la differenza principale sia ciò che si intende fare con l'analisi. Vorrei suggerire che la spiegazione è molto più importante per l' intervento rispetto alla previsione. Se vuoi fare qualcosa per modificare un risultato, allora dovresti cercare di spiegare perché è così. La modellazione esplicativa, se eseguita correttamente, ti dirà come intervenire (quale input dovrebbe essere regolato). Tuttavia, se vuoi semplicemente capire come sarà il futuro, senza alcuna intenzione (o capacità) di intervenire, è più probabile che la modellazione predittiva sia appropriata.

Come esempio incredibilmente lento, usando "dati sul cancro".

La modellazione predittiva utilizzando "dati sul cancro" sarebbe appropriata (o almeno utile) se si finanziassero i reparti di cancro di diversi ospedali. Non hai davvero bisogno di spiegare perché le persone hanno il cancro, ma hai solo bisogno di una stima accurata di quanti servizi saranno richiesti. La modellazione esplicativa probabilmente non sarebbe di grande aiuto qui. Ad esempio, sapere che il fumo comporta un rischio maggiore di cancro non ti dice da solo se dare maggiori finanziamenti al reparto A o al reparto B.

La modellizzazione esplicativa dei "dati sul cancro" sarebbe appropriata se si volesse ridurre il tasso nazionale di cancro - la modellazione predittiva sarebbe piuttosto obsoleta qui. La capacità di prevedere con precisione i tassi di cancro difficilmente può aiutarti a decidere come ridurlo. Tuttavia, sapere che il fumo comporta un rischio maggiore di cancro è un'informazione preziosa, perché se si riducono i tassi di fumo (ad es. Rendendo le sigarette più costose), ciò porta a un numero maggiore di persone con meno rischi, il che (si spera) porta a una prevista riduzione del cancro aliquote.

Osservando il problema in questo modo, ritengo che la modellazione esplicativa si focalizzerebbe principalmente sulle variabili che hanno il controllo dell'utente, direttamente o indirettamente. Potrebbe essere necessario raccogliere altre variabili, ma se non è possibile modificare nessuna delle variabili nell'analisi, allora dubito che la modellazione esplicativa sarà utile, tranne forse per darti il ​​desiderio di ottenere il controllo o l'influenza su tali variabili che sono importanti. La modellazione predittiva, grossolanamente, cerca solo associazioni tra variabili, controllate dall'utente o meno. Devi solo conoscere input / caratteristiche / variabili indipendenti / ecc. Per fare una previsione, ma devi essere in grado di modificare o influenzare input / caratteristiche / variabili indipendenti / ecc. Per poter intervenire e cambiare un risultato .


9
+1, ben fatto! Odio il nitpick, ma voglio notare che la previsione non deve riguardare il futuro. Ad esempio, un archeologo potrebbe voler determinare (cioè prevedere) il livello delle precipitazioni in un'area in un punto nel passato mediante la conoscenza delle tracce (ovvero gli effetti delle precipitazioni) che rimangono.
gung - Ripristina Monica

@gung - Pensavo di aver formulato la mia risposta in modo che ciò non accadesse. Chiaramente, ho perso un posto :-)
Probislogic il

Bella risposta. Penso che in molti casi abbiamo bisogno di sapere come sarà il futuro e perché. Supponiamo che, quando studi il mutamento del cliente, vuoi sapere quanti clienti (e esattamente quale cliente) cambiano il prossimo N mese e quindi perché cambiano in modo che il marketing possa intervenire per mantenerli. Quindi abbiamo bisogno sia della previsione (per apprendere il numero e dei clienti futuri) sia della spiegazione per dirci perché, così possiamo ridurre i churners. Quindi, abbiamo un modello ibrido di entrambi o uno è sufficiente? Varty lo ritocca dicendo "La relazione conosciuta potrebbe emergere da un'analisi esplicativa / descrittiva o da qualche altra tecnica"
Espanta,

@gung I love to nitpick: l'archeologo desidera predire esperienze nel suo futuro (ovvero prevedere dove troverà ad un certo punto in futuro tracce di forti piogge passate).
Alexis,

@Alexis, questo è certamente possibile, ma è anche possibile che questo non sia il principale interesse di ricerca dell'archeologo e che quei dati siano già stati raccolti da altri ricercatori (paleoclimatologi) e l'archeologo vuole semplicemente usare quei dati per testare teorie che sono il loro interesse teorico primario ( Gill, 200 ).
gung - Ripristina Monica

30

A mio avviso, le differenze sono le seguenti:

Esplicativa / descrittiva

Quando si cerca una risposta esplicativa / descrittiva, l'attenzione principale è sui dati che abbiamo e cerchiamo di scoprire le relazioni sottostanti tra i dati dopo che il rumore è stato preso in considerazione.

Esempio: è vero che l'esercizio fisico regolare (diciamo 30 minuti al giorno) porta ad abbassare la pressione sanguigna? Per rispondere a questa domanda, possiamo raccogliere dati dai pazienti sul loro regime di allenamento e sui loro valori della pressione sanguigna nel tempo. L'obiettivo è vedere se siamo in grado di spiegare le variazioni della pressione sanguigna da variazioni nel regime di esercizio.

La pressione sanguigna è influenzata non solo dall'esercizio fisico da un'ampia varietà di altri fattori, come la quantità di sodio che una persona mangia, ecc. Questi altri fattori sarebbero considerati rumore nell'esempio sopra dato che l'attenzione è focalizzata sul prendere in giro la relazione tra il regime di esercizio e pressione sanguigna.

Predizione

Quando facciamo un esercizio predittivo, stiamo estrapolando verso l'ignoto usando le relazioni note tra i dati che abbiamo a portata di mano. La relazione nota può emergere da un'analisi esplicativa / descrittiva o da qualche altra tecnica.

Esempio: se mi alleno 1 ora al giorno fino a che punto è probabile che la mia pressione sanguigna scenda? Per rispondere a questa domanda, possiamo utilizzare una relazione precedentemente scoperta tra la pressione sanguigna e il regime di esercizio fisico per eseguire la previsione.

Nel contesto sopra, l'attenzione non è sulla spiegazione, sebbene un modello esplicativo possa aiutare con il processo di previsione. Esistono anche approcci non esplicativi (ad es. Reti neurali) che sono efficaci nel prevedere l'ignoto senza necessariamente aggiungere alla nostra conoscenza la natura della relazione sottostante tra le variabili.


6
+1 Questa risposta evita in gran parte l'associazione confusa con la causalità usando il linguaggio di spiegazione, descrizione e relazione. Questo gli conferisce un auspicabile grado di chiarezza.
whuber

4
Sotto Spiegazione hai scritto "il focus principale è sui dati che abbiamo" - Penso che tu stia cercando di dire che l'attività è retrospettiva (al contrario della natura prospettica della previsione). Nella spiegazione (leggi "spiegazione causale") c'è in realtà una grande attenzione alla teoria e alla conoscenza del dominio e i dati sono usati per testare queste ipotesi / teorie. Al contrario, nella previsione è più guidato dai dati e hai una mentalità più aperta sulle relazioni, perché non stai cercando la causalità ma piuttosto la correlazione.
Galit Shmueli,

@GalitShmueli Reg teoria / conoscenza del dominio- sì, sono d'accordo con questo punto. Stavo semplicemente cercando di contrastare la previsione di fronte alla spiegazione concentrandomi su quella che mi sembra la distinzione chiave, estrapolando il valore di una variabile e scoprendo la relazione tra le variabili. Nel processo, sono ovviamente colpevole di trascurare le sottili sfumature tra i due paradigmi.
varty,

1
@varty Concordo con il tuo punto: nella spiegazione / descrizione sei interessato a una relazione / effetto complessivi / medi, mentre nella previsione sei interessato a prevedere i singoli valori (non necessariamente l'estrapolazione)
Galit Shmueli,

19

Un problema pratico che sorge qui è la selezione variabile nella modellazione. Una variabile può essere un'importante variabile esplicativa (ad esempio, è statisticamente significativa) ma potrebbe non essere utile per scopi predittivi (ovvero, la sua inclusione nel modello comporta una peggiore accuratezza predittiva). Vedo questo errore quasi ogni giorno nei giornali pubblicati.

Un'altra differenza sta nella distinzione tra analisi delle componenti principali e analisi dei fattori. Il PCA viene spesso utilizzato nella previsione, ma non è così utile per la spiegazione. La FA comporta il passaggio aggiuntivo di rotazione che viene fatto per migliorare l'interpretazione (e quindi la spiegazione). C'è un bel post oggi sul blog di Galit Shmueli su questo .

Aggiornamento: un terzo caso si presenta in serie temporali quando una variabile può essere un'importante variabile esplicativa ma non è disponibile per il futuro. Ad esempio, i prestiti immobiliari possono essere fortemente correlati al PIL, ma ciò non è molto utile per prevedere i prestiti immobiliari futuri a meno che non abbiamo anche buone previsioni del PIL.


3
Perché / come un'importante variabile esplicativa ridurrebbe la precisione predittiva?

3
@Srikant. Ciò può accadere quando la variabile esplicativa ha una relazione debole ma significativa con la variabile di risposta. Quindi il coefficiente può essere statisticamente significativo ma difficile da stimare. Di conseguenza, l'MSE delle previsioni può aumentare quando viene inclusa la variabile rispetto a quando viene omessa. (Il pregiudizio è ridotto con la sua inclusione ma la varianza è aumentata.)
Rob Hyndman

Il primo paragrafo è un ottimo punto. A volte è ancora peggio; qui PMID: 18052912 è un ottimo esempio del fatto che a volte è possibile creare un modello migliore sulla parte relativa al rumore del set piuttosto che su uno reale - è ovvio che si può fare un buon modello su dati casuali, ma questo è un po 'scioccante .

1
perdona la mia ingorance, ma la rotazione non fa normalmente parte del PCA e della FA?
richiemorrisroe,

3
Un statisticamente sig. ma il predittore debole raramente è efficace sia per la previsione che per la spiegazione. Ad esempio, se una soluzione di regressione lineare ha un RSQ di .40 senza includere il predittore X1 e se l'inclusione di X1 aggiunge .01 a tale RSQ, allora X1 è "importante" né per la previsione né per la spiegazione.
rolando2,

17

Sebbene alcune persone trovino più facile pensare alla distinzione in termini di modello / algoritmo utilizzato (ad es. Reti neurali = predittive), questo è solo un aspetto particolare della distinzione spiegazione / previsione. Ecco un mazzo di diapositive che utilizzo nel mio corso di data mining per insegnare la regressione lineare da entrambi gli angoli. Anche con la sola regressione lineare e con questo piccolo esempio emergono vari problemi che portano a diversi modelli per obiettivi esplicativi e predittivi (scelta delle variabili, selezione delle variabili, misure delle prestazioni, ecc.)

Galit


5
Per curiosità, è intenzionale che nella discussione sulla regressione per la previsione (a partire da p. 33) si scelgono i predittori (passaggio 1) prima di eseguire il partizionamento in set di dati di addestramento e convalida (passaggio 3)? Ho pensato che la procedura più obiettiva e onesta sarebbe quella di partizionare all'inizio, anche prima di guardare i grafici a dispersione (passaggio 2). Se i regressori vengono scelti in base all'intero set di dati, ciò non aumenterebbe i livelli di significatività apparente su molti test anche se successivamente vengono applicati ai dati di validazione?
whuber

Penso che la domanda più generale sia se si esegue la visualizzazione dei dati prima di mantenere un controllo. Quando il set di dati è grande, non importa davvero. Con un piccolo campione, l'utilizzo della visualizzazione per scegliere i predittori è davvero pericoloso. Nelle mie diapositive non intendo usare la visualizzazione per la selezione delle variabili. "Seleziona predittori" è più in generale "seleziona un potenziale insieme di predittori disponibili che sono ragionevoli". Si tratta più di integrare la conoscenza del dominio per selezionare un set ragionevole.
Galit Shmueli,

Continuando l'argomento "Spiegare o prevedere", ho una domanda correlata qui . Ti sarei grato se avessi dato un'occhiata poiché la domanda si basa principalmente sul tuo documento.
Richard Hardy,

Professor Shmueli, dite a pagina 291 del vostro articolo su questo argomento che state prendendo in considerazione solo la "previsione non stocastica" come definita da Geisser, 1993. Dove andrei a trovare la definizione completa di previsione non stocastica? Sono contento di iniziare anche un nuovo post, ma ho pensato di chiedere prima qui.
user0

11

Esempio: un classico esempio che ho visto è nel contesto della previsione delle prestazioni umane. L'autoefficacia (cioè il grado in cui una persona pensa di poter svolgere bene un'attività) è spesso un forte predittore dell'esecuzione dell'attività. Pertanto, se si mette l'autoefficacia in una regressione multipla insieme ad altre variabili come l'intelligenza e il grado di esperienza precedente, spesso si scopre che l'autoefficacia è un forte predittore.

Ciò ha portato alcuni ricercatori a suggerire che l'autoefficacia causa l'esecuzione delle attività. E che gli interventi efficaci sono quelli che si concentrano sull'aumento del senso di autoefficacia di una persona.

Tuttavia, il modello teorico alternativo vede l'autoefficacia in gran parte come conseguenza della prestazione del compito. Cioè, se sei bravo, lo saprai. In questo quadro gli interventi dovrebbero concentrarsi sull'aumento delle competenze effettive e non sulle competenze percepite.

Pertanto, includere una variabile come l'autoefficacia potrebbe aumentare la previsione, ma supponendo che si adotti il ​​modello di autoefficacia di conseguenza, non dovrebbe essere incluso come predittore se lo scopo del modello è chiarire i processi causali che influenzano le prestazioni.

Ciò ovviamente solleva il problema di come sviluppare e validare un modello teorico causale. Ciò si basa chiaramente su molteplici studi, idealmente con qualche manipolazione sperimentale, e una discussione coerente sui processi dinamici.

Prossimale rispetto a distale : ho riscontrato problemi simili quando i ricercatori sono interessati agli effetti delle cause distali e prossimali. Le cause prossimali tendono a prevedere meglio delle cause distali. Tuttavia, l'interesse teorico può essere nel comprendere le modalità di funzionamento delle cause distali e prossimali.

Problema di selezione variabile : infine, un grosso problema nella ricerca nelle scienze sociali è il problema della selezione variabile. In ogni dato studio, esiste un numero infinito di variabili che avrebbero potuto essere misurate ma non lo erano. Pertanto, l'interpretazione dei modelli deve considerare le implicazioni di ciò quando si fanno interpretazioni teoriche.


C'è anche un problema nella scienza sociale delle "ipotesi deboli" (ad esempio, l'effetto è positivo contro negativo). E in quell'esempio di "autoefficacia", potresti vederlo come un predittore interno delle prestazioni che ogni persona ha costruito. Quindi è probabilmente simile all'utilizzo di una previsione "scatola nera" come variabile esplicativa.
probabilityislogic

9

Statistical Modeling: Two Cultures (2001) di L. Breiman è, forse, il miglior articolo su questo punto. Le sue conclusioni principali (vedi anche le risposte di altri importanti statisti alla fine del documento) sono le seguenti:

  • "Una maggiore precisione predittiva è associata a informazioni più affidabili sul meccanismo di dati sottostante. Una debole precisione predittiva può portare a conclusioni discutibili."
  • "I modelli algoritmici possono fornire una migliore precisione predittiva rispetto ai modelli di dati e fornire migliori informazioni sul meccanismo sottostante."

3
Solo per creare un collegamento con una domanda correlata precedente: Le due culture: statistica vs. apprendimento automatico?
cl

3
Il problema con i modelli algoritmici è che sono difficili da capire. Ciò rende difficile diagnosticare e risolvere potenziali problemi che si presentano. Un modello strutturale è molto più facile da valutare perché sai come dovrebbe apparire ogni componente.
Probislogic

8

Non ho letto il suo lavoro al di là dell'estratto del documento collegato, ma ho la sensazione che la distinzione tra "spiegazione" e "previsione" debba essere gettata via e sostituita con la distinzione tra gli obiettivi del professionista, che sono entrambi " causale "o" predittivo ". In generale, penso che "spiegazione" sia una parola così vaga che non significa quasi nulla. Ad esempio, la legge di Hooke è esplicativa o predittiva? Dall'altra parte dello spettro, i sistemi di raccomandazione predittivamente accurati sono buoni modelli causali di valutazioni esplicite degli articoli? Penso che tutti condividiamo l'intuizione che l'obiettivo della scienza è la spiegazione, mentre l'obiettivo della tecnologia è la previsione; e questa intuizione si perde in qualche modo in considerazione degli strumenti che usiamo, come algoritmi di apprendimento supervisionato,

Detto questo, forse l'unica parola che vorrei applicare a un modello è interpretabile. Le regressioni sono generalmente interpretabili; le reti neurali con molti strati spesso non sono così. Penso che le persone a volte ingenuamente presumano che un modello interpretabile fornisca informazioni causali, mentre i modelli non interpretabili forniscono solo informazioni predittive. Questo atteggiamento mi sembra semplicemente confuso.


7

Non sono ancora chiaro su quale sia la domanda. Detto questo, a mio avviso la differenza fondamentale tra modelli predittivi ed esplicativi è la differenza nella loro attenzione.

Modelli esplicativi

xyβ

Modelli predittivi

L'obiettivo dei modelli predittivi è prevedere qualcosa. Pertanto, tendono a concentrarsi meno sulla parsimonia o sulla semplicità, ma più sulla capacità di prevedere la variabile dipendente.

Tuttavia, quanto sopra è in qualche modo una distinzione artificiale poiché i modelli esplicativi possono essere utilizzati per la previsione e talvolta i modelli predittivi possono spiegare qualcosa.


+1 per menzionare la complessità che non è stata menzionata direttamente dalle risposte migliori. Tuttavia, la sfida si pone quando vengono utilizzati modelli esplicativi per gli interventi. In che modo si garantisce che i coefficienti stimati non siano distorti, il che è un problema comune derivante dalla parsimonia?
Thomas Speidel,

5

come altri hanno già detto, la distinzione è alquanto insignificante, tranne per quanto riguarda gli obiettivi del ricercatore.

Brad Efron, uno dei commentatori del documento The Two Cultures , ha fatto la seguente osservazione (come discusso nella mia domanda precedente ):

La previsione da sola è sufficiente solo occasionalmente. L'ufficio postale è soddisfatto di qualsiasi metodo che prevede indirizzi corretti da scarabocchi scritti a mano. Peter Gregory ha intrapreso il suo studio a scopo di previsione, ma anche per comprendere meglio le basi mediche dell'epatite. La maggior parte dei sondaggi statistici ha l'identificazione dei fattori causali come obiettivo finale.

Alcuni campi (ad es. Medicina) pongono un peso notevole sull'adattamento del modello come processo esplicativo (distribuzione, ecc.), Come mezzo per comprendere il processo sottostante che genera i dati. Altri campi sono meno interessati a questo e saranno felici con un modello "scatola nera" che ha un successo predittivo molto elevato. Questo può farsi strada anche nel processo di costruzione del modello.


5

Con rispetto, questa domanda potrebbe essere meglio focalizzata. Le persone hanno mai usato un termine quando l'altro era più appropriato? Sì, naturalmente. A volte è abbastanza chiaro dal contesto o non vuoi essere pedante. A volte le persone sono solo sciatte o pigre nella loro terminologia. Questo è vero per molte persone, e certamente non sto meglio.

Ciò che è di potenziale valore qui (discutendo la spiegazione contro la previsione sul CV), è di chiarire la distinzione tra i due approcci. In breve, la distinzione è incentrata sul ruolo della causalità. Se vuoi capire alcune dinamiche nel mondo e spiegare perché qualcosa accade nel modo in cui lo fa, devi identificare le relazioni causali tra le variabili rilevanti. Per prevedere, puoi ignorare la causalità. Ad esempio, è possibile prevedere un effetto dalla conoscenza della sua causa; puoi prevedere l'esistenza della causa dalla consapevolezza che l'effetto si è verificato; e puoi prevedere il livello approssimativo di un effetto dalla conoscenza di un altro effetto guidato dalla stessa causa. Perché qualcuno dovrebbe voler essere in grado di farlo? Aumentare la loro conoscenza di ciò che potrebbe accadere in futuro, in modo che possano pianificare di conseguenza. Ad esempio, un consiglio di libertà condizionale potrebbe voler essere in grado di prevedere la probabilità che un condannato si riattivi se viene parato. Tuttavia, questo non è sufficiente per la spiegazione. Ovviamente, stimare la vera relazione causale tra due variabili può essere estremamente difficile. Inoltre, i modelli che catturano (ciò che si pensa siano) le vere relazioni causali sono spesso peggiori per fare previsioni. Allora perché farlo? Innanzitutto, la maggior parte di questo viene fatta nella scienza, dove la comprensione viene perseguita per se stessa. In secondo luogo, se siamo in grado di individuare in modo affidabile le vere cause e possiamo sviluppare la capacità di influenzarle, possiamo esercitare una certa influenza sugli effetti.

Per quanto riguarda la strategia di modellistica statistica, non c'è una grande differenza. Principalmente la differenza sta nel modo di condurre lo studio. Se il tuo obiettivo è essere in grado di prevedere, scopri quali informazioni saranno disponibili per gli utenti del modello quando dovranno effettuare la previsione. Le informazioni a cui non avranno accesso non hanno alcun valore. Se molto probabilmente vorranno essere in grado di prevedere a un certo livello (o in un intervallo ristretto) dei predittori, prova a centrare l'intervallo campionato del predittore su quel livello e sovrastampare lì. Ad esempio, se un consiglio di libertà condizionale vorrà conoscere i criminali con 2 condanne importanti, potresti raccogliere informazioni sui criminali con 1, 2 e 3 condanne. D'altra parte, la valutazione dello stato causale di una variabile richiede fondamentalmente un esperimento. Questo è, le unità sperimentali devono essere assegnate in modo casuale a livelli prespecificati delle variabili esplicative. Se si teme se la natura dell'effetto causale sia o meno subordinata a qualche altra variabile, tale variabile deve essere inclusa nell'esperimento. Se non è possibile condurre un vero esperimento, allora affronti una situazione molto più difficile, che è troppo complessa per entrare qui.


1
(x,y,z,v)z(x,y,v)dell'analisi. Per quanto riguarda il tuo ultimo paragrafo, ci sono molti account su questo sito che attestano forti differenze di strategia.
whuber

1
Hai ragione questo cardini sullo scopo dello studio. Suppongo di non averlo reso esplicito (ho solo parlato di ciò che vuoi ottenere). È anche vero che la spiegazione non deve riguardare esattamente la causalità - qualcosa di analogo alla causalità si adatta anche (ad esempio, le dimensioni - il caso di volume è una delle implicazioni logiche / matematiche). Tuttavia, la modellazione più esplicativa si concentra sulla causalità; Immagino di aver pensato di poter saltare quel genere di cose per semplicità. Infine, la strategia differisce durante la progettazione dello studio e la raccolta dei dati, ma regredire y su x è praticamente lo stesso.
gung - Ripristina Monica

Grazie per la risposta. Da altri scambi su questo sito ho imparato a comprendere affermazioni universali come "la maggior parte dei centri di modellazione esplicativi sulla causalità" per riflettere il background e l'esperienza dello scrittore, piuttosto che essere letteralmente vero. Nelle scienze fisiche e "dure" questa affermazione può essere corretta, ma nelle scienze sociali e "leggere" dubito che i praticanti farebbero un'affermazione così forte. Spesso, infatti, si ritiene che le relazioni studiate abbiano cause nascoste comuni ma non riflettono la causalità diretta tra i regressori e il regresso.
whuber

@whuber è certamente vero che le mie idee sono influenzate dal mio background ed esperienza. Se questa risposta non è utile (noto che non ha ottenuto alcun voto), posso eliminarla. Un certo numero di altri ha fornito risposte che coprono le idee che intendevo trasmettere.
gung - Ripristina Monica

@whuber - un buon esempio di debole causalità è "il fumo provoca il cancro", anche se sono sicuro che potresti trovare un fumatore a catena che non ha il cancro. La nozione di causalità è interconnessa con la tempistica degli eventi. La causa deve verificarsi prima dell'effetto, il che spiega perché l'esempio del cubo non ha senso.
probabilityislogic

4

La maggior parte delle risposte ha contribuito a chiarire quali sono i modelli per la spiegazione e i modelli per la previsione e perché differiscono. Ciò che non è chiaro, finora, è come differiscono. Quindi, ho pensato di offrire un esempio che potrebbe essere utile.

Supponiamo che siamo intervenuti nella modellistica del GPA del college in funzione della preparazione accademica. Come misure di preparazione accademica, abbiamo:

  1. Punteggi di prova attitudinali;
  2. HS GPA; e
  3. Numero di test AP superati.

Strategia per la previsione

Se l'obiettivo è la previsione, potrei usare tutte queste variabili contemporaneamente in un modello lineare e la mia preoccupazione principale sarebbe l'accuratezza predittiva. Qualunque delle variabili risultasse più utile per prevedere l'APG del College sarebbe inclusa nel modello finale.

Strategia per la spiegazione

Se l'obiettivo è la spiegazione, potrei essere più preoccupato per la riduzione dei dati e riflettere attentamente sulle correlazioni tra le variabili indipendenti. La mia preoccupazione principale sarebbe interpretare i coefficienti.

Esempio

In un tipico problema multivariato con predittori correlati, non sarebbe raro osservare coefficienti di regressione "inattesi". Date le interrelazioni tra le variabili indipendenti, non sarebbe sorprendente vedere coefficienti parziali per alcune di queste variabili che non sono nella stessa direzione delle loro relazioni di ordine zero e che possono sembrare contro intuitive e difficili da spiegare.

Ad esempio, supponiamo che il modello suggerisca che (tenendo conto dei punteggi dei test attitudinali e del numero di test AP completati con successo) i GPA delle scuole superiori superiori sono associati ai GPA del college inferiori . Questo non è un problema per la previsione, ma pone problemi per un modello esplicativo in cui tale relazione è difficile da interpretare . Questo modello potrebbe fornire le migliori previsioni fuori campione, ma fa ben poco per aiutarci a capire la relazione tra preparazione accademica e APG del college.

Invece, una strategia esplicativa potrebbe cercare una qualche forma di riduzione variabile, come componenti principali, analisi dei fattori o SEM per:

  1. concentrarsi sulla variabile che rappresenta la migliore misura del "rendimento accademico" e modellare il GPA del College su quella variabile; o
  2. utilizzare i punteggi dei fattori / variabili latenti derivati ​​dalla combinazione delle tre misure di preparazione accademica anziché delle variabili originali.

Strategie come queste potrebbero ridurre il potere predittivo del modello, ma potrebbero comprendere meglio come la preparazione accademica è collegata al GPA del college.


Per quanto riguarda il segno contro-intuitivo, mi chiedo se è perché la nostra intuizione sta interpretando la covariata sbagliata, come un effetto principale come se fosse un effetto nidificato o di interazione.
probabilityislogic

3

Vorrei offrire una visione centrata sul modello sull'argomento.

La modellazione predittiva è ciò che accade nella maggior parte delle analisi. Ad esempio, un ricercatore imposta un modello di regressione con un gruppo di predittori. I coefficienti di regressione rappresentano quindi confronti predittivi tra i gruppi. L'aspetto predittivo deriva dal modello di probabilità: l'inferenza viene fatta rispetto a un modello di superpopolazione che potrebbe aver prodotto la popolazione o il campione osservati. Lo scopo di questo modello è di prevedere nuovi risultati per le unità che emergono da questa superpopolazione. Spesso, questo è un obiettivo vano perché le cose cambiano sempre, specialmente nel mondo sociale. O perché il tuo modello riguarda unità rare come i paesi e non puoi disegnare un nuovo campione. L'utilità del modello in questo caso è lasciata all'apprezzamento dell'analista.

Quando si tenta di generalizzare i risultati ad altri gruppi o unità future, questa è ancora una previsione ma di tipo diverso. Potremmo chiamarlo previsione per esempio. Il punto chiave è che il potere predittivo dei modelli stimati è, per impostazione predefinita, di natura descrittiva . Si confronta un risultato tra gruppi e si ipotizza un modello di probabilità per questi confronti, ma non si può concludere che questi confronti costituiscano effetti causali.

Il motivo è che questi gruppi possono soffrire di errori di selezione . Vale a dire, possono naturalmente avere un punteggio più alto nel risultato di interesse, indipendentemente dal trattamento (ipotetico intervento causale). Oppure possono essere soggetti a una diversa dimensione dell'effetto del trattamento rispetto ad altri gruppi. Questo è il motivo per cui, soprattutto per i dati osservativi, i modelli stimati riguardano generalmente confronti predittivi e non spiegazioni. La spiegazione riguarda l'identificazione e la stima dell'effetto causale e richiede esperimenti ben progettati o un uso ponderato delle variabili strumentali. In questo caso, i confronti predittivi sono tagliati da qualsiasi distorsione di selezione e rappresentano effetti causali. Il modello può quindi essere considerato come esplicativo.

Ho scoperto che pensare in questi termini ha spesso chiarito cosa stavo realmente facendo quando ho impostato un modello per alcuni dati.


+1, ci sono buone informazioni qui. Sarei cauto riguardo all'affermazione "La modellazione predittiva è ciò che accade nella maggior parte delle analisi", tuttavia. Il fatto che la modellazione predittiva sia più o meno comune varierà a seconda della disciplina, ecc. La mia ipotesi sarebbe che la maggior parte della modellistica nel mondo accademico sia esplicativa e che molta modellizzazione / data mining sia effettuata nel settore privato (ad esempio, identificare potenziali clienti abituali) è predittivo. Potrei facilmente sbagliarmi, ma sarà difficile dirlo a priori, cosa che accade la maggior parte delle volte.
gung - Ripristina Monica

1
Bene, dal mio punto di vista, la maggior parte della modellizzazione dei dati osservativi è predittiva, anche se l'obiettivo è esplicativo. Se non randomizzi l'attribuzione del trattamento e induci effettivamente un cambiamento in una configurazione sperimentale, i tuoi coefficienti di regressione avranno solo un valore descrittivo, cioè forniranno solo i mezzi per confronti predittivi. Ad esempio, è possibile prevedere il successo a scuola in base alle caratteristiche demografiche, ma ciò non significa che questi dati demografici siano effetti causali esplicativi. Il motivo è che le previsioni comparative sono esposte a distorsioni della selezione.
Lionel Henry,

1

Possiamo imparare molto di più di quanto pensiamo dai modelli "predittivi" della scatola nera. La chiave sta nell'esecuzione di diversi tipi di analisi e simulazioni di sensibilità per capire veramente come il modello OUTPUT è influenzato dalle modifiche nello spazio INPUT. In questo senso anche un modello puramente predittivo può fornire spunti esplicativi. Questo è un punto che viene spesso trascurato o frainteso dalla comunità di ricerca. Solo perché non capiamo perché un algoritmo funzioni non significa che l'algoritmo manchi di potere esplicativo ...

Nel complesso da un punto di vista tradizionale, la risposta succinta di Probislogic è assolutamente corretta ...


Non è chiaro quali "intuizioni esplicative" possano essere raccolte in questo modo, se con quella frase si implica la causalità.
gung - Ripristina Monica

1

C'è una distinzione tra ciò che lei chiama applicazioni esplicative e predittive nelle statistiche. Dice che dovremmo sapere ogni volta che usiamo l'uno o l'altro quale esattamente viene usato. Dice che li mescoliamo spesso, quindi la conflazione .

Concordo sul fatto che nelle applicazioni delle scienze sociali , la distinzione è ragionevole, ma nelle scienze naturali lo sono e dovrebbero essere le stesse. Inoltre, li chiamo inferenza contro previsione e sono d'accordo che nelle scienze sociali non si debbano confondere.

Inizierò con le scienze naturali. In fisica ci concentriamo sulla spiegazione, stiamo cercando di capire come funziona il mondo, cosa provoca cosa ecc. Quindi, l'attenzione è focalizzata sulla causalità, l'inferenza e così via. D'altro canto, anche l'aspetto predittivo fa parte del processo scientifico. In effetti, il modo in cui dimostrate una teoria, che già ha spiegato bene le osservazioni (pensate al campione), è prevedere nuove osservazioni e poi controllare come ha funzionato la previsione. Qualsiasi teoria priva di capacità predittive avrà grossi problemi ad ottenere accettazione in fisica. Ecco perché esperimenti come quelli di Michelson-Morley sono così importanti.

Nelle scienze sociali, sfortunatamente, i fenomeni sottostanti sono instabili, irripetibili, irriproducibili. Se osservi il decadimento dei nuclei otterrai gli stessi risultati ogni volta che li osservi e gli stessi risultati che io o un ragazzo cento anni fa abbiamo ottenuto. Non in economia o finanza. Inoltre, la capacità di condurre esperimenti è molto limitata, quasi inesistente per tutti gli scopi pratici, osserviamo e conduciamo solo campioni casualidi osservazioni. Posso continuare, ma l'idea è che i fenomeni di cui ci occupiamo sono molto instabili, quindi le nostre teorie non sono della stessa qualità della fisica. Pertanto, uno dei modi in cui affrontiamo la situazione è quello di concentrarci sull'inferenza (quando provi a capire cosa provoca o cosa influenza) o sulla previsione (basta dire cosa pensi che accadrà a questo o che ignora la struttura).


0

Un modello strutturale fornirebbe una spiegazione e un modello predittivo darebbe una previsione. Un modello strutturale avrebbe variabili latenti. Un modello strutturale è il culmine simultaneo della regressione e dell'analisi fattoriale

Le variabili latenti si manifestano sotto forma di multi collinearità in modelli predittivi (regressione).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.