Qual è il significato di "Tutti i modelli sono sbagliati, ma alcuni sono utili"


76

"In sostanza, tutti i modelli sono sbagliati, ma alcuni sono utili."

--- Box, George EP; Norman R. Draper (1987). Empirical Model-Building and Response Surfaceaces, p. 424, Wiley. ISBN 0471810339.

Qual è esattamente il significato della frase sopra?


13
Sullo stesso libro è stato menzionato in precedenza: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.forse questo è più utile.
usεr11852 dice Reinstate Monic il

Risposte:


101

Penso che il suo significato sia meglio analizzato osservandolo in due parti:

"Tutti i modelli sono sbagliati", cioè ogni modello è sbagliato perché è una semplificazione della realtà. Alcuni modelli, specialmente nelle scienze "difficili", sono solo un po 'sbagliati. Ignorano cose come l'attrito o l'effetto gravitazionale di piccoli corpi. Altri modelli sono molto sbagliati: ignorano le cose più grandi. Nelle scienze sociali, ignoriamo molto.

"Ma alcuni sono utili" - le semplificazioni della realtà possono essere abbastanza utili. Possono aiutarci a spiegare, prevedere e comprendere l'universo e tutte le sue varie componenti.

Questo non è solo vero nelle statistiche! Le mappe sono un tipo di modello; si sbagliano. Ma le buone mappe sono molto utili. Gli esempi di altri modelli utili ma sbagliati abbondano.


20
+1 Causa Mi piace l'analogia delle mappe. Lo userò in futuro!
usεr11852 dice Reinstate Monic il

4
Anche molti modelli nelle scienze "difficili" sono abbastanza lontani (ieri ho partecipato a un seminario in cui le misurazioni in cui il modello era all'interno dell'errorbar, ma l'error era di due ordini di grandezza).
Gerrit,

7
+1. Penso che la tua frase chiave sia "ogni modello è sbagliato perché è una semplificazione della realtà". Le persone spesso lo dimenticano, ad esempio nelle ingenue critiche all'economia (ho le mie stesse critiche, ma devono essere più sofisticate di quello che "la realtà è più complessa del tuo modello"). Se non l'abbiamo semplificato, hai una realtà grezza, che è troppo complessa per noi da capire. Quindi dobbiamo semplificarlo per ottenere informazioni dettagliate.
Peter Ellis,

13
La fantasia di una mappa perfetta in scala 1: 1 è stata utilizzata da molti autori, tra cui Lewis Carroll, Jorge Luis Borges e Umberto Eco. In realtà non sarebbe utile perché sarebbe necessariamente complicato quanto l'area che mappa e non sarebbe più facile da capire (per non parlare dell'imbarazzo di dispiegarlo e disporlo a leggere).
Nick Cox,

2
Forse puoi anche aggiungere che un modello deve essere un po 'sbagliato, perché altrimenti non si generalizzerebbe e non sarebbe quindi applicabile altrove. Ci sono alcune risposte che lo dicono più in basso. Ma ora ci sono troppe risposte per leggerle tutte.
ziggystar,

9

Significa che possono essere fornite utili informazioni da modelli che non sono una rappresentazione perfetta dei fenomeni che modellano.

Un modello statistico è una descrizione di un sistema che utilizza concetti matematici. Come tale in molti casi si aggiunge un certo livello di astrazione per facilitare la procedura inferenziale (ad es. Normalità degli errori di misurazione, simmetria composta nelle strutture di correlazione ecc.). È quasi impossibile per un singolo modello descrivere perfettamente un fenomeno del mondo reale, dato che abbiamo una visione soggettiva del mondo (il nostro sistema sensoriale non è perfetto); tuttavia si verifica un'inferenza statistica di successo poiché il nostro mondo ha un certo grado di coerenza che sfruttiamo. Quindi i nostri modelli quasi sempre sbagliati si rivelano utili .

(Sono sicuro che presto riceverai una grande risposta in grassetto, ma ho cercato di essere conciso su questo!)


Possiamo dire che questi utili modelli forniscono soluzioni approssimative?
gpuguy,

2
@gpuguy: certo che puoi. Per citare John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(In realtà penso che la citazione di JT sia incredibilmente penetrante.)
usεr11852 dice Reinstate Monic il

6
"Molto meglio una risposta approssimativa alla domanda giusta, che è spesso vaga, che una risposta esatta alla domanda sbagliata, che può essere sempre resa precisa." John W. Tukey 1962 Il futuro dell'analisi dei dati. Annals of Mathematical Statistics 33: 1-67 (vedi pp.13-14) Senza dubbio ha detto cose simili in altre occasioni, ma questa è la solita fonte.
Nick Cox,

Ho scritto la citazione direttamente dal thread delle citazioni del CV pertinente.
usεr11852 dice Reinstate Monic il

6
Ho copiato il mio dalla pubblicazione originale.
Nick Cox,

6

Ho trovato questo discorso JSA del 2009 di Thad Tarpey per fornire una spiegazione e un commento utili sul passaggio di Box. Sostiene che se consideriamo i modelli come approssimazioni alla verità, potremmo altrettanto facilmente chiamare tutti i modelli giusti.

Ecco l'abstract:

Gli studenti di statistica vengono spesso introdotti nella famosa citazione di George Box: "tutti i modelli sono sbagliati, alcuni sono utili". In questo discorso sostengo che questa citazione, sebbene utile, è sbagliata. Una prospettiva diversa e più positiva è riconoscere che un modello è semplicemente un mezzo per estrarre informazioni di interesse dai dati. La verità è infinitamente complessa e un modello è semplicemente un'approssimazione della verità. Se l'approssimazione è scarsa o fuorviante, il modello è inutile. In questo discorso fornisco esempi di modelli corretti che non sono veri modelli. Illustro come l'idea di un modello "sbagliato" può portare a conclusioni errate.


3

Per me la visione reale sta nel seguente aspetto:

Un modello non deve essere corretto per essere utile.

Sfortunatamente in molte scienze si dimentica spesso che i modelli non devono necessariamente essere rappresentazioni esatte della realtà per consentire nuove scoperte e previsioni!

Quindi non perdere tempo a costruire un modello complicato che richiede misurazioni accurate di una miriade di variabili. Il vero genio inventa un modello semplice che fa il lavoro.


3

Un modello non può fornire previsioni accurate al 100% in caso di casualità nei risultati. Se non ci fossero incertezze, casualità e errori, sarebbe considerato un fatto piuttosto che un modello. Il primo è molto importante, perché i modelli vengono spesso utilizzati per modellare le aspettative di eventi che non si sono verificati. Questo quasi garantisce che ci sia qualche incertezza sugli eventi reali.

Data un'informazione perfetta, in teoria potrebbe essere possibile creare un modello che fornisca previsioni perfette per eventi così precisamente noti. Tuttavia, anche date queste circostanze improbabili, un modello del genere può essere così complesso da non essere utilizzabile dal punto di vista computazionale e può essere accurato solo in un determinato momento nel momento in cui altri fattori cambiano il modo in cui i valori cambiano con gli eventi.

Poiché l'incertezza e la casualità sono presenti nella maggior parte dei dati del mondo reale, gli sforzi per ottenere un modello perfetto sono un esercizio inutile. Invece, è più prezioso guardare all'ottenimento di un modello sufficientemente accurato che sia abbastanza semplice da essere utilizzabile in termini sia di dati che di calcolo richiesti per il suo utilizzo. Mentre questi modelli sono noti per essere imperfetti, alcuni di questi difetti sono ben noti e possono essere considerati per il processo decisionale basato sui modelli.

I modelli più semplici possono essere imperfetti, ma sono anche più facili da ragionare, da confrontare tra loro e possono essere più facili da lavorare perché probabilmente sono meno impegnativi dal punto di vista computazionale.


3

Se posso, può essere utile solo un altro commento. La versione del prase che preferisco è

(...) tutti i modelli sono approssimazioni. In sostanza, tutti i modelli sono sbagliati, ma alcuni sono utili (...)

tratto da Response Surfaces, Miscele e Ridge Analyysis di Box and Draper (2007, p. 414, Wiley). Guardando la citazione estesa è più chiaro cosa intendesse Box: la modellistica statistica riguarda l' approssimazione della realtà e l'approssimazione non è mai esatta, quindi si tratta di trovare l' approssimazione più appropriata . Ciò che è appropriato per il tuo scopo è una cosa soggettiva, ecco perché non è uno dei modelli che è utile, ma forse alcuni di essi lo sono, a seconda dello scopo della modellazione.


3

Poiché nessuno lo ha aggiunto, George Box ha usato la fase citata per introdurre la seguente sezione in un libro. Credo che faccia il miglior lavoro per spiegare cosa intendesse dire:

PV=RTPVTR

Per un tale modello non è necessario porre la domanda "Il modello è vero?". Se "verità" deve essere "tutta la verità", la risposta deve essere "No". L'unica domanda di interesse è "Il modello è illuminante e utile?".

Box, GEP (1979), "Robustezza nella strategia di costruzione di modelli scientifici", a Launer, RL; Wilkinson, GN, Robustezza in statistica , Academic Press, pagg. 201–236.


2

Potresti pensarlo in questo modo. la massima complessità (cioè l'entropia) di un oggetto obbedisce a qualche forma del limite di Bekenstein :

I2πREcln2

ER

È un gran numero, nella maggior parte dei casi:

2.58991·1042 107.79640 · 10 41Ω=2I107.79640·1041

Quindi vuoi usare "la migliore mappa", cioè il territorio stesso, con tutte le equazioni d'onda per tutte le particelle in ogni cellula? Assolutamente no. Non solo sarebbe un disastro computazionale, ma modelleresti cose che potrebbero essenzialmente non avere nulla a che fare con ciò che ti interessa. Se tutto ciò che vuoi fare è, per esempio, identificare se sono sveglio o no, non hai bisogno di sapere cosa sta facendo l'elettrone # 32458 nel neurone # 844030 ribosoma # 2305 molecola # 2. Se non lo modelli, il tuo modello è davvero "sbagliato", ma se riesci a identificare se sono sveglio o meno, il tuo modello è sicuramente utile.


2

Penso che Peter e user11852 abbiano dato ottime risposte. Vorrei anche aggiungere (per negazione) che se un modello fosse davvero buono, sarebbe probabilmente inutile a causa del sovradimensionamento (quindi, non generalizzabile).


2
+1 per il punto di overfitting. Algoritmi come Naive Bayes e analisi discriminanti lineari spesso funzionano molto bene, anche se si conosce che il modello sottostante non è corretto (ad es. Filtro antispam), semplicemente perché sono necessari meno dati per stimare i parametri.
Dikran Marsupial,

1

La mia interpretazione acida è: credere che un modello matematico descriva esattamente tutti i fattori, e le loro interazioni, che governano un fenomeno di interesse sarebbe troppo semplicistico e arrogante. Non sappiamo nemmeno se la logica che usiamo è sufficiente per comprendere il nostro universo. Tuttavia, alcuni modelli matematici rappresentano un'approssimazione abbastanza buona (in termini di metodo scientifico) che sono utili per trarre conclusioni su tale fenomeno.


1

Come astrostatista (forse una razza rara), trovo sfortunata la fama del detto di Box. Nelle scienze fisiche, abbiamo spesso un forte consenso per la comprensione dei processi sottostanti a un fenomeno osservato e questi processi possono spesso essere espressi da modelli matematici derivanti dalle leggi di gravitazione, meccanica quantistica, termodinamica, ecc. Gli obiettivi statistici sono stimare le proprietà fisiche dei parametri del modello più adatto, nonché la selezione e la convalida del modello. Un drammatico caso recente è emerso dalla pubblicazione di documenti del marzo 2013 del satellite Planck dell'Agenzia spaziale europeale misurazioni del fondo cosmico a microonde che stabilisce in modo convincente un semplice modello "LambdaCDM" a 6 parametri per il Big Bang. Dubito che il dictum di Box si applicherebbe ovunque all'interno della vasta gamma di metodi statistici avanzati utilizzati in questi 29 articoli.


1

Ho appena riformulato la risposta di cui sopra considerando i modelli di processo come focus point. L'istruzione può essere interpretata come segue:

"Tutti i modelli sono sbagliati", cioè ogni modello è sbagliato perché è una semplificazione della realtà. Alcuni modelli sono solo un po 'sbagliati. Ignorano alcune cose, ad esempio: -> modifica dei requisiti, -> Ignorando il completamento del progetto entro la scadenza, -> non considerando il livello di qualità desiderato dal cliente ecc ... Altri modelli sono molto sbagliati - ignorano cose più grandi. I modelli di processo software classici ignorano molto rispetto ai modelli di processo agili che ignorano di meno.

"Ma alcuni sono utili" - le semplificazioni della realtà possono essere abbastanza utili. Possono aiutarci a spiegare, prevedere e comprendere l'intero progetto e tutte le sue varie componenti. I modelli vengono utilizzati perché le loro funzionalità corrispondono alla maggior parte dei programmi di sviluppo software.


0

Vorrei dare un'altra interpretazione del termine "utile". Probabilmente non quello a cui Box ha pensato.

Quando devi prendere delle decisioni, e questo è ciò per cui tutte le informazioni verranno finalmente utilizzate, allora devi misurare il tuo successo in qualche forma. Quando si parla di decisioni con informazioni incerte, questa misura viene spesso definita utilità.

Quindi possiamo anche pensare a modelli utili come quelli che ci consentono di prendere decisioni più informate; per raggiungere i nostri obiettivi in ​​modo più efficace.

Ciò aggiunge un'altra dimensione oltre ai soliti criteri, come la capacità di un modello di prevedere qualcosa in modo corretto: ci consente di valutare i diversi aspetti di un modello l'uno contro l'altro.


-2

"Tutti i modelli sono sbagliati, ma alcuni sono utili". Forse significa: dovremmo fare il meglio che possiamo con ciò che sappiamo + cercare un nuovo apprendimento?


4
(-1) Puoi fornire qualche riferimento che suggerisce che GEP Box intendesse questo? Come puoi trovare dalle altre risposte, intendeva qualcosa di totalmente diverso.
Tim

L'OP sta forse prendendo la citazione e dandole una nuova interpretazione. Concordo con Tim sul fatto che Box dicesse più o meno di non prendere il modello come interpretazione esatta della realtà, ma riconosco che alcuni modelli possono descrivere bene i dati.
Michael Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.