Tutti i modelli sono inutili? È possibile un modello esatto o utile?


45

Questa domanda mi sta venendo in mente da più di un mese. Il numero di febbraio 2015 di Amstat News contiene un articolo del professor Mark van der Laan di Berkeley che rimprovera le persone per l'utilizzo di modelli inesatti. Afferma che usando i modelli, la statistica è quindi un'arte piuttosto che una scienza. Secondo lui, si può sempre usare "il modello esatto" e che la nostra incapacità di farlo contribuisce a una "mancanza di rigore ... temo che la nostra rappresentazione nella scienza dei dati stia diventando emarginata".

Concordo sul fatto che corriamo il rischio di essere emarginati, ma la minaccia di solito viene da coloro che sostengono (sembra molto simile al Professor van der Laan, sembra) che non stiano usando un metodo approssimativo, ma i cui metodi sono in effetti molto meno rigorosi rispetto a modelli statistici attentamente applicati - anche quelli sbagliati.

Penso che sia giusto dire che il Prof van der Laan è piuttosto sprezzante nei confronti di coloro che ripetono la frase usata spesso da Box, "tutti i modelli sono sbagliati, ma alcuni sono utili". Fondamentalmente, mentre lo leggo, dice che tutti i modelli sono sbagliati e tutti sono inutili. Ora, chi sono io in disaccordo con un professore di Berkeley? D'altra parte, chi è lui che respinge così cavallermente le opinioni di uno dei veri giganti nel nostro campo?

Nell'elaborare, il dott. Van der Laan afferma che "è una totale assurdità affermare che tutti i modelli sono sbagliati, ... Ad esempio, un modello statistico che non fa ipotesi è sempre vero". Continua: "Ma spesso possiamo fare molto meglio di così: potremmo sapere che i dati sono il risultato di esperimenti identici indipendenti". Non vedo come si possa sapere che se non in contesti casuali molto ristretti o in impostazioni sperimentali controllate. L'autore sottolinea il suo lavoro nell'apprendimento mirato della massima verosimiglianza e nell'apprendimento mirato basato sulla perdita minima, che "integra lo stato dell'arte nell'apprendimento automatico / stima adattativa dei dati, tutti gli incredibili progressi nell'inferenza causale, i dati censurati, l'efficienza e l'empirico teoria dei processi pur fornendo inferenze statistiche formali ".n

Ci sono anche alcune dichiarazioni con cui sono d'accordo. Dice che dobbiamo prendere sul serio il nostro lavoro, il nostro ruolo di statistico e i nostri collaboratori scientifici. Senti senti! È certamente una brutta notizia quando le persone usano abitualmente un modello di regressione logistica, o qualsiasi altra cosa, senza considerare attentamente se sia adeguato rispondere alla domanda scientifica o se si adatta ai dati. E vedo molti di questi abusi nelle domande pubblicate in questo forum. Ma vedo anche usi efficaci e preziosi di modelli inesatti, anche parametrici. E contrariamente a quello che dice, raramente sono stato "annoiato a morte da un altro modello di regressione logistica". Tale è la mia ingenuità, immagino.

Quindi, ecco le mie domande:

  1. Quali utili inferenze statistiche possono essere fatte usando un modello che non fa alcuna ipotesi?
  2. Esiste un caso di studio, con dati reali e importanti sull'uso della massima probabilità mirata? Questi metodi sono ampiamente utilizzati e accettati?
  3. Tutti i modelli inesatti sono davvero inutili?
  4. È possibile sapere che hai il modello esatto se non in casi banali?
  5. Se questo è troppo basato sull'opinione e quindi fuori tema, dove può essere discusso? Perché l'articolo del dott. Van der Laan ha sicuramente bisogno di qualche discussione.

13
Direi che un modello senza ipotesi è quasi sempre inutile, ma sicuramente Van der Laan fa ipotesi senza ammetterlo. In realtà non sappiamo molte cose con certezza, quindi il suo "Potremmo sapere che i dati sono il risultato di n esperimenti identici indipendenti" è in realtà un presupposto , o almeno in parte. Potremmo avere buone ragioni per supporre che siano identici e indipendenti, ma in pratica vediamo che molto spesso si scopre che non era davvero il caso (e se scopriamo che a volte, deve essere scoperto a volte, presumibilmente molto più spesso ).
Glen_b,

19
Un modello senza ipotesi è solo una replica della tua matrice di dati. È vero, ma anche una inutile duplicazione di sforzi. Si potrebbe anche sostenere che un tale modello non è un modello: una definizione di un modello è che si tratta di una semplificazione della realtà. Quindi un modello che non semplifica non è per definizione un modello. Questa semplificazione ha uno scopo: ci aiuta a capire in modo sostanziale cosa sta succedendo; ci dà una storia principale. Se non ti interessa capire perché accadono le cose e vuoi solo prevederle, quella storia principale è irrelavante. Tuttavia, alcuni vogliono fare di più che creare una palla di cristallo ...
Maarten Buis,

8
Un modello senza ipotesi non è un modello. Il modello È una raccolta di ipotesi. Inoltre, come dice @Glen_b, ho ipotizzato che sia piuttosto forte e non riesco a pensare a un esempio in cui sia "vero". Anche quando si lancia ripetutamente una moneta, ci sono correlazioni (vedi lavoro di Diaconis). Ho solo sfogliato l'articolo ma sembra miope.
P.Windridge,

11
Il primo esempio dell'autore sul volo su Marte è falso. La meccanica newtoniana (su cui si basano molti aspetti delle missioni spaziali) è un modello sbagliato , ma ci affidiamo ed è utile.
P.Windridge,

6
Sì, la meccanica newtoniana è un ottimo esempio del punto di George Box.
Glen_b,

Risposte:


15

L'articolo citato sembra basarsi sul timore che gli statistici "non saranno parte integrante del gruppo scientifico e che gli scienziati avranno naturalmente dei dubbi sui metodi utilizzati" e che "i collaboratori ci vedranno come tecnici che possono guidare per ottenere i loro risultati scientifici pubblicati. " I miei commenti sulle domande poste da @rvl provengono dal punto di vista di uno scienziato biologico non statistico che è stato costretto ad affrontare problemi statistici sempre più complicati mentre sono passato dalla ricerca di banco alla ricerca traslazionale / clinica negli ultimi anni. Alla domanda 5 si risponde chiaramente dalle risposte multiple ora in questa pagina; Vado in ordine inverso da lì.

4) Non importa davvero se esiste un "modello esatto", perché anche se lo fa probabilmente non sarò in grado di permettermi di fare lo studio. Considera questo problema nel contesto della discussione: abbiamo davvero bisogno di includere "tutti i predittori rilevanti?" Anche se siamo in grado di identificare "tutti i predittori rilevanti" ci sarà ancora il problema di raccogliere dati sufficienti per fornire i gradi di libertà da incorporare tutti in modo affidabile nel modello. È abbastanza difficile in studi sperimentali controllati, per non parlare di studi retrospettivi o di popolazione. Forse in alcuni tipi di "Big Data" questo è meno un problema, ma è per me e i miei colleghi. Ci sarà sempre la necessità di "essere furbi al riguardo", poiché @Aksakal ha inserito una risposta in quella pagina.

In tutta onestà con il Prof. van der Laan, non usa la parola "esatto" nell'articolo citato, almeno nella versione attualmente disponibile online dal link . Parla di modelli "realistici". Questa è una distinzione importante.

Inoltre, il Prof. van der Laan si lamenta che "La statistica è ora un'arte, non una scienza", il che è più che ingiusto da parte sua. Considera il modo in cui propone di lavorare con i collaboratori:

... dobbiamo prendere sul serio i dati, la nostra identità di statistico e i nostri collaboratori scientifici. Dobbiamo imparare il più possibile su come sono stati generati i dati. Una volta che abbiamo posto un modello statistico realistico, dobbiamo estrarre dai nostri collaboratori quale stima e che rappresenti al meglio la risposta alla loro domanda scientifica di interesse. Questo è molto lavoro. È difficile. Richiede una ragionevole comprensione della teoria statistica. È una degna impresa accademica!

L'applicazione di questi principi scientifici ai problemi del mondo reale sembrerebbe richiedere una buona dose di "arte", come del lavoro in qualsiasi impresa scientifica. Ho conosciuto alcuni scienziati di grande successo, molti altri che hanno fatto bene e alcuni fallimenti. Nella mia esperienza, la differenza sembra essere nell'arte di perseguire obiettivi scientifici. Il risultato potrebbe essere la scienza, ma il processo è qualcosa di più.

3) Ancora una volta, parte del problema è terminologica; c'è una grande differenza tra un modello "esatto" e i modelli "realistici" che il Prof. van der Laan cerca. La sua tesi è che molti modelli statistici standard sono sufficientemente irrealistici per produrre risultati "inaffidabili". In particolare: "Gli stimatori di una stima definita in un modello statistico onesto non possono essere stimati sensibilmente sulla base di modelli parametrici". Quelle sono questioni da testare, non opinioni.

Il suo lavoro riconosce chiaramente che i modelli esatti non sono sempre possibili. Considera questo manoscritto su stimatori di massima verosimiglianza mirati (TMLE) nel contesto delle variabili di risultato mancanti. Si basa su un'ipotesi di esiti mancanti a caso, che potrebbero non essere mai verificabili in pratica: "... assumiamo che non vi siano confonditori inosservati della relazione tra mancanza ... e il risultato". Questo è un altro esempio della difficoltà di includere "tutti i predittori rilevanti". Un punto di forza di TMLE, tuttavia, è che sembra aiutare a valutare la "supposizione di positività" di un supporto adeguato nei dati per stimare il parametro target in questo contesto. L'obiettivo è avvicinarsi il più possibile a un modello realistico dei dati.

2) TMLE è stato discusso in precedenza su convalida incrociata . Non sono a conoscenza dell'uso diffuso di dati reali. Google Scholar ha mostrato oggi 258 citazioni di quello che sembra essere il rapporto iniziale , ma a prima vista nessuno sembrava trovarsi su grandi insiemi di dati del mondo reale. L' articolo del Journal of Statistical Software sul pacchetto R associato mostra oggi solo 27 citazioni di Google Scholar. Tuttavia, ciò non dovrebbe essere preso come prova del valore di TMLE. La sua attenzione all'ottenimento di stime affidabili e imparziali dell'effettivo "estimando" di interesse, spesso un problema con le stime dei plug-in derivate da modelli statistici standard, sembra potenzialmente prezioso.

1) L'affermazione: "un modello statistico che non fa ipotesi è sempre vero" sembra essere inteso come un uomo di paglia, una tautologia. I dati sono i dati. Presumo che ci siano leggi dell'universo che rimangono coerenti di giorno in giorno. Il metodo TMLE contiene presumibilmente ipotesi sulla convessità nello spazio di ricerca e, come notato sopra, la sua applicazione in un particolare contesto potrebbe richiedere ipotesi aggiuntive.

Anche il Prof. van der Laan concorderebbe sul fatto che alcune ipotesi sono necessarie. Ho la sensazione che vorrebbe minimizzare il numero di ipotesi ed evitare quelle che non sono realistiche. Se ciò richieda veramente di rinunciare a modelli parametrici, come sembra affermare, è la domanda cruciale.


Risposta molto bella Il libro Apprendimento mirato è un buon posto per saperne di più. Oltre alla teoria contiene alcuni casi studio.
NRH,

12

Forse ho perso il punto, ma penso che devi fare un passo indietro.

Penso che il suo punto sia l'abuso di strumenti facilmente accessibili senza ulteriori conoscenze. Questo vale anche per un semplice test t: basta alimentare l'algoritmo con i propri dati, ottenere un p <0,05 e pensare che la propria tesi sia vera. Completamente sbagliato. Naturalmente, devi sapere di più sui tuoi dati.

Facendo un passo ancora più indietro: non c'è niente come un modello esatto ( qui il fisico ). Ma alcuni concordano molto bene con le nostre misurazioni. L'unica cosa esatta è la matematica. Che non ha nulla a che fare con la realtà o i suoi modelli . Tutto il resto (e ogni modello della realtà) è "sbagliato" (come citato così spesso).

Ma cosa significa "sbagliato" e utile? Giudica da solo:

TUTTO il nostro attuale high-tech (computer, missili, radioattività ecc.) Si basa su questi modelli sbagliati. Forse anche calcolato da simulazioni "sbagliate" con modelli "sbagliati".
-> Concentrati maggiormente su "utile" anziché su "sbagliato";)

Più esplicitamente alle tue domande:

  1. Non lo so, scusa!
  2. Sì. Un esempio: nella fisica delle particelle, si desidera rilevare determinate particelle (ad esempio elettroni, protoni ecc.). Ogni particella lascia una traccia caratteristica nel rivelatore (e quindi i dati), ma varia anche per la stessa particella (per sua natura). Oggi, la maggior parte delle persone usa l'apprendimento automatico per raggiungere questo obiettivo (questa è stata un'enorme semplificazione, ma è praticamente così) e c'è un aumento dell'efficienza del 20% -50% rispetto a farlo con le statistiche manuali .
  3. Nessuno l'ha rivendicato davvero! Non fare conclusioni sbagliate! (a: tutti i modelli sono inesatti eb: alcuni sono utili. Non confondere le cose)
  4. Non esiste nulla come modello esatto ( tranne che in matematica, ma non proprio nelle statistiche come avere punti esattamente su una linea retta e "adattarsi" una linea attraverso di essa può essere esatto ... ma questo è un caso speciale poco interessante che non accade mai) .
  5. Non lo so :) Ma IMHO lo vedo più come "solo perché ogni bambino può usarlo, non tutti dovrebbero" e non abusarne ciecamente.

Prenderò in considerazione i tuoi punti, ma su (3) e (4), ti suggerisco di guardare l'articolo di van der Laan, così come la mia domanda, perché l'articolo dice chiaramente che non serve a modelli inesatti, e si riferisce ripetutamente al "modello esatto". Quindi sì, direi che qualcuno l'ha detto davvero. Sono praticamente d'accordo con quello che dici sui modelli, nonché sull'applicazione meccanica dei metodi; e quindi non penso di essere io che vuoi chiedere di fare un passo indietro.
rvl

Si a tutto. E soprattutto, volevo dire che avrebbe fatto un passo indietro, di sicuro;) Penso, ciò che non ho menzionato, per costruire modelli teorici (matematici), ovviamente hai bisogno di modelli "esatti". Quindi, per "inventare" modelli e strumenti statistici migliori, hai bisogno di modelli deterministici (o esatti) come base. Anche l'apprendimento mirato all'impasto non deve essere "inesatto" in questo senso, credo.
Mayou36,

6

In econ si dice molto della comprensione del "processo di generazione dei dati". Non sono sicuro di cosa significhi esattamente un modello "esatto", ma in econ potrebbe essere lo stesso di un modello "correttamente specificato".

Certamente, vuoi sapere il più possibile sul processo che ha generato i dati prima di tentare un modello, giusto? Penso che la difficoltà provenga da a) potremmo non avere la minima idea del vero DGP eb) anche se conoscessimo il vero DGP potrebbe essere intrattabile modellare e stimare (per molte ragioni).

Quindi fai ipotesi per semplificare le cose e ridurre i requisiti di stima. Puoi mai sapere se i tuoi presupposti sono esattamente giusti? Puoi ottenere prove a loro favore, ma in alcuni casi è difficile essere davvero sicuri dell'IMO.

Devo filtrare tutto questo in termini sia di teoria consolidata che di praticità. Se fai un'ipotesi coerente con una teoria e quell'assunzione ti compra prestazioni di stima migliori (efficienza, accuratezza, coerenza, qualunque cosa), allora non vedo alcun motivo per evitarlo, anche se rende il modello "inesatto".

Francamente, penso che l'articolo abbia lo scopo di stimolare coloro che lavorano con i dati a pensare di più all'intero processo di modellazione. È chiaro che van der Laan fa ipotesi nel suo lavoro . In questo esempio , infatti, van der Laan sembra eliminare qualsiasi preoccupazione per un modello esatto, e invece utilizza un miscuglio di procedure per massimizzare le prestazioni. Questo mi rende più fiducioso del fatto che abbia sollevato la citazione di Box con l'intento di impedire alle persone di usarlo come via di fuga dal difficile lavoro di comprensione del problema.

Ammettiamolo, il mondo è pieno di abusi e abusi di modelli statistici. Le persone applicano ciecamente qualunque cosa sappiano fare e, peggio ancora, gli altri spesso interpretano i risultati nel modo più desiderabile. Questo articolo è un buon promemoria per stare attenti, ma non credo che dovremmo portarlo all'estremo.

Le implicazioni di quanto sopra per le tue domande:

  1. Concordo con gli altri su questo post che hanno definito un modello come una serie di ipotesi. Con quella definizione, un modello senza ipotesi non è in realtà un modello. Anche l'analisi dei dati esplorativi (cioè senza modello) richiede ipotesi. Ad esempio, la maggior parte delle persone presume che i dati siano misurati correttamente.
  2. Non so di TMLE, di per sé, ma in economia ci sono molti articoli che usano la stessa filosofia di base per dedurre un effetto causale su un campione controfattuale non osservato. In questi casi, tuttavia, ricevere un trattamento non è indipendente dalle altre variabili del modello (a differenza di TMLE), e quindi gli economisti fanno ampio uso della modellistica. Esistono alcuni casi studio per modelli strutturali, come questo in cui gli autori hanno convinto un'azienda a implementare il proprio modello e hanno trovato buoni risultati.
  3. Penso che tutti i modelli siano inesatti, ma ancora una volta, questo termine è un po 'sfocato. IMO, questo è al centro della citazione di Box. Riaffermerò la mia comprensione di Box in questo modo: "nessun modello può catturare l'esatta essenza della realtà, ma alcuni modelli catturano una variabile di interesse, quindi in tal senso potresti averne un uso".
  4. Ho affrontato questo sopra. In breve, non la penso così.
  5. Non ne sono sicuro. Mi piace proprio qui.

5

Per rispondere al punto 3, la risposta, ovviamente, è no. Quasi ogni impresa umana si basa su un modello semplificato ad un certo punto: cucinare, costruire, relazioni interpersonali coinvolgono tutti gli umani che agiscono su un qualche tipo di dati + ipotesi. Nessuno ha mai costruito un modello che non intendevano utilizzare. Affermare altrimenti è la pedanteria inattiva.

È molto più interessante e illuminante e utile chiedere quando i modelli inesatti non sono utili, perché falliscono nella loro utilità e cosa succede quando contiamo su modelli che risultano non essere utili. Qualsiasi ricercatore, sia in ambito accademico che industriale, deve porre questa domanda in modo accorto e spesso.

Non credo che si possa rispondere alla domanda in generale, ma i principi della propagazione dell'errore informeranno la risposta. I modelli inesatti si rompono quando il comportamento che prevedono non riflette il comportamento nel mondo reale. Comprendere come gli errori si propagano attraverso un sistema può aiutare a capire quanta precisione è necessaria per modellare il sistema.

Ad esempio, una sfera rigida di solito non è un cattivo modello per una palla da baseball. Ma quando stai progettando il guanto da ricevitore, questo modello ti fallirà e ti porterà a progettare la cosa sbagliata. Le tue ipotesi semplificative sulla fisica del baseball si propagano attraverso il tuo sistema di guantoni da baseball e ti portano a trarre conclusioni sbagliate.


5

1) Quali utili inferenze statistiche possono essere fatte usando un modello che non fa alcuna ipotesi?

Un modello è per definizione una generalizzazione di ciò che stai osservando che può essere catturato da alcuni fattori causali che a loro volta possono spiegare e stimare l'evento che stai osservando. Dato che tutti quegli algoritmi di generalizzazione hanno una sorta di ipotesi sottostanti. Non sono sicuro di ciò che resta di un modello se non si hanno ipotesi di sorta. Penso che ti rimangano i dati originali e nessun modello.

2) Esiste un caso di studio, con dati reali e importanti sull'uso della massima probabilità mirata? Questi metodi sono ampiamente utilizzati e accettati?

Non lo so. La massima probabilità viene utilizzata continuamente. I modelli Logit sono basati su questi e su molti altri modelli. Non differiscono molto dagli OLS standard in cui ti concentri sulle riduzioni della somma del quadrato dei residui. Non sono sicuro di quale sia la massima probabilità mirata. E come differisce dalla massima verosimiglianza tradizionale.

3) Tutti i modelli inesatti sono davvero inutili?

Assolutamente no. I modelli inesatti possono essere molto utili. In primo luogo, contribuiscono a una migliore comprensione o spiegazione di un fenomeno. Questo dovrebbe contare qualcosa. In secondo luogo, possono fornire una stima e una previsione della discesa con l'intervallo di confidenza pertinente per catturare l'incertezza che circonda una stima. Ciò può fornire molte informazioni su ciò che stai studiando.

Il problema di "inesatto" solleva anche il problema della tensione tra parsimonia e eccesso di vestibilità. Puoi avere un modello semplice con 5 variabili che è "inesatto" ma fa un ottimo lavoro nel catturare e spiegare l'andamento generale della variabile dipendente. Puoi avere un modello più complesso con 10 variabili che è "più esatto" del primo (quadrato R rettificato più alto, errore standard inferiore, ecc.). Tuttavia, questo secondo modello più complesso potrebbe davvero arrestarsi in modo anomalo quando lo si prova utilizzando un campione di Hold Out. E, in tal caso, forse il modello "inexact" si comporta molto meglio nell'esempio Hold Out. Questo accade letteralmente tutto il tempo in econometria e sospetto in molte altre scienze sociali. Attenzione ai modelli "esatti".

4) È possibile sapere che hai il modello esatto se non in casi banali?

Non è possibile sapere che hai il modello esatto. Ma è possibile sapere che hai un modello abbastanza buono. Le misure dei criteri di informazione (AIC, BIC, SIC) possono fornire molte informazioni che consentono di confrontare e confrontare le prestazioni relative di vari modelli. Inoltre, il test LINK può anche aiutare in tal senso.

5) Se questo è troppo basato sull'opinione e quindi fuori tema, dove può essere discusso? Perché l'articolo del dott. Van der Laan ha sicuramente bisogno di qualche discussione.

Penso che questo sia un forum appropriato per discutere di questo problema come altrove. Questo è un problema piuttosto interessante per la maggior parte di noi.


5

(Non vedo la frase "modello esatto" nell'articolo (sebbene citato sopra))

1) Quali utili inferenze statistiche possono essere fatte usando un modello che non fa alcuna ipotesi?

Devi iniziare da qualche parte. Se questo è tutto ciò che hai (niente), può essere un punto di partenza.

2) Esiste un caso di studio, con dati reali e importanti sull'uso della massima probabilità mirata? Questi metodi sono ampiamente utilizzati e accettati?

Per rispondere alla seconda domanda, Mireted Maximum Likelihood compare nel 93/1143281 (~ 0,008%) di articoli in arxiv.org. Quindi, probabilmente no è una buona stima (senza ipotesi) a quella.

3) Tutti i modelli inesatti sono davvero inutili?

No. A volte ti interessa solo un aspetto di un modello. Quell'aspetto può essere molto buono e il resto molto inesatto.

4) È possibile sapere che hai il modello esatto se non in casi banali?

Il modello migliore è il modello che risponde meglio alla tua domanda. Ciò può significare lasciare fuori qualcosa. Quello che vuoi evitare, nel miglior modo possibile, è una violazione dell'assunzione.

5) Happy hour . E le bevande sono più economiche da avviare!

Trovo inquietante l'uso della parola "esatto". Non è un discorso molto statistico. Inesattezza? Variazione? Grazie a Dio! Ecco perché siamo tutti qui. Penso che la frase "Tutti i modelli siano sbagliati ..." va bene, ma solo nella giusta compagnia. Gli statistici comprendono cosa significa, ma pochi altri lo fanno.


Un buon punto sulla frase "modello esatto". Dice cose su modelli "veri" e "reali" che sono equivalenti, soprattutto dato il contesto e il tono dell'articolo, ma hai ragione, la citazione non è "esatta" (gioco di parole inteso).
SQLServerSteve

Colpa mia. Avrei dovuto citarlo correttamente.
rvl

Sento che il tentativo di raggiungere il modello vero o reale manca il punto dell'esercizio. Penso che quello che sta davvero cercando di discutere siano i cattivi modelli.
mandata

Sì, l'articolo fa molti aspetti positivi, ma intervista molti commenti estremi come "È una totale assurdità affermare che tutti i modelli sono sbagliati", quando in realtà sono tutti in qualche modo sbagliati. Non ha senso dire il contrario. Sta sicuramente puntando una posizione estrema. Rvl aveva perfettamente ragione a tirarlo fuori e chiamarlo fuori (non sudare la citazione Ryl, l'importante è che tu abbia colto il significato correttamente).
SQLServerSteve

4

Detto articolo mi sembra un articolo onesto ma politico, una polemica sincera . Come tale, contiene molti passaggi appassionati che non hanno senso scientifico, ma che tuttavia possono essere efficaci nel suscitare utili conversazioni e deliberazioni su questioni importanti.

Ci sono molte buone risposte qui, quindi lasciatemi solo citare alcune righe dell'articolo per mostrare che il Prof. Laan non sta certamente usando alcun tipo di "modello esatto" nel suo lavoro (e, a proposito, chi dice che "esatto modello "è un concetto equivalente all'attuale meccanismo di generazione dei dati?)

Citazioni (grassetto la mia enfasi)

"Una volta che abbiamo posto un modello statistico realistico , dobbiamo estrarre dai nostri collaboratori quale stima e rappresenta al meglio la risposta alla loro domanda scientifica di interesse " .

Commento: "realistico" è rimosso da "esatto" come lo è Marte dalla Terra. Entrambi orbitano attorno al Sole, quindi per alcuni scopi non importa quale pianeta si scelga. Per altri scopi, è importante. Anche "migliore" è un concetto relativo. "Esatto" non lo è.

"Gli stimatori di una stima definita in un modello statistico onesto non possono essere stimati sensibilmente sulla base di modelli parametrici ...

Commento: l' onestà è davvero la migliore politica, ma non è certo che sia "esatta". Inoltre, la "stima sensata" sembra essere un risultato molto diluito se si utilizza il "modello esatto".

" In risposta a dover risolvere questi problemi di stima duri il meglio che possiamo , abbiamo sviluppato un approccio statistico generale ... "

Commento: OK. "Stiamo facendo il meglio che possiamo". Come quasi tutti pensano a se stessi. Ma "il meglio che possiamo" non è "esatto".


2

Lo affronterò dalla direzione alternativa della filosofia, alla luce dei principi veramente utili di Uncertainty Management discussi nei libri di George F. Klir su set sfocati. Non posso dare l'esattezza di van der Laan, ma posso fornire un caso un po 'esaustivo sul perché il suo obiettivo è logicamente impossibile; questo richiederà una lunga discussione che fa riferimento ad altri campi, quindi abbiate pazienza.

Klir e i suoi co-autori dividono l'incertezza in diversi sottotipi, come la non specificità (cioè quando si ha un insieme sconosciuto di alternative, affrontato attraverso mezzi come la Funzione Hartley); imprecisione nelle definizioni (ovvero "sfocatura" modellata e quantificata in insiemi sfocati); conflitto o discordanza in evidenza (affrontato nella teoria delle prove di Dempster-Shafer); oltre alla teoria delle probabilità, teoria delle possibilità e incertezza di misura, in cui l'obiettivo è avere un ambito adeguato per acquisire le prove pertinenti, riducendo al minimo gli errori. Vedo l'intera cassetta degli attrezzi delle tecniche statistiche come mezzo alternativo per dividere l'incertezza in diversi modi, proprio come un tagliabiscotti; gli intervalli di confidenza e i valori p mettono in quarantena l'incertezza in un modo, mentre misure come l'entropia di Shannon la riducono da un'altra angolazione. Quello che possono ' tuttavia, è eliminarlo del tutto. Per ottenere un "modello esatto" del tipo che Van Der Laan sembra descrivere, dovremmo ridurre a zero tutti questi tipi di incertezza, in modo da non lasciare più nulla da dividere. Un modello veramente "esatto" avrebbe sempre valori di probabilità e possibilità pari a 1, punteggi di non specificità pari a 0 e nessuna incertezza nelle definizioni di termini, intervalli di valori o scale di misurazione. Non ci sarebbe discordia in fonti alternative di prova. Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente dividono la loro incertezza nel futuro, ma non ne rimarrebbe nessuno. La prospettiva dell'incertezza ha alcune importanti implicazioni: del tipo di van der Laan che sembra descrivere, dovremmo ridurre a zero tutti questi tipi di incertezza, in modo da non lasciare più nulla da dividere. Un modello veramente "esatto" avrebbe sempre valori di probabilità e possibilità pari a 1, punteggi di non specificità pari a 0 e nessuna incertezza nelle definizioni di termini, intervalli di valori o scale di misurazione. Non ci sarebbe discordia in fonti alternative di prova. Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente ripartiscono la loro incertezza nel futuro, ma non rimarrebbe nessuno da rimandare. La prospettiva dell'incertezza ha alcune importanti implicazioni: del tipo di van der Laan che sembra descrivere, dovremmo ridurre a zero tutti questi tipi di incertezza, in modo da non lasciare più nulla da dividere. Un modello veramente "esatto" avrebbe sempre valori di probabilità e possibilità pari a 1, punteggi di non specificità pari a 0 e nessuna incertezza nelle definizioni di termini, intervalli di valori o scale di misurazione. Non ci sarebbe discordia in fonti alternative di prova. Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente ripartiscono la loro incertezza nel futuro, ma non rimarrebbe nessuno da rimandare. La prospettiva dell'incertezza ha alcune importanti implicazioni: Un modello veramente "esatto" avrebbe sempre valori di probabilità e possibilità pari a 1, punteggi di non specificità pari a 0 e nessuna incertezza nelle definizioni di termini, intervalli di valori o scale di misurazione. Non ci sarebbe discordia in fonti alternative di prova. Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente dividono la loro incertezza nel futuro, ma non ne rimarrebbe nessuno. La prospettiva dell'incertezza ha alcune importanti implicazioni: Un modello veramente "esatto" avrebbe sempre valori di probabilità e possibilità pari a 1, punteggi di non specificità pari a 0 e nessuna incertezza nelle definizioni di termini, intervalli di valori o scale di misurazione. Non ci sarebbe discordia in fonti alternative di prova. Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente dividono la loro incertezza nel futuro, ma non ne rimarrebbe nessuno. La prospettiva dell'incertezza ha alcune importanti implicazioni: Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente ripartiscono la loro incertezza nel futuro, ma non rimarrebbe nessuno da rimandare. La prospettiva dell'incertezza ha alcune importanti implicazioni: Le previsioni fatte da un tale modello sarebbero sempre accurate al 100 percento; i modelli predittivi essenzialmente dividono la loro incertezza nel futuro, ma non ne rimarrebbe nessuno. La prospettiva dell'incertezza ha alcune importanti implicazioni:

• Questo ordine elevato non è solo fisicamente non plausibile, ma in realtà logicamente impossibile. Ovviamente, non possiamo ottenere scale di misura perfettamente continue con gradi infinitesimali, raccogliendo osservazioni finite usando apparecchiature scientifiche fallibili; ci sarà sempre qualche incertezza in termini di scala di misurazione. Allo stesso modo, ci sarà sempre un po 'di confusione attorno alle stesse definizioni che impieghiamo nei nostri esperimenti. Anche il futuro è intrinsecamente incerto, quindi le previsioni apparentemente perfette dei nostri modelli "esatti" dovranno essere trattate come imperfette fino a prova contraria - il che richiederebbe un'eternità.

• A peggiorare le cose, nessuna tecnica di misurazione è esente da errori al 100% ad un certo punto del processo, né può essere resa sufficientemente completa da comprendere tutte le informazioni eventualmente in conflitto nell'universo. Inoltre, l'eliminazione di possibili variabili confondenti e la completa indipendenza condizionale non possono essere provate completamente senza esaminare tutti gli altri processi fisici che influenzano quello che stiamo esaminando, così come quelli che influenzano questi processi secondari e così via.

• L'esattezza è possibile solo nella pura logica e nel suo sottoinsieme, la matematica, proprio perché le astrazioni sono divorziate da preoccupazioni del mondo reale come queste fonti di incertezza. Ad esempio, per pura logica deduttiva, possiamo dimostrare che 2 + 2 = 4 e qualsiasi altra risposta è errata al 100%. Possiamo anche fare previsioni perfettamente accurate che sarà sempre uguale a 4. Questo tipo di precisione è possibile solo nelle statistiche quando abbiamo a che fare con le astrazioni. La statistica è incredibilmente utile quando viene applicata al mondo reale, ma la stessa cosa che lo rende utile inietta almeno un certo grado di inevitabile incertezza, rendendola così inesatta. È un dilemma inevitabile.

• Inoltre, Peter Chu pone ulteriori limitazioni nella sezione commenti dell'articolo a cui è collegato rvl. Lo mette meglio di me:

"Questa superficie di soluzione di problemi NP-difficili è in genere piena di molti optima locali e nella maggior parte dei casi è computazionalmente impossibile risolvere il problema, cioè trovare la soluzione ottimale globale in generale. Pertanto, ogni modellista utilizza alcune tecniche (euristiche) di modellizzazione, nella migliore delle ipotesi, trovare adeguate soluzioni locali ottimali nel vasto spazio di soluzione di questa complessa funzione oggettiva. "

• Tutto ciò significa che la scienza stessa non può essere perfettamente accurata, anche se van der Laan sembra parlarne in questo modo nel suo articolo; il metodo scientifico come processo astratto è precisamente definibile, ma l'impossibilità di una misurazione esatta universale e perfetta significa che non può produrre modelli esatti privi di incertezza. La scienza è un ottimo strumento, ma ha dei limiti.

• Peggiora da lì: anche se fosse possibile misurare esattamente tutte le forze che agiscono su ogni quark e gluone costituenti nell'universo, alcune incertezze rimarrebbero comunque . Innanzitutto, qualsiasi previsione fatta da un modello così completo sarebbe ancora incerta a causa dell'esistenza di soluzioni multiple per equazioni quintiche e polinomi superiori. In secondo luogo, non possiamo essere completamente certi che l'estremo scetticismo incarnato nella classica domanda "forse questo è tutto un sogno o un'allucinazione" non è un riflesso della realtà - nel qual caso tutti i nostri modelli sono effettivamente sbagliati nel peggior modo possibile . Ciò equivale sostanzialmente a un'interpretazione ontologica più estrema delle originali formulazioni epistemologiche di filosofie come il fenomenismo, l'idealismo e il solipsismo.

• Nella sua ortodossia classica del 1909GK Chesterton ha osservato che le versioni estreme di queste filosofie possono davvero essere giudicate, ma se guidano o meno i loro credenti nelle istituzioni mentali; il solipsismo ontologico, ad esempio, è in realtà un indicatore della schizofrenia, come lo sono alcuni dei suoi cugini. Il meglio che possiamo ottenere in questo mondo è eliminare ogni ragionevole dubbio; un irragionevole dubbio di questo tipo inquietante non può essere rigorosamente eliminato, anche in un ipotetico mondo di modelli esatti, misurazioni esaustive e prive di errori. Se van der Laan mira a liberarci di irragionevoli dubbi, allora sta giocando con il fuoco. Afferrando alla perfezione, il bene finito che possiamo fare scivolerà tra le dita; siamo creature finite che esistono in un mondo infinito, il che significa che il tipo di conoscenza completa e assolutamente certa per cui van der Laan sostiene è permanentemente al di là della nostra comprensione. L'unico modo in cui possiamo raggiungere quel tipo di certezza è ritirandoci da quel mondo nei confini più ristretti di quello perfettamente astratto che chiamiamo "matematica pura". Ciò non significa, tuttavia, che un ritiro nella matematica pura sia la soluzione per eliminare l'incertezza. Questo era essenzialmente l'approccio adottato dai successori di Ludwig Wittgenstein (1889-1951), che prosciugò la sua filosofia di positivismo logico di qualunque senso comune avesse rifiutando del tutto la metafisica e ritirandosi interamente nella pura matematica e nello scientismo, nonché in estremo scetticismo, specializzazione eccessiva e eccessiva enfasi sull'esattezza sull'utilità. Nel processo, hanno distrutto la disciplina della filosofia dissolvendola in una massa di scrupoli sulle definizioni e sullo sguardo dell'ombelico, rendendola così irrilevante per il resto del mondo accademico. Ciò essenzialmente uccise l'intera disciplina, che era stata in prima linea nel dibattito accademico fino all'inizio del XX secolo, al punto da attirare ancora l'attenzione dei media e alcuni dei suoi leader erano nomi familiari. Hanno afferrato una spiegazione perfetta e raffinata del mondo e questo è scivolato tra le loro dita - proprio come ha fatto attraverso i pazienti mentali di cui parlava GKC. Scapperà anche dalla stretta di van der Laan, che ha già smentito il suo punto, come discusso di seguito. La ricerca di modelli troppo esatti non è semplicemente impossibile; può essere pericoloso, se portato al punto di ossessionarsi. La ricerca di quel tipo di purezza raramente finisce bene; è spesso autolesionista come quei germofobi che si lavano le mani così furiosamente da finire con ferite che vengono infettate. E' s ricorda Icaro che cerca di rubare il fuoco dal Sole: come esseri finiti, possiamo avere solo una comprensione finita delle cose. Come dice anche Chesterton nell'Ortodossia, "È il logico che cerca di ottenere i cieli nella sua testa. Ed è la sua testa che si divide".

Alla luce di quanto sopra, vorrei affrontare alcune delle domande specifiche elencate da rvl:

1) Un modello senza assunzioni di qualsiasi tipo o a) non è a conoscenza delle proprie ipotesi o b) deve essere nettamente separato da considerazioni che introducono incertezza, come errori di misurazione, tenendo conto di ogni singola possibile variabile confondente, scale di misurazione perfettamente continue e piace.

2) Sono ancora un principiante quando si tratta della stima della massima verosimiglianza (MLE), quindi non posso commentare i meccanismi della verosimiglianza target, se non per sottolineare l'ovvio: la verosimiglianza è proprio questo, una verosimiglianza, non una certezza . Derivare un modello esatto richiede la completa eliminazione dell'incertezza, cosa che la logica probabilistica raramente può fare, se non mai.

3) Certo che no. Dato che tutti i modelli conservano una certa incertezza e sono quindi inesatti (tranne nei casi di matematica pura, divorziati dalle misurazioni fisiche del mondo reale), la razza umana non sarebbe stata in grado di fare alcun progresso tecnologico fino ad oggi - o in effetti, nessun altro progresso a tutti. Se i modelli inesatti fossero sempre inutili, avremmo avuto questa conversazione in una caverna, invece che su questa incredibile prodezza della tecnologia chiamata Internet, il tutto reso possibile dalla modellazione inesatta.

Ironia della sorte, il modello di van der Laan è un esempio primario di inesattezza. Il suo stesso articolo delinea una sorta di modello di come dovrebbe essere gestito il campo statistico, con l'obiettivo di modelli esatti; non ci sono ancora numeri associati a questo "modello", nessuna misura di quanto siano inesatti o inutili la maggior parte dei modelli ora a suo avviso, nessuna quantificazione di quanto siamo lontani dalla sua visione, ma suppongo che si possano escogitare test per quelle cose . Allo stato attuale, tuttavia, il suo modello è inesatto. Se non è utile, significa che il suo punto è sbagliato; se è utile, sconfigge il suo punto principale che i modelli inesatti non sono utili. Ad ogni modo, confuta la propria tesi.

4) Probabilmente no, perché non possiamo avere informazioni complete per testare il nostro modello, per le stesse ragioni per cui non possiamo derivare un modello esatto in primo luogo. Un modello esatto richiederebbe per definizione una perfetta prevedibilità, ma anche se i primi 100 test risultano accurati al 100%, il 101 ° potrebbe non esserlo. Quindi c'è l'intero problema delle scale di misurazione infinitesime. Successivamente, entriamo in tutte le altre fonti di incertezza, che contamineranno qualsiasi valutazione della Torre d'Avorio del nostro modello di Torre d'Avorio.

5) Per affrontare il problema, ho dovuto inserirlo nel più ampio contesto di questioni filosofiche molto più grandi che sono spesso controverse, quindi non penso che sia possibile discuterne senza entrare in opinioni (notare come questo di per sé sia ​​un altro fonte di incertezza) ma hai ragione, questo articolo merita una risposta. Molto di ciò che dice su altri argomenti è sulla buona strada, come la necessità di rendere le statistiche pertinenti ai Big Data, ma c'è un po 'di estremismo impreciso mescolato lì che dovrebbe essere corretto.


1
Chi sono questi "successori di Wittgenstein" che "hanno distrutto la disciplina della filosofia" !? La tendenza della filosofia analitica del dopoguerra - pensa ai successivi Wittgenstein, Austin, Quine, Kenny, Goodman, Lewis, Davidson, Rorty - sembra essere il rifiuto dei principi del positivismo logico, la riabilitazione della metafisica e un ritiro dallo scientismo. (I commenti di Rorty su Nietzsche e Loyola suggeriscono che avrebbe potuto essere d'accordo con il punto di Chesterton). Per quanto riguarda il motivo per cui Kim Kardashian è un nome familiare piuttosto che Saul Kripke, sospetto che altre tendenze siano in atto dall'inizio del XX secolo.
Scortchi - Ripristina Monica

Questi riformatori del dopoguerra sono sconosciuti al di fuori del loro campo proprio perché sono arrivati ​​dopo che la disciplina si era ritirata negli anni '20 / '30 (dopo un declino di secoli che gli estremi positivisti logici hanno semplicemente accelerato) in un'irrilevanza da cui non si è mai ripreso. Il danno era già stato fatto. Negli anni '50 altre discipline accademiche non guardavano più alla filosofia per la leadership e da allora la trattavano spesso con disprezzo, per pedanteria fuori dal mondo e nitida. Vorrei che non fosse vero. L'immagine potrebbe non riflettere la realtà della filosofia, ma la macchia rimane ancora.
SQLServerSteve

Sarei felice di discuterne in chat la prossima settimana se hai tempo, non voglio scendere in maniera tangente in questa discussione, ma sospetto che le nostre posizioni non siano così distanti. Penso che tu abbia perfettamente ragione, il movimento che ha portato a Kardashian ecc. È stato avviato dall'inizio del 20 ° secolo - proprio il tempo in cui la disciplina della filosofia cadde in eclissi (se meritasse è un'altra cosa; lo considero altamente pratico e vorrei che fosse ancora molto apprezzato).
SQLServerSteve

I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.