Ho letto il cigno nero un paio d'anni fa. L'idea del cigno nero è buona e l'attacco all'errore ludico (vedere le cose come se fossero giochi di dadi, con probabilità conoscibili) è buono ma le statistiche sono scandalosamente travisate, con il problema centrale che è l'affermazione sbagliata che tutte le statistiche cadono a pezzi se le variabili non sono normalmente distribuiti. Ero abbastanza infastidito da questo aspetto per scrivere a Taleb la lettera seguente:
Caro dottor Taleb
Di recente ho letto "Il cigno nero". Come te, sono un fan di Karl Popper e mi sono trovato d'accordo con molto di ciò che c'è dentro. Penso che la tua esposizione all'errore ludico sia fondamentalmente sana e attiri l'attenzione su un problema reale e comune. Tuttavia, penso che gran parte della Parte III delinei il tuo argomento generale, fino al punto di screditare il resto del libro. Questo è un peccato, poiché ritengo che gli argomenti relativi ai cigni neri e alle "incognite sconosciute" siano meriti senza fare affidamento su alcuni degli errori nella parte III.
La questione principale che desidero sottolineare - e su cui cerco la tua risposta, in particolare se ho frainteso i problemi - è la tua falsa rappresentazione del campo delle statistiche applicate. A mio giudizio, i capitoli 14, 15 e 16 dipendono in gran parte da un argomento di paglia, che travisa statistiche ed econometria. Il campo di econometria che descrivi non è quello che mi è stato insegnato quando ho studiato statistica applicata, econometria e teoria del rischio attuariale (presso la Australian National University, ma usando testi che sembravano piuttosto standard). I problemi che sollevi (come i limiti delle distribuzioni gaussiane) sono ben compresi e veramente compresi e insegnati, anche a livello universitario.
Ad esempio, fai di tutto per mostrare come la distribuzione del reddito non segue una distribuzione normale e la presenti come argomento contro la pratica statistica in generale. Nessuno statistico competente affermerebbe mai che lo fa, e i modi per affrontare questo problema sono ben definiti. Il solo uso di tecniche del livello più elementare di "econometria del primo anno", ad esempio, trasformando la variabile prendendo il suo logaritmo renderebbe i tuoi esempi numerici molto meno convincenti. Una tale trasformazione, infatti, invaliderebbe molto di ciò che dici, perché allora la varianza della variabile originale aumenta all'aumentare della sua media.
Sono sicuro che ci sono alcuni econometrici incompetenti che fanno regressioni OLS ecc. Con una variabile di risposta non trasformata come dici tu, ma ciò li rende semplicemente incompetenti e usa tecniche che sono ben stabilite per essere inadeguate. Sarebbero certamente falliti anche nei corsi di laurea, che trascorrono molto tempo alla ricerca di modi più appropriati di modellare variabili come il reddito, riflettendo la distribuzione effettiva osservata (non gaussiana).
La famiglia di modelli lineari generalizzati è un insieme di tecniche sviluppate in parte per aggirare i problemi che sollevi. Molte delle famiglie esponenziali di distribuzioni (ad es. Distribuzioni Gamma, esponenziali e Poisson) sono asimmetriche e hanno una varianza che aumenta all'aumentare del centro della distribuzione, aggirando il problema che si evidenzia con l'utilizzo della distribuzione gaussiana. Se questo è ancora troppo limitante, è possibile eliminare del tutto una "forma" preesistente e semplicemente specificare una relazione tra la media di una distribuzione e la sua varianza (ad esempio, consentendo alla varianza di aumentare proporzionalmente al quadrato della media), utilizzando il metodo di stima "quasi-verosimiglianza".
Certo, potresti sostenere che questa forma di modellistica è ancora troppo semplicistica e una trappola intellettuale che ci induce a pensare che il futuro sarà come il passato. Potresti avere ragione e penso che la forza del tuo libro sia quella di far sì che persone come me lo considerino. Ma hai bisogno di argomenti diversi da quelli che usi nei capitoli 14-16. Il grande peso che attribuisci al fatto che la varianza della distribuzione gaussiana è costante indipendentemente dalla sua media (che causa problemi di scalabilità), ad esempio, non è valida. Quindi è la tua enfasi sul fatto che le distribuzioni della vita reale tendono ad essere asimmetriche piuttosto che curve a campana.
Fondamentalmente, hai adottato una semplificazione eccessiva dell'approccio più elementare alla statistica (modellistica ingenua di variabili grezze come avere distribuzioni gaussiane) e mostrato, a grandi linee, (correttamente) le carenze di un approccio così semplificato. Quindi lo usi per creare il divario per screditare l'intero campo. Questo è un grave errore logico o una tecnica di propaganda. È sfortunato perché sminuisce il tuo argomento generale, gran parte del quale (come ho detto) ho trovato valido e convincente.
Sarei interessato a sentire quello che dici in risposta. Dubito di essere il primo ad aver sollevato questo problema.
cordiali saluti
PE