La previsione è il "criterio d'oro" per giudicare l'abilità degli statistici?


13

Lo scorso fine settimana stavo leggendo i modelli lineari del libro di testo di Faraway con R (1a edizione). Faraway aveva un capitolo chiamato "Strategia statistica e incertezza del modello". Ha descritto (pagina 158) che ha generato artificialmente alcuni dati utilizzando un modello molto complicato, quindi chiese ai suoi studenti di modellare i dati e confrontare degli studenti risultati previsti vs risultati di lettura. Sfortunatamente, la maggior parte degli studenti ha sovrastimato i dati dei test e ha dato valori completamente fuori dal comune. Per spiegare questo fenomeno, ha scritto qualcosa di molto impressionante per me:

"La ragione per cui i modelli erano così diversi è che gli studenti hanno applicato i vari metodi in diversi ordini. Alcuni hanno fatto una selezione variabile prima della trasformazione e altri, il contrario. Alcuni hanno ripetuto un metodo dopo che il modello è stato cambiato e altri no. Ho seguito le strategie che molti studenti hanno usato e non sono riusciti a trovare nulla di chiaramente sbagliato in ciò che avevano fatto. Uno studente ha fatto un errore nel calcolare i suoi valori previsti, ma nel resto non c'è stato ovviamente nulla di sbagliato. Le prestazioni in questo compito non hanno mostrato qualsiasi relazione con quella negli esami " .

Sono stato informato che l'accuratezza della previsione del modello è il 'criterio d'oro' per noi per selezionare le migliori prestazioni del modello. Se non sbaglio, questo è anche il metodo popolare usato nelle competizioni Kaggle. Ma qui Faraway ha osservato qualcosa di diverso, che le prestazioni di previsione del modello non potevano avere nulla a che farecon l'abilità dello statistico coinvolto. In altre parole, se siamo in grado di costruire il modello migliore in termini di potere predittivo non è realmente determinato da quanto siamo esperti. Invece è determinato da un'enorme "incertezza di modello" (cieca fortuna?). La mia domanda è: è vero anche nell'analisi dei dati della vita reale? O ero confuso con qualcosa di molto semplice? Perché se questo è vero, allora l'implicazione per l'analisi dei dati reali è immensa: senza conoscere il "modello reale" dietro i dati, non vi è alcuna differenza essenziale tra il lavoro svolto da statistici esperti / inesperti: entrambi sono solo ipotesi selvagge di fronte i dati di addestramento disponibili.


2
+1 bella domanda. Per offrire un altro punto di vista, supponiamo che uno degli analisti conosca la vera modalità, quindi anche le sue previsioni potrebbero essere cattive! Quindi, anche conoscendo il modello reale, lo vedresti. Importante può essere l'osservazione di Haggerty e Srivinasans del 1991 in Psychometrika secondo cui "la pratica di [...] concludere che un modello con una maggiore precisione predittiva sia" più vera "non è una deduzione valida".
Momo,

1
Non ho ancora guardato il libro, ma "selezione variabile" e "trasformazione" suonano già delle campane di avvertimento. Vedere Algoritmi per la selezione automatica del modello e la natura della relazione tra predittori e dipendenti dalla regressione . Inoltre, non confonderei l'esame degli studenti di Statistica con l'abilità lavorativa degli statistici.
Scortchi - Ripristina Monica

2
Queste informazioni fornite da Faraway sembrano terribilmente aneddotiche da utilizzare come base per un principio generale radicale nel campo della statistica. Non vorrei costruire un modello sulla modellazione predittiva basato su esempi non riproducibili. È anche possibile che siano stati, consapevolmente o no, scelti per la ciliegia.
rolando2,

3
Una conclusione logicamente valida che può essere derivata da questo aneddoto è che nessuno degli studenti di Faraway aveva (ancora) acquisito le competenze necessarie per eseguire bene il suo test di predizione. È difficile stabilire una connessione tra quel risultato e le tue speculazioni su come potrebbero fare gli statistici esperti.
whuber

@whuber: non la penso così. Sono d'accordo che 28 studenti sono un po 'piccoli, ma penso che questa vera osservazione abbia alcune implicazioni serie. Se Faraway ha creato il modello reale, e ha proseguito con il lavoro di diversi studenti, non è riuscito a trovare alcun errore grave, tuttavia le previsioni sono lontane da ciò che dovrebbero essere. Quindi questo dice qualcosa sull'incertezza del modello coinvolto, che almeno uno ha bisogno del lavoro svolto da un analista separato per confrontare le differenze, non importa quanto "esperto" sia l'analista originale. Penso che questo sia abbastanza allarmante per me.
Bombyx mori,

Risposte:


1

Ho chiesto al professore nel mio dipartimento su questo. Ha detto francamente di non esserne affatto sorpreso. Ha suggerito il seguente modo di vedere questo: ciò che Faraway ha fatto è stato solo un esperimento una sola volta, e non sorprende che i risultati sembrassero non avere alcuna correlazione con i voti finali. Ma se Faraway ripete il suo "esperimento" 100 volte con lo stesso gruppo di studenti, è sicuro che gli studenti hanno appreso che le statistiche migliori avrebbero funzionato bene, in modo simile all'intervallo di confidenza. Quindi, a suo avviso, l'esperienza conta, è solo un esperimento sociale che una volta non è stato in grado di dimostrarlo a causa dell'incertezza del modello.


Trovo che questa scusa sia divertente. Penso che questo sia il motivo per cui le statistiche vengono sostituite da (o rinominate come) "scienza dei dati". Le persone stanno iniziando a rendersi conto che la statistica come insegnata nelle università non è molto brava nella previsione e che i modelli senza potere predittivo sono inutili.
Flounderer il

1
@Flounderer: Penso che questa non sia davvero una scusa, e ciò che hai scritto potrebbe non essere davvero ben collegato a questo caso. Prima nella maggior parte dei casi nella vita reale uno ha sia un set di test che un set di allenamento, a differenza del caso di Faraway c'è solo un set di allenamento disponibile. In secondo luogo, se dai un'occhiata al modello di Faraway, è altamente non lineare in modo che i metodi di regressione non funzionino molto bene. Quindi tutti i modelli lineari sono solo ipotesi selvagge. La morale dell'esperimento è che "tutti i modelli sono sbagliati" piuttosto che "la statistica insegnata nelle università non è molto efficace nella previsione".
Bombyx mori il

@Flounderer: In altre parole, credo che se io (o chiunque altro nel forum) sia nella posizione di studente lontano venti anni fa di fronte a questo strano set di addestramento, è improbabile che faremo meglio usando solo modelli lineari. Non penso che questo sia qualcosa legato alle "statistiche come insegnate nelle università".
Bombyx mori il

1

I modelli degli studenti erano quasi tutti troppo adatti. Con n punti dati, si può sempre inserire un polinomio perfetto dell'ordine n-1. Un modello del genere è in ritardo senza lasciare nulla all'errore casuale. Sembra che gli studenti abbiano commesso errori di overfittng simili, ma presumibilmente con funzioni diverse.

L'eccessivo adattamento è un errore che dovrebbe essere fatto solo dagli studenti. E questo suggerisce che l'esperienza e l'educazione sono le qualifiche necessarie per la modellistica.


2
"Il sovrautilizzo è un errore che dovrebbe essere fatto solo dagli studenti" è uno standard piuttosto elevato da sopportare. Modellare è difficile. Forse qualcosa come "Overfitting è qualcosa che i modellisti imparano a riconoscere ed evitare attraverso l'esperienza e l'educazione" sarebbe più vicino alla verità?
Matthew Drury,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.