Lo scorso fine settimana stavo leggendo i modelli lineari del libro di testo di Faraway con R (1a edizione). Faraway aveva un capitolo chiamato "Strategia statistica e incertezza del modello". Ha descritto (pagina 158) che ha generato artificialmente alcuni dati utilizzando un modello molto complicato, quindi chiese ai suoi studenti di modellare i dati e confrontare degli studenti risultati previsti vs risultati di lettura. Sfortunatamente, la maggior parte degli studenti ha sovrastimato i dati dei test e ha dato valori completamente fuori dal comune. Per spiegare questo fenomeno, ha scritto qualcosa di molto impressionante per me:
"La ragione per cui i modelli erano così diversi è che gli studenti hanno applicato i vari metodi in diversi ordini. Alcuni hanno fatto una selezione variabile prima della trasformazione e altri, il contrario. Alcuni hanno ripetuto un metodo dopo che il modello è stato cambiato e altri no. Ho seguito le strategie che molti studenti hanno usato e non sono riusciti a trovare nulla di chiaramente sbagliato in ciò che avevano fatto. Uno studente ha fatto un errore nel calcolare i suoi valori previsti, ma nel resto non c'è stato ovviamente nulla di sbagliato. Le prestazioni in questo compito non hanno mostrato qualsiasi relazione con quella negli esami " .
Sono stato informato che l'accuratezza della previsione del modello è il 'criterio d'oro' per noi per selezionare le migliori prestazioni del modello. Se non sbaglio, questo è anche il metodo popolare usato nelle competizioni Kaggle. Ma qui Faraway ha osservato qualcosa di diverso, che le prestazioni di previsione del modello non potevano avere nulla a che farecon l'abilità dello statistico coinvolto. In altre parole, se siamo in grado di costruire il modello migliore in termini di potere predittivo non è realmente determinato da quanto siamo esperti. Invece è determinato da un'enorme "incertezza di modello" (cieca fortuna?). La mia domanda è: è vero anche nell'analisi dei dati della vita reale? O ero confuso con qualcosa di molto semplice? Perché se questo è vero, allora l'implicazione per l'analisi dei dati reali è immensa: senza conoscere il "modello reale" dietro i dati, non vi è alcuna differenza essenziale tra il lavoro svolto da statistici esperti / inesperti: entrambi sono solo ipotesi selvagge di fronte i dati di addestramento disponibili.