In Thinking, Fast and Slow , Daniel Kahneman pone la seguente domanda ipotetica:
(P. 186) Julie è attualmente senior in un'università statale. Lesse fluentemente quando aveva quattro anni. Qual è la sua media dei voti (GPA)?
La sua intenzione è di illustrare come spesso non riusciamo a rendere conto della regressione alla media quando facciamo previsioni su determinate statistiche. Nella discussione successiva, consiglia:
(P. 190) Ricordiamo che la correlazione tra due misure - nella fattispecie lettura dell'età e GPA - è uguale alla proporzione di fattori condivisi tra i loro determinanti. Qual è la tua ipotesi migliore su quella proporzione? La mia ipotesi più ottimista è di circa il 30%. Supponendo questa stima, abbiamo tutto ciò di cui abbiamo bisogno per produrre una previsione imparziale. Ecco le indicazioni su come arrivarci in quattro semplici passaggi:
- Inizia con una stima del GPA medio.
- Determina il GPA che corrisponde alla tua impressione delle prove.
- Stimare la correlazione tra lettura precocità e GPA.
- Se la correlazione è .30, sposta il 30% della distanza dalla media al GPA corrispondente.
La mia interpretazione del suo consiglio è la seguente:
- Usa "Ha letto fluentemente quando aveva quattro anni" per stabilire un punteggio standard per la precocità di lettura di Julie.
- Determinare un GPA con un punteggio standard corrispondente. (Il GPA razionale da prevedere corrisponderebbe a questo punteggio standard se la correlazione tra GPA e la precocità di lettura fosse perfetta.)
- Stimare quale percentuale di variazioni in GPA può essere spiegata da variazioni nella precocità di lettura. (Suppongo che si riferisca al coefficiente di determinazione con "correlazione" in questo contesto?)
- Poiché solo il 30% del punteggio standard della precocità di lettura di Julie può essere spiegato da fattori che possono anche spiegare il punteggio standard del suo GPA, siamo solo giustificati nel prevedere che il punteggio standard del GPA di Julie sarà il 30% di quello che sarebbe in caso di perfetta correlazione.
La mia interpretazione della procedura di Kahneman è corretta? In tal caso, esiste una giustificazione matematica più formale della sua procedura, in particolare il passaggio 4? In generale, qual è la relazione tra la correlazione tra due variabili e le variazioni / differenze nei loro punteggi standard?