Regressione al puzzle medio


9

Nel capitolo "Regressione alla media" di "Pensare, veloce e lento" di Daniel Kahneman, viene fornito un esempio e viene chiesto al lettore di prevedere le vendite dei singoli negozi in base alle previsioni generali di vendita e ai numeri di vendita dell'anno precedente . Ad esempio (l'esempio del libro ha 4 negozi, ne uso 2 qui per semplicità):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

La previsione ingenua sarebbe 110 e 550 per i negozi 1 e 2, aumento del 10% per ciascuno. Tuttavia, l'autore afferma che questo approccio ingenuo è sbagliato. È più probabile che il negozio con prestazioni inferiori aumenti di oltre il 10% e che il negozio con prestazioni migliori aumenti (o addirittura diminuisca) di meno del 10%. Quindi forse una previsione di 115 (aumento del 15%) e 535 (aumento del 7%) sarebbe "più corretta" della previsione ingenua.

Quello che non capisco è come possiamo concludere che le vendite di 100 del punto vendita 1 sono necessariamente il punto vendita meno performante? Forse, a causa delle differenze di posizione, i veri mezzi delle serie temporali dei negozi 1 e 2 sono 10 e 550, e il negozio 1 ha avuto un super anno nel 2011 e il negozio 2 ha avuto un anno disastroso nel 2011. Quindi non avrebbe senso prevedere una diminuzione per il negozio 1 e un aumento per il negozio 2?

So che le informazioni sulle serie temporali non sono state fornite nell'esempio originale, ma ho l'impressione che "regressione alla media" si riferisca alla media trasversale e quindi le informazioni sulle serie temporali non contano. Cosa sto fraintendendo?

Risposte:


8

Mi capita di leggere quel libro. Non hai trascritto adeguatamente le informazioni chiave. Dice che "tutti i negozi sono simili per dimensioni e selezione della merce, ma le loro vendite differiscono a causa di posizione, concorrenza e fattori casuali". Questa è la chiave, specialmente l'ultimo bit. Sono necessari fattori casuali per la regressione della media (se le vendite crescono di un importo fisso, allora il guadagno del 10% equamente distribuito tra i negozi sarebbe giusto).


2
Stai dicendo che il presupposto "tutti i negozi sono simili" implica che le loro serie storiche significano che sono uguali? Altrimenti, due negozi identici possono ancora avere mezzi molto diversi a causa della posizione.

1
Ammetto che non è la più grande formulazione di un problema, ma è molto più chiara di quello che hai avuto nella tua domanda originale.
Peter Flom

2

Con così pochi punti dati, la risposta sarà quasi interamente dettata dal precedente (o equivalente implicito). Se l'autore ha già visto molti dati di questo tipo in precedenza, potrebbe avere buone ragioni per pensare che la loro risposta abbia maggiori probabilità di essere corretta, date le loro osservazioni precedenti. Penso che sia un tratto suggerire che questo sia un esempio di regressione alla media, almeno non senza specificare ulteriori informazioni. Ad esempio, i negozi si trovano in posizioni simili o no? Se lo sono e non ci sono altre evidenti differenze tra i negozi, allora potremmo sentirci giustificati nel pensare che facciano parte di una popolazione comparabile e possiamo pensare alla regressione alla media. Se ci sono evidenti differenze tra i negozi che potrebbero spiegare una differenza sistematica nelle vendite, allora diventa meno sensato farlo.


0

Penso che un'illustrazione migliore (ipotetica) potrebbe essere qualcosa del genere:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Escludendo ragioni sistematiche ci aspetteremmo che il peggior performer (per cause casuali) non sia più così. E così anche per il miglior interprete.

Quindi, con una crescita media del 10%, mi aspetto che il n. 1 faccia meglio del 110 e il n. 6 faccia peggio del 330.

Sento che la parte incerta sono le ipotesi. È molto raro, secondo me, che il ritardo del branco sia davvero solo un colpo di fortuna casuale e non una certa eterogeneità sottostante.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.