Nel capitolo "Regressione alla media" di "Pensare, veloce e lento" di Daniel Kahneman, viene fornito un esempio e viene chiesto al lettore di prevedere le vendite dei singoli negozi in base alle previsioni generali di vendita e ai numeri di vendita dell'anno precedente . Ad esempio (l'esempio del libro ha 4 negozi, ne uso 2 qui per semplicità):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
La previsione ingenua sarebbe 110 e 550 per i negozi 1 e 2, aumento del 10% per ciascuno. Tuttavia, l'autore afferma che questo approccio ingenuo è sbagliato. È più probabile che il negozio con prestazioni inferiori aumenti di oltre il 10% e che il negozio con prestazioni migliori aumenti (o addirittura diminuisca) di meno del 10%. Quindi forse una previsione di 115 (aumento del 15%) e 535 (aumento del 7%) sarebbe "più corretta" della previsione ingenua.
Quello che non capisco è come possiamo concludere che le vendite di 100 del punto vendita 1 sono necessariamente il punto vendita meno performante? Forse, a causa delle differenze di posizione, i veri mezzi delle serie temporali dei negozi 1 e 2 sono 10 e 550, e il negozio 1 ha avuto un super anno nel 2011 e il negozio 2 ha avuto un anno disastroso nel 2011. Quindi non avrebbe senso prevedere una diminuzione per il negozio 1 e un aumento per il negozio 2?
So che le informazioni sulle serie temporali non sono state fornite nell'esempio originale, ma ho l'impressione che "regressione alla media" si riferisca alla media trasversale e quindi le informazioni sulle serie temporali non contano. Cosa sto fraintendendo?