Supponiamo che uno esegua il cosiddetto bootstrap non parametrico tracciando campioni di dimensioni n ciascuno ciascuno dalle n osservazioni originali con sostituzione. Credo che questa procedura equivale a stimare la funzione di distribuzione cumulativa dal cdf empirico:
http://en.wikipedia.org/wiki/Empirical_distribution_function
e quindi ottenere i campioni di bootstrap simulando osservazioni dalla stima b di cdf volte di seguito.
Se ho ragione in questo, allora si deve affrontare il problema del sovradimensionamento, perché il cdf empirico ha circa N parametri. Certo, asintoticamente converge alla popolazione cdf, ma per quanto riguarda i campioni finiti? Ad esempio, se ti dicessi che ho 100 osservazioni e ho intenzione di stimare il cdf come con due parametri, non saresti allarmato. Tuttavia, se il numero di parametri dovesse arrivare a 100, non sembrerebbe affatto ragionevole.
Allo stesso modo, quando si utilizza una regressione lineare multipla standard, la distribuzione del termine di errore viene stimata come . Se uno decide di passare al bootstrap dei residui, deve rendersi conto che ora ci sono circa n parametri usati solo per gestire la distribuzione dei termini di errore.
Potresti indirizzarmi verso alcune fonti che affrontano esplicitamente questo problema o dirmi perché non è un problema se pensi di aver sbagliato.