Una domanda più produttiva potrebbe essere "perché non è stata utilizzata nelle statistiche classiche che ho imparato?"
A seconda dei livelli a cui è stato insegnato, il contenuto del corso (e il tempo disponibile) che la scelta può essere dovuta a una combinazione di vari fattori. Spesso argomenti importanti vengono lasciati da parte perché altro materiale deve essere insegnato per un motivo o per l'altro, con la speranza che possano essere trattati nelle materie successive.
Almeno in alcuni sensi, l'idea è stata a lungo utilizzata da una varietà di persone. Era più comune in alcune aree rispetto ad altri. Molti usi delle statistiche non hanno la previsione o la selezione del modello come componente principale (o in alcuni casi, anche del tutto), e in tal caso, l'uso di campioni di controllo può essere meno critico rispetto a quando la previsione è il punto principale. Probabilmente, avrebbe dovuto ottenere un uso più diffuso in una fase precedente in alcune applicazioni pertinenti rispetto a quello che ha fatto, ma non è la stessa cosa di essere sconosciuto.
Se osservi le aree che si concentrano sulla previsione, la nozione di valutazione del modello prevedendo i dati che non hai utilizzato per stimare il tuo modello era sicuramente in circolazione (anche se non universale). Lo stavo certamente facendo con la modellazione di serie storiche che stavo facendo negli anni '80, ad esempio, dove le prestazioni predittive fuori campione dei dati più recenti erano particolarmente importanti.
L'idea di tralasciare almeno alcuni dati è stata utilizzata nella regressione (residui eliminati, PRESS, il coltello e così via) e, ad esempio, in un'analisi errata.
Alcune di queste idee risalgono ancora molto prima. Stone (1974) [1] fa riferimento a documenti sulla convalida incrociata (con la parola nel titolo) degli anni '50 e '60. Forse ancora più vicino al tuo intento, menziona l'uso di Simon (1971) dei termini "campione di costruzione" e "campione di validazione" - ma sottolinea anche che "Larson (1931) impiegava una divisione casuale del campione in un multiplo educativo studio di regressione ".
Argomenti come la validazione incrociata e l'uso di statistiche basate sulla previsione e così via, stavano diventando sostanzialmente più frequenti nella letteratura statistica negli anni '70 e '80, per esempio, ma molte delle idee di base erano in circolazione da un po 'di tempo anche poi.
[1]: Stone, M., (1974)
"Scelta cross-validatoria e valutazione delle previsioni statistiche",
Journal of the Royal Statistical Society. Serie B (metodologica) , vol. 36, n. 2., pagg. 111-147