Supponiamo che ci venga fornito un insieme di dati del modulo e . Ci viene assegnato il compito di prevedere base ai valori di . Stimiamo due regressioni in cui: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Stimiamo anche una regressione che prevede i valori di base ai valori di , ovvero: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Supponiamo ora che ci vengano dati i valori di , quindi avremmo due metodi diversi per prevedere y :y
Quale sarebbe meglio in generale?
Immagino che la prima equazione sarebbe migliore perché utilizza le informazioni provenienti dalle due forme di punti dati mentre la seconda equazione utilizza le informazioni solo dai punti dati che hanno valori predittori . La mia formazione in statistica è limitata e quindi vorrei chiedere una consulenza professionale.
Inoltre, in generale, qual è l'approccio migliore nei confronti dei dati con informazioni incomplete? In altre parole, come possiamo estrarre la maggior parte delle informazioni dai dati che non hanno valori in tutte le dimensioni?