Non posso correre con i grandi cani delle statistiche che hanno risposto prima di me, e forse il mio pensiero è ingenuo, ma lo guardo in questo modo ...
Immagina di essere in una macchina e stai andando giù per la strada e girando la ruota a destra e sinistra e premendo freneticamente il pedale del gas e i freni. Eppure l'auto si muove senza intoppi, senza essere influenzata dalle tue azioni. Sospetteresti immediatamente di non essere in una vera macchina, e forse se guardassimo da vicino, determineremmo che sei in un giro a Disney World. (Se fossi in una vera macchina, rischieresti di essere mortale, ma non andiamo lì.)
D'altra parte, se stavi guidando lungo la strada in un'auto e girando la ruota leggermente leggermente a sinistra o a destra immediatamente hai portato la macchina a muoversi, il taping dei freni ha provocato una forte decelerazione, mentre la pressione del pedale del gas ti ha restituito al posto a sedere. Potresti sospettare di essere in un'auto sportiva ad alte prestazioni.
In generale, probabilmente sperimenterai qualcosa tra questi due estremi. Il grado in cui i tuoi input (sterzo, freni, gas) influenzano direttamente il movimento dell'auto ti dà un'idea della qualità dell'auto. Cioè, maggiore è la varianza della tua auto in movimento correlata alle tue azioni, migliore è la macchina e più l'auto si muove indipendentemente dal tuo controllo, peggio è la macchina.
In modo simile, si sta parlando di creazione di un modello per alcuni dati (chiamiamolo questi dati ), sulla base di alcuni altri set di dati (chiamiamoli x 1 , x 2 , . . . , X i ). Se y non varia, è come una macchina che non si muove e c'è davvero alcun senso discutere se l'auto (modello) funziona bene o no, quindi ci assumiamo y fa variare.yx1,x2,...,xiyy
Proprio come l'automobile, un modello di buona qualità avrà un buon rapporto tra il risultato variare e gli ingressi x i diversi. A differenza di una macchina, il x io non necessariamente causa y al cambiamento, ma se il modello sarà utile la x i necessità di cambiamento in stretta relazione a y . In altre parole, il x i spiegare gran parte della varianza a y .yxixi yxiyxiy
PS Non sono riuscito a trovare un'analogia con Winnie The Pooh, ma ci ho provato.
PPS [EDIT:] Nota che sto affrontando questa particolare domanda. Non essere confuso nel pensare che se rappresenti il 100% della varianza, il tuo modello funzionerà meravigliosamente. Devi anche pensare a un eccesso di adattamento, in cui il tuo modello è così flessibile da adattarsi molto da vicino ai dati di allenamento, comprese le stranezze e le stranezze casuali. Per usare l'analogia, vuoi un'auto che abbia un buon governo e freni, ma vuoi che funzioni bene su strada, non solo nella pista di prova che stai usando.