Direi che un singolo numero (come un residuo), derivato da un'estrazione casuale da una distribuzione di probabilità, è un valore realizzato , non una variabile casuale . Allo stesso modo, direi che l'insieme di residui, calcolato dai tuoi dati e dal tuo modello in forma usando , è un insieme di valori realizzati. Questa serie di numeri può essere liberamente concettualizzata come estrazioni indipendenti da una distribuzione sottostante ~ . (Sfortunatamente, tuttavia, ci sono diverse complessità aggiuntive qui. Ad esempio, in realtà non haie = y -N εN(μ,σ2)NeΣei=0Σxiei=0e=y−y^ϵN(μ,σ2)Ninformazioni indipendenti, poiché i residui, , devono soddisfare due condizioni: e ) e∑ei=0∑xiei=0
Ora, dato un certo numero di numeri, siano essi residui o altro, è certamente vero che hanno una varianza, , ma questo non è interessante. Ciò a cui teniamo è poter dire qualcosa sul processo di generazione dei dati (ad esempio, per stimare la varianza della distribuzione della popolazione). Usando la formula precedente, potremmo dare un'approssimazione sostituendo la con i gradi di libertà residui, ma questa potrebbe non essere una buona approssimazione. Questo è un argomento che può diventare molto complicato molto velocemente, ma un paio di possibili ragioni potrebbero essere l' eteroscedasticità (cioè che la varianza della popolazione differisce a diversi livelli di ) e la presenza di valori anomaliN∑(ei−e¯)2/NNx(vale a dire, che un dato residuo è tratto interamente da una popolazione diversa). Quasi certamente, in pratica, non sarai in grado di stimare la varianza della popolazione da cui è stato tratto un outlier, ma, in teoria, ha una varianza. Sospetto che qualcosa del genere sia ciò che gli autori avevano in mente, tuttavia, dovrei notare che non ho letto quel libro.
Aggiornamento: Dopo aver riletto la domanda, sospetto che la citazione possa riferirsi al modo in cui il valore di un punto influenza la linea di regressione adattata, e quindi il valore del residuo associato a quel punto. L'idea chiave da cogliere qui è la leva . Discuto questi argomenti nella mia risposta qui: Interpretazione di plot.lm () . x