Immagina qualsiasi linea di regressione adattata ad alcuni dati.
Immagina ora un punto dati aggiuntivo, un valore anomalo a una certa distanza dal corpo principale dei dati, ma che si trova da qualche parte lungo quella linea di regressione.
Se la linea di regressione dovesse essere ripristinata, i coefficienti non cambierebbero. Al contrario, l'eliminazione del valore anomalo extra avrebbe un'influenza zero sui coefficienti.
Pertanto, un punto anomalo o leva avrebbe un'influenza zero se fosse perfettamente coerente con il resto dei dati e il modello che il resto implica.
Per "linea" leggi "piano" o "iperpiano" se lo desideri, ma qui è sufficiente l'esempio più semplice di due variabili e un diagramma a dispersione.
Tuttavia, poiché ti piacciono le definizioni - spesso, a quanto pare, tende a leggere troppo in esse - ecco la mia definizione preferita di valori anomali:
"I valori anomali sono valori di esempio che causano sorpresa rispetto alla maggior parte del campione" (WN Venables e BD Ripley. 2002. Statistiche applicate moderne con S. New York: Springer, p.119).
Fondamentalmente, la sorpresa è nella mente di chi guarda e dipende da un modello tacito o esplicito dei dati. Potrebbe esserci un altro modello in base al quale il valore anomalo non è affatto sorprendente, ad esempio se i dati sono davvero lognormali o gamma piuttosto che normali.
PS Non credo che i punti di leva manchino necessariamente di osservazioni vicine. Ad esempio, possono verificarsi in coppia.