Fringeliers sembra essere definito come un tipo di estremo meno estremo. Vale a dire, i dati ai margini della distribuzione.
Ad esempio, se si dovesse definire un limite per i valori anomali, i fringelier potrebbero essere resi operativi per essere quei valori vicini a entrambi i lati del limite (ad esempio, per un limite di 3 DS, tra 2.7 e 3.3 DS dalla media).
Osborne and Overbay (2008) scrivono quanto segue:
Sebbene le definizioni siano diverse, un valore anomalo è generalmente considerato un punto dati che è molto al di fuori della norma per una variabile o popolazione (ad esempio, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) descrisse un outlier come un'osservazione che "devia così tanto da altre osservazioni da destare sospetti da essere stato generato da un meccanismo diverso" (p. 1). I valori anomali sono stati anche definiti come valori "dubbiosi agli occhi del ricercatore" (Dixon, 1950, p. 488) e contaminanti (Wainer, 1976).
E continua introducendo il termine "fringelier" di Wainer (1976)
Wainer (1976) ha anche introdotto il concetto di "fringelier", riferendosi a "eventi insoliti che si verificano più spesso che di rado" (p. 286). Questi punti si trovano vicino a tre deviazioni standard dalla media e quindi possono avere un'influenza sproporzionatamente forte sulle stime dei parametri, ma non sono così evidenti o facilmente identificabili come valori anomali ordinari a causa della loro relativa vicinanza al centro di distribuzione.
Qualche esempio:
In alcuni contesti, i valori anomali suggeriscono che i dati non sono validi. Ad esempio, se l'altezza di un uomo è registrata come 8 piedi di altezza (diciamo 6,5 DS sopra la media), questa è probabilmente una misurazione non valida. Al contrario, se l'altezza di qualcuno è registrata come 6 piedi e 10 pollici di altezza (3 DS sopra la media - un fringelier), questa potrebbe essere una misurazione valida, ma allo stesso modo, potrebbe suggerire un problema con la misurazione in quanto è piuttosto raro. Il punto è che determinare se un valore non è valido diventa più difficile, meno estremo diventa il valore.
In altri contesti, i valori anomali sono una preoccupazione perché hanno un'influenza eccessiva sulle stime dei parametri, in particolare quando si usano metodi statistici standard usando i minimi quadrati e così via. Pertanto, i fringelier possono avere un impatto maggiore rispetto alla maggior parte dei casi, ma le decisioni sull'opportunità o meno di conservare i dati per scopi di modellazione potrebbero essere meno chiare.
Riferimenti
- Osborne, J. & Overbay, A. (2008). Best practice nella pulizia dei dati: in che modo valori anomali e "fringelier" possono aumentare i tassi di errore e ridurre la qualità e la precisione dei risultati. In Osborne, J. Best practice in metodi quantitativi (pagg. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
- Statistiche Wainer, H. Robust: un sondaggio e alcune prescrizioni1 (4) 285-312 (1976).