Cosa sono i "fringelier"?


8

Di recente ho ricevuto un commento da un inviato di una rivista che mi ha chiesto di farlo

segnala come ho gestito i valori anomali e fringelier .

Non avevo sentito parlare del termine "fringeliers" e quando ho cercato su Google c'erano alcuni articoli, ma nessuna definizione concisa. Quindi ho pensato che sarebbe bello avere una domanda come questa che potesse chiarire cosa sono i "fringelier" e fornire una definizione sia per me che per le persone future che fanno la stessa domanda.


Ecco una risposta proposta quando invii la tua revisione: "Mi occupo di fringeli prendendo in considerazione i loro commenti sul mio manoscritto e rivedendo il mio documento di conseguenza". ;-)
Stephan Kolassa

Risposte:


10

Fringeliers sembra essere definito come un tipo di estremo meno estremo. Vale a dire, i dati ai margini della distribuzione.

Ad esempio, se si dovesse definire un limite per i valori anomali, i fringelier potrebbero essere resi operativi per essere quei valori vicini a entrambi i lati del limite (ad esempio, per un limite di 3 DS, tra 2.7 e 3.3 DS dalla media).

Osborne and Overbay (2008) scrivono quanto segue:

Sebbene le definizioni siano diverse, un valore anomalo è generalmente considerato un punto dati che è molto al di fuori della norma per una variabile o popolazione (ad esempio, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) descrisse un outlier come un'osservazione che "devia così tanto da altre osservazioni da destare sospetti da essere stato generato da un meccanismo diverso" (p. 1). I valori anomali sono stati anche definiti come valori "dubbiosi agli occhi del ricercatore" (Dixon, 1950, p. 488) e contaminanti (Wainer, 1976).

E continua introducendo il termine "fringelier" di Wainer (1976)

Wainer (1976) ha anche introdotto il concetto di "fringelier", riferendosi a "eventi insoliti che si verificano più spesso che di rado" (p. 286). Questi punti si trovano vicino a tre deviazioni standard dalla media e quindi possono avere un'influenza sproporzionatamente forte sulle stime dei parametri, ma non sono così evidenti o facilmente identificabili come valori anomali ordinari a causa della loro relativa vicinanza al centro di distribuzione.

Qualche esempio:

In alcuni contesti, i valori anomali suggeriscono che i dati non sono validi. Ad esempio, se l'altezza di un uomo è registrata come 8 piedi di altezza (diciamo 6,5 DS sopra la media), questa è probabilmente una misurazione non valida. Al contrario, se l'altezza di qualcuno è registrata come 6 piedi e 10 pollici di altezza (3 DS sopra la media - un fringelier), questa potrebbe essere una misurazione valida, ma allo stesso modo, potrebbe suggerire un problema con la misurazione in quanto è piuttosto raro. Il punto è che determinare se un valore non è valido diventa più difficile, meno estremo diventa il valore.

In altri contesti, i valori anomali sono una preoccupazione perché hanno un'influenza eccessiva sulle stime dei parametri, in particolare quando si usano metodi statistici standard usando i minimi quadrati e così via. Pertanto, i fringelier possono avere un impatto maggiore rispetto alla maggior parte dei casi, ma le decisioni sull'opportunità o meno di conservare i dati per scopi di modellazione potrebbero essere meno chiare.

Riferimenti

  • Osborne, J. & Overbay, A. (2008). Best practice nella pulizia dei dati: in che modo valori anomali e "fringelier" possono aumentare i tassi di errore e ridurre la qualità e la precisione dei risultati. In Osborne, J. Best practice in metodi quantitativi (pagg. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
  • Statistiche Wainer, H. Robust: un sondaggio e alcune prescrizioni1 (4) 285-312 (1976).

Suppongo che la differenza possa manifestarsi solo nel modo in cui vengono trattati. Le persone notano la differenza suggerendo di trattare il "fringelier" con una penalità moderata mentre trattano il colpevole con una penalità severa come il rigetto definitivo?
Hans

0

Penserei che dovresti considerare la frequenza dei fringelier rispetto ai punti dati che si trovano al di sotto del valore soglia. Se la percentuale di fringeli su dati "validi" è alta (sulla base di alcuni fattori), forse il valore soglia è definito in modo irrealisticamente. Immagina di essere in una tenda e gli unici orsi nella zona sono a 3 miglia di distanza; ma ce ne sono 500! :)


Questo non fornisce una definizione.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.