Trattamento dei valori anomali prodotti da Kurtosis


10

Mi chiedevo se qualcuno potesse aiutarmi con informazioni su Kurtosis (cioè c'è un modo per trasformare i tuoi dati per ridurli?)

Ho un set di dati del questionario con un gran numero di casi e variabili. Per alcune delle mie variabili, i dati mostrano valori di curtosi piuttosto elevati (ovvero una distribuzione leptocurtic) che deriva dal fatto che molti dei partecipanti hanno dato lo stesso punteggio esatto per la variabile. Ho una dimensione del campione particolarmente grande, quindi secondo il teorema del limite centrale, le violazioni della normalità dovrebbero comunque andare bene.

Il problema, tuttavia, è che i livelli particolarmente elevati di Kurtosi stanno producendo una serie di valori anomali univariati nel mio set di dati. Pertanto, anche se trasformo i dati, o rimuovo / adeguo i valori anomali, i livelli elevati di curtosi indicano che i punteggi più estremi successivi diventano automaticamente valori anomali. Mi propongo di utilizzare (analisi delle funzioni discriminanti). Si dice che DFA sia robusto rispetto alle deviazioni dalla normalità, a condizione che la violazione sia causata da asimmetria e non da valori anomali. Inoltre, si dice che DFA sia particolarmente influenzato dai valori anomali nei dati (Tabachnick & Fidel).

Qualche idea su come aggirare questo? (Il mio pensiero iniziale era un modo per controllare la Kurtosi, ma non è una buona cosa se la maggior parte del mio campione sta dando voti simili?)

Risposte:


8

L'ovvio modo di "buon senso" per risolvere il tuo problema è

  1. Ottieni la conclusione utilizzando il set di dati completo. cioè quali risultati dichiarerete ignorando i calcoli intermedi?
  2. Ottieni la conclusione utilizzando il set di dati con detti "valori anomali" rimossi. cioè quali risultati dichiarerete ignorando i calcoli intermedi?
  3. Confronta il passaggio 2 con il passaggio 1
  4. Se non c'è differenza, dimentica che hai persino avuto un problema. I valori anomali sono irrilevanti per la tua conclusione . I valori anomali possono influenzare alcune altre conclusioni che potrebbero essere state tratte utilizzando questi dati, ma ciò non è rilevante per il tuo lavoro. È il problema di qualcun altro.
  5. Se c'è una differenza, allora hai fondamentalmente una domanda di "fiducia". Questi "valori anomali" sono reali nel senso che rappresentano veramente qualcosa della tua analisi? O i "outlier" sono cattivi in ​​quanto provengono da una "fonte contaminata"?

Nella situazione 5 hai fondamentalmente un caso di qualunque "modello" che hai usato per descrivere la "popolazione" sia incompleto - ci sono dettagli che sono stati lasciati non specificati, ma che contano per le conclusioni. Esistono due modi per risolverlo, corrispondenti ai due scenari di "fiducia":

  1. Aggiungi una struttura aggiuntiva al tuo modello in modo che sia descritto i "valori anomali". Quindi invece di , considera .P ( D | θ ) = P ( λ | θ ) P ( D | θ , λ ) d λP(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. Crea un "modello-modello", uno per le osservazioni "buone" e uno per le osservazioni "cattive". Così, invece di si usa , eri u è la probabilità di ottenere un'osservazione "buona" nel campione e G e B rappresentano i modelli per i dati "buoni" e "cattivi".P ( D | θ ) = G ( D | θ ) u + B ( D | θ ) ( 1 - u )P(D|θ)P(D|θ)=sol(D|θ)u+B(D|θ)(1-u)

È possibile dimostrare che la maggior parte delle procedure "standard" sono approssimazioni a questo tipo di modelli. Il più ovvio è considerando il caso 1, in cui la varianza è stata assunta costante attraverso le osservazioni. Rilassando questo assunto in una distribuzione si ottiene una distribuzione della miscela. Questa è la connessione tra le distribuzioni "normali" e "t". La normale ha una varianza fissa, mentre la "t" si mescola su diverse varianze, la quantità di "miscelazione" dipende dai gradi di libertà. DF elevato significa miscelazione bassa (sono improbabili valori anomali), DF basso significa miscelazione elevata (è probabile che siano anomali). In effetti potresti prendere il caso 2 come caso speciale del caso 1, in cui le osservazioni "buone" sono normali e le osservazioni "cattive" sono Cauchy (t con 1 DF).


Che risposta eccellente, @probabilityislogic
Peter Flom

Solo una nota chiarificatrice: la classificazione ottimale richiede la conoscenza delle vere distribuzioni multivariate. Se riesci a stimare bene queste distribuzioni, la funzione di classificazione risultante è quasi ottimale. I valori anomali (come indicato dalla curtosi) sono effettivamente problematici perché non ci sono pochi dati nella regione con cui stimare la densità. Con i dati multivariati, anche la maledizione della dimensionalità contribuisce a questo problema.
Peter Westfall,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.