Robusta PCA vs. robusta distanza Mahalanobis per un rilevamento anomalo


17

La solida PCA (sviluppata da Candes et al 2009 o meglio Netrepalli et al 2014 ) è un metodo popolare per il rilevamento di valori anomali multivariati , ma la distanza di Mahalanobis può anche essere utilizzata per il rilevamento di valori anomali, data una stima solida e regolarizzata della matrice di covarianza . Sono curioso di conoscere i (dis) vantaggi dell'utilizzo di un metodo rispetto all'altro.

La mia intuizione mi dice che la più grande distinzione tra i due è la seguente: quando il set di dati è "piccolo" (in senso statistico), la solida PCA fornirà una covarianza di livello inferiore mentre una solida stima della matrice di covarianza fornirà invece una piena grado di covarianza dovuto alla regolarizzazione del Ledoit-Wolf. In che modo ciò a sua volta influisce sul rilevamento anomalo?


Domanda interessante ma non riesco a vedere come una risposta possa essere motivata senza un caso d'uso specifico. Hai "osservazioni gravemente corrotte" ? Hai dati generalmente rumorosi? Diverse implementazioni di RPCA sono essenzialmente solide tecniche di stima della covarianza (vedi Princ. Jolliffe Component Analysis, Ed. 2nd Ch. 10) in cui i PC sono stimati dalla stima regolarizzata della covarianza. Pertanto, le distinzioni dai due approcci citati sono tutt'altro che chiare. In generale, il rilevamento automatico dei valori anomali ha esito positivo nel contesto di una particolare applicazione.
usεr11852 dice Reinstate Monic il

1
Il problema dei "dati rumorosi" non è un rilevamento anomalo. Penso che il problema del rilevamento anomalo sia di per sé abbastanza restrittivo da consentire un confronto generale tra questi due metodi senza un caso d'uso. Questa è una domanda sulla metodologia.
Mustafa S Eisa,

Forse ho provato a dire troppo in uno spazio troppo poco, mi dispiace per quello. Ciò a cui voglio attirare l'attenzione è che i due approcci che menzioni non sono distinti. Dovresti considerare di concentrarti maggiormente sul confronto tra un approccio di perseguimento della proiezione (quello che chiami RPCA) e un solido approccio di stima della covarianza (ciò che chiami distanze di Mahalanobis). La solida stima della covarianza in sé è una metodologia perfettamente valida per le implementazioni di RPCA (ad es. Google "PCA M-Estimation"). Non troppo menzione della presenza di approcci PCA ponderati che in qualche modo non si menziona nel contesto di RPCA.
usεr11852 dice Reinstate Monic il

Non c'è bisogno di scuse :) I due metodi sono molto distinti, in particolare su piccoli set di dati. Uno dei modi in cui sono diversi è menzionato alla fine della mia domanda. Mentre la (robusta) PCA può essere vista come un problema di proiezione, può anche essere interpretata come un problema di stima della covarianza, quindi c'è forse meno distinzione nel metodo di stima dei parametri che nell'applicazione e nelle prestazioni.
Mustafa S Eisa,

@ MustafaSEisa / Bella domanda! Penso che si possa rispondere su basi metodologiche: in effetti è uno dei miei pete peeves. Cercherò una risposta provvisoria al più presto. Nel frattempo; Penso che un modo fruttuoso di affrontarlo in termini più generali sia quello di esaminare le conseguenze dell'uso di modelli con un gruppo nidificato ma ineguale di invarianza. Come cerco di fare qui in un contesto leggermente diverso.
user603

Risposte:


7

Questo documento confronta alcuni metodi in quest'area. Si riferiscono all'approccio Robusto PCA a cui si è collegati come "PCP" (ricerca dei componenti principali) e alla famiglia di metodi a cui si è collegati per una solida stima della covarianza come stimatori M.

Lo sostengono

PCP è progettato per coordinate di dati uniformemente corrotte, anziché per punti di dati danneggiati (vale a dire valori anomali), pertanto il confronto con PCP è alquanto ingiusto per questo tipo di dati

e dimostrano che in alcuni casi PCP (noto anche come robusto PCA) potrebbe non riuscire a rilevare in modo anomalo.

Parlano anche di tre tipi di "nemici del recupero del sottospazio", ovvero diversi tipi di valori anomali e quali tipi di metodi potrebbero fare bene a gestire ciascuno di essi. Confrontando i tuoi valori anomali con i tre tipi di "nemici" discussi qui potresti aiutarti a scegliere un approccio.


Grazie per questo David, darò un'occhiata al documento. Tuttavia, esiste una versione di PCA robusto che impone una penalità invariante a rotazione sul dato (righe della matrice di dati) anziché una penalità sulle coordinate (come nel caso Candes). Pensieri?
Mustafa S Eisa,

Non sono sicuro di aver capito la tua domanda. Mi stai chiedendo di confrontare i due approcci discussi nella tua domanda con un approccio PCA diverso e robusto?
David J. Harris,

11

Se la tua risposta è "No", va benissimo, mi sto solo chiedendo.
Mustafa S Eisa,

Oh, capisco. Sarebbe un caso speciale di distanza Mahalanobis?
David J. Harris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.