Quando si risolvono i problemi aziendali utilizzando i dati, è comune che almeno un'ipotesi chiave secondo cui le statistiche classiche sottostanti non siano valide. Il più delle volte, nessuno si preoccupa di controllare quei presupposti in modo da non saperlo mai.
Ad esempio, il fatto che molte delle metriche web più comuni siano "long tail" (rispetto alla distribuzione normale) è ormai così ben documentato che lo diamo per scontato. Un altro esempio, le comunità online - anche nelle comunità con migliaia di membri, è ben documentato che la quota di gran lunga maggiore di contributo / partecipazione in molte di queste comunità è attribuibile a un minuscolo gruppo di "super-contributori". (Ad esempio, pochi mesi fa, subito dopo che l'API SO è stata resa disponibile in versione beta, un membro StackOverflow ha pubblicato una breve analisi dei dati raccolti tramite l'API; la sua conclusione: meno dell'uno percento dell'account dei membri SO per la maggior parte di l'attività su SO (presumibilmente ponendo domande e rispondendo a loro), un altro 1-2% ha rappresentato il resto e la stragrande maggioranza dei membri non fa nulla).
Le distribuzioni di quel tipo - sempre più spesso la regola piuttosto che l'eccezione - sono spesso modellate al meglio con una funzione di densità della legge di potenza . Per questo tipo di distribuzioni, anche il teorema del limite centrale è problematico da applicare.
Quindi, data l'abbondanza di popolazioni come questa di interesse per gli analisti, e dato che i modelli classici hanno prestazioni scarsamente dimostrabili su questi dati, e dato che metodi robusti e resistenti sono in circolazione da un po 'di tempo (almeno 20 anni, credo) - perché non vengono usati più spesso? (Sto anche chiedendo il motivo per cui io non li uso più spesso, ma che non è proprio una domanda per CrossValidated .)
Sì, so che ci sono capitoli di libri di testo interamente dedicati a statistiche affidabili e so che ci sono (alcuni) pacchetti R ( robustbase è quello con cui ho familiarità e utilizzo), ecc.
Eppure, visti gli ovvi vantaggi di queste tecniche, spesso sono chiaramente gli strumenti migliori per il lavoro: perché non vengono utilizzati molto più spesso ? Non dovremmo aspettarci di vedere statistiche solide (e resistenti) usate molto più spesso (forse anche presuntivamente) rispetto agli analoghi classici?
L'unica spiegazione sostanziale (cioè tecnica) che ho sentito è che le tecniche robuste (anche per i metodi resistenti) mancano del potere / sensibilità delle tecniche classiche. Non so se questo sia effettivamente vero in alcuni casi, ma so che non è vero in molti casi.
Un'ultima parola di prelazione: sì, so che questa domanda non ha un'unica risposta dimostrabilmente corretta; fanno pochissime domande su questo sito. Inoltre, questa domanda è una vera richiesta; non è un pretesto per avanzare un punto di vista - non ho un punto di vista qui, solo una domanda per la quale spero in alcune risposte perspicaci.