Perché i dati distorti non sono preferiti per la modellazione?


16

Il più delle volte quando le persone parlano di trasformazioni variabili (sia per il predittore che per le variabili di risposta), discutono dei modi per trattare l'asimmetria dei dati (come la trasformazione dei log, la trasformazione di box e cox ecc.). Ciò che non sono in grado di comprendere è perché la rimozione dell'asimmetria è considerata una pratica ottimale così comune? In che modo l'asimmetria influisce sulle prestazioni di vari tipi di modelli come modelli basati su alberi, modelli lineari e modelli non lineari? Quali tipi di modelli sono maggiormente influenzati dall'asimmetria e perché?


2
Al fine di fornire una risposta ragionevole, si prega di chiarire cosa si intende per: a) dati, b) modelli e c) modelli. La domanda chiave - come al solito - è ciò che si vuole fare con esso . Ma che cosa è esso ?
cherubino

Ho aggiornato la mia risposta per aggiungere alcune citazioni pertinenti ed espandere le affermazioni.
Tavrock,

Risposte:


11

Quando si rimuove l'asimmetria, le trasformazioni stanno tentando di fare in modo che l'insieme di dati segua la distribuzione gaussiana. Il motivo è semplicemente che se il set di dati può essere trasformato in modo da essere statisticamente abbastanza vicino a un set di dati gaussiano, è possibile utilizzare il set di strumenti più ampio possibile. Test come ANOVA, -test, F -test e molti altri dipendono dai dati con varianza costante ( σ 2 ) o seguono una distribuzione gaussiana. 1tFσ2

Ci sono modelli che sono più robusti 1 (come l'utilizzo di test di Levine, invece del test di Bartlett), ma maggior parte dei test e dei modelli che funzionano bene con altre distribuzioni richiedono che si sa quale distribuzione si sta lavorando e sono in genere appropriato solo per una singola distribuzione anche.

Per citare il Manuale delle statistiche ingegneristiche del NIST :

Nella modellazione di regressione, spesso applichiamo trasformazioni per raggiungere i seguenti due obiettivi:

  1. per soddisfare l'omogeneità delle varianze ipotesi per gli errori.
  2. per linearizzare l'adattamento il più possibile.

È necessaria una certa cura e giudizio in quanto questi due obiettivi possono essere in conflitto. In genere, cerchiamo innanzitutto di ottenere varianze omogenee, quindi affrontiamo il problema del tentativo di linearizzare l'adattamento.

e in un'altra posizione

Un modello che coinvolge una variabile di risposta e una singola variabile indipendente ha la forma:

Yio=f(Xio)+Eio

dove è la variabile di risposta, X è la variabile indipendente, f è la funzione di adattamento lineare o non lineare ed E è il componente casuale. Per un buon modello, il componente di errore dovrebbe comportarsi come:YXfE

  1. disegni casuali (cioè indipendenti);
  2. da una distribuzione fissa;
  3. con posizione fissa; e
  4. con variazione fissa.

Inoltre, per i modelli di montaggio si presume generalmente che la distribuzione fissa sia normale e che la posizione fissa sia zero. Per un buon modello la variazione fissa dovrebbe essere il più piccola possibile. Un componente necessario dei modelli di adattamento è verificare queste ipotesi per il componente di errore e valutare se la variazione per il componente di errore è sufficientemente piccola. L'istogramma, il diagramma di ritardo e il diagramma di probabilità normale vengono utilizzati per verificare le ipotesi di distribuzione, posizione e variazione fisse sul componente dell'errore. Il grafico della variabile di risposta e dei valori previsti rispetto alla variabile indipendente viene utilizzato per valutare se la variazione è sufficientemente piccola. I grafici dei residui rispetto alla variabile indipendente e ai valori previsti vengono utilizzati per valutare il presupposto di indipendenza.

Valutare la validità e la qualità dell'adattamento in base ai presupposti di cui sopra è una parte assolutamente vitale del processo di adattamento del modello. Nessun adattamento deve essere considerato completo senza una fase di validazione del modello adeguata.


  1. citazioni (abbreviate) per reclami:
    • Breyfogle III, Forrest W. Implementare Six Sigma
    • Pyzdek, Thomas. Il manuale Six Sigma
    • Montgomery, Douglas C. Introduzione al controllo statistico della qualità
    • Ed. Cubberly, Willaim H e Bakerjan, Ramon. Manuale degli ingegneri degli utensili e della produzione: Desktop Edition

Grazie per la tua risposta Tavrock. Ma per quanto ne so, ANOVA o t-test di F-test non vengono utilizzati negli alberi delle decisioni (almeno per eseguire divisioni). Inoltre, nella regressione lineare la maggior parte delle ipotesi relative alla forma della distribuzione è correlata agli errori. Se gli errori sono inclinati, questi test falliscono. Quindi, ciò significa che l'asimmetria della variabile predittore non dovrebbe influire sulla qualità della previsione per questi modelli. Perfavore, correggimi se sbaglio. Grazie ancora!!
saurav shekhar,

1
Puoi chiarire la tua domanda: vuoi sapere come trasformare la variabile di risposta, o come trasformare le variabili di predittore o entrambi?
Groovy_Worm

1
@Groovy_Worm grazie per averlo indicato. In questa domanda sono preoccupato sia per il predittore che per le variabili di risposta.
saurav shekhar,

Potresti cercare modelli lineari generalizzati (GLM) . Nella regressione lineare, in genere si assume che la variabile dipendente segua una distribuzione gaussiana subordinata alle variabili casuali X ed e . Con GLM, puoi espandere il tuo universo per consentire (quasi) qualsiasi tipo di distribuzione per la tua variabile dipendente, le tue variabili indipendenti (tramite una funzione di collegamento specificata).
Chris K,

7

Questo è vero soprattutto per i modelli parametrici. Come ha detto Tavrock, avere una variabile di risposta non distorta fa funzionare meglio l'approssimazione gaussiana della stima dei parametri, questo perché la distribuzione simmetrica converge molto più velocemente di quella distorta in gaussiana. Ciò significa che, se si hanno dati distorti, la loro trasformazione renderà il set di dati più piccolo almeno per l'utilizzo di intervalli di confidenza e test sui parametri (gli intervalli di previsione non saranno ancora validi, perché anche se i dati ora sono simmetrici, non si potrebbe dire è normale, solo le stime dei parametri convergeranno in gaussiano).

L'intero discorso riguarda la distribuzione condizionata della variabile di risposta, si potrebbe dire: sugli errori. Tuttavia se hai una variabile che sembra distorta quando guardi la sua distribuzione incondizionata, ciò potrebbe probabilmente significare che ha una distribuzione condizionata distorta. l'adattamento di un modello ai tuoi dati ti chiarirà le idee.

Negli alberi delle decisioni, per prima cosa, punto una cosa: non ha senso trasformare le variabili esplicative distorte, le funzioni monotoniche non cambieranno nulla; questo può essere utile sui modelli lineari, ma non sugli alberi decisionali. Detto questo, i modelli CART utilizzano l'analisi della varianza per eseguire gli sputi e la varianza è molto sensibile agli outlier e ai dati distorti, questo è il motivo per cui la trasformazione della variabile di risposta può migliorare considerevolmente l'accuratezza del modello.


1

Credo che questo sia davvero un artefatto della tradizione per tornare ai gaussiani grazie alle loro belle proprietà.

Ma ci sono buone alternative distributive, ad esempio la gamma generalizzata che comprende una miriade di diverse forme e forme distributive distorte


1

Come altri lettori hanno già detto, sarebbe utile qualche ulteriore approfondimento su ciò che si prevede di ottenere con i propri dati.

Detto questo, ci sono due importanti dottrine nel regno delle statistiche note come teorema del limite centrale e legge di grandi numeri . Vale a dire che più osservazioni si hanno, più ci si aspetta che un set di dati approssimi una distribuzione normale , una con media, mediana e modalità uguali. Secondo la legge dei grandi numeri, si prevede che la deviazione tra il valore atteso e quello reale scenderà infine a zero, dato le osservazioni sufficienti.

Pertanto, una distribuzione normale consente al ricercatore di fare previsioni più accurate su una popolazione se è nota la distribuzione sottostante.

L'asimmetria è quando una distribuzione si discosta da questa, cioè una deviazione potrebbe essere inclinata positivamente o negativamente. Tuttavia, il teorema del limite centrale sostiene che, dato un insieme abbastanza ampio di osservazioni, il risultato sarà una distribuzione approssimativamente normale. Pertanto, se la distribuzione non è normale, si consiglia sempre di raccogliere più dati prima di tentare di modificare la struttura sottostante della distribuzione tramite le procedure di trasformazione menzionate.


1

Quando l'asimmetria è una cosa negativa da avere? Le distribuzioni simmetriche (generalmente ma non sempre: ad es., Non per la distribuzione di Cauchy) hanno una mediana, una modalità e una media molto vicine tra loro. Quindi, se vogliamo misurare la posizione di una popolazione, è utile avere la mediana, la modalità e la media vicine l'una all'altra.

Ad esempio, se prendiamo il logaritmo della distribuzione del reddito , riduciamo abbastanza l'asimmetria da poter ottenere utili modelli di ubicazione del reddito. Tuttavia, avremo ancora una coda destra più pesante di quanto desideriamo davvero. Per ridurlo ulteriormente, potremmo usare una distribuzione di Pareto . La distribuzione di Pareto è simile a una trasformazione log-log dei dati. Ora, sia le distribuzioni Pareto che quelle log-normali hanno difficoltà nella fascia bassa della scala delle entrate. Ad esempio, entrambi soffronoln0=-. Il trattamento di questo problema è coperto da trasformazioni di potenza .

Esempio da 25 entrate in chilogrammi di dollari sottratti dal www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

L'asimmetria della prima colonna è 0,99 e della seconda è -0,05. La prima colonna non è probabilmente normale (Shapiro-Wilk p = 0,04) e la seconda non è significativamente non normale (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

Quindi, la domanda è: se sei una persona a caso con uno dei guadagni elencati, cosa puoi guadagnare? È ragionevole concludere che guadagneresti 90k o più della mediana di 84k? O è più probabile concludere che anche la mediana è distorta come misura della posizione e che laexp[significareln(K$)]  di 76,7 k, che è inferiore alla mediana, è anche più ragionevole come stima?

Ovviamente, il log-normal qui è un modello migliore e il logaritmo medio ci dà una migliore misura della posizione. Che questo sia ben noto, se non del tutto compreso, è illustrato dalla frase "Prevedo di ottenere uno stipendio a 5 cifre".


0

Principalmente i risultati si basano su ipotesi gaussiane. Se hai una distribuzione distorta, non hai una distribuzione gaussiana, quindi forse dovresti provare disperatamente a trasformarla in quella.

MA certo, puoi provare con GLM.


0

Penso che non sia solo una modellazione, ma il nostro cervello non è abituato a lavorare con dati altamente distorti. Ad esempio, è ben noto nella finanza comportamentale che non siamo bravi a stimare le probabilità molto basse o alte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.