È meglio selezionare le distribuzioni in base a teoria, adattamento o qualcos'altro?


12

Questo è al limite di una domanda filosofica, ma sono interessato a come gli altri con più esperienza pensano alla selezione della distribuzione. In alcuni casi sembra chiaro che la teoria potrebbe funzionare meglio (le lunghezze della coda dei topi sono probabilmente distribuite normalmente). In molti casi probabilmente non esiste una teoria per descrivere un insieme di dati, quindi usi semplicemente qualcosa che si adatta a ciò che hai abbastanza bene indipendentemente da ciò che è stato originariamente sviluppato per descrivere? Posso immaginare alcune delle insidie ​​di andare con l'uno o l'altro di questi, e poi ovviamente sembra esserci il problema che forse dovresti usare una distribuzione empirica se davvero non ne hai idea.

Quindi immagino cosa sto davvero chiedendo: qualcuno ha un modo coerente di affrontare / pensare a questo problema? E ci sono risorse che puoi suggerire per darne un buon trattamento?


4
Dipende fondamentalmente dal motivo per cui si sta adattando o assumendo una distribuzione e da cosa si intende rappresentare. Poniamo molte domande su questo sito in cui sembra che le persone sentano di dover adattare una distribuzione ai dati o quantità derivate (come i residui di regressione) quando in realtà l'esercizio è inutile (o peggio, ingannevole) per quanto riguarda la risoluzione dei problemi statistici che realmente è preoccupato. Potresti forse chiarire i tipi di casi che hai in mente?
whuber

1
Ciao Whuber, grazie per il commento. Da quando ho iniziato a lavorare un po 'sulla valutazione probabilistica del rischio, mi viene richiesto di adattare tutti i miei dati alle distribuzioni e questo mi ha reso curioso di avere una visione più coerente su come viene effettuata la selezione della distribuzione. Quindi immagino di chiarire, sono davvero interessato solo ai tempi in cui dovresti usare una distribuzione e a come procedere correttamente. Come ho detto, alcuni casi sono stati facili dalla teoria, altre volte sto usando una distribuzione empirica perché sembra migliore, ma il mio processo decisionale è più casuale di quanto mi piacerebbe.
HFBrowning

1
Questa è una lattina interessante di worm, perché quello che stai davvero facendo (in qualche modo in modo astratto) sta cercando di propagare l'incertezza del campionamento attraverso un calcolo. La ragione per guardare la procedura da questo livello elevato è che rivela un errore fondamentale che viene spesso fatto: sostituendo i dati con distribuzioni, non si riesce a includere l'incertezza nei parametri di distribuzione stimati. La contabilità per questo è chiamata PRA "secondo ordine" da alcuni praticanti. Vorrei suggerirti di restringere la tua domanda per concentrarti su questi problemi piuttosto che chiedere di adeguare la distribuzione in generale.
whuber

1
Il pacchetto che sto usando per il mio PRA è un monte carlo del 2 ° ordine ( pacchetto mc2d in R), quindi sto assegnando le mie distribuzioni come "incertezza", "variabilità" o entrambe. Quindi spero di tenere conto di quel problema per quanto posso. Tuttavia, il mio intento originale per questa domanda era di ottenere una visione di livello superiore, e ho sollevato la valutazione del rischio semplicemente per dare un contesto al motivo per cui sono interessato. E forse non c'è modo migliore di "a volte lo fai, a volte lo fai in quel modo" ma speravo che qualcuno avesse dei suggerimenti :) Soprattutto perché non riesco a determinare facilmente quando potrebbe andare meglio -
HFBrowning

3
Questo è sicuramente il posto giusto per il tuo post. Stai dicendo che stai avendo problemi a fare le modifiche? Per inciso, sono curioso di sapere come le tue procedure quantificano l'incertezza nell'uso della distribuzione empirica. Anche, viene fornito con la variabilità del campionamento (che può essere profondo nelle code, che spesso contano di più nelle valutazioni del rischio), anche se non hai stimato esplicitamente alcun parametro.
whuber

Risposte:


6

Sicuramente dipende da quali sono i dati in questione e da quanto si sa o si desidera assumere su di essi. Come ha recentemente affermato @whuber in chat , "laddove è coinvolta la legge fisica, è quasi sempre possibile fare ipotesi ragionevoli su un modo appropriato di modellare i dati". (Ho il sospetto che questo sia più vero di lui di quanto non lo sia di me! Inoltre, spero che questo non sia applicato in modo errato dal suo contesto originale ...) In casi più simili alla modellazione di costrutti latenti nelle scienze sociali, è spesso utile concentrarsi su distribuzioni empiriche come modo di comprendere le sfumature di fenomeni meno noti. È un po 'troppo facile assumere una distribuzione normale e considerare disadattato il disadattato nella forma generale, ed è abbastanza specioso considerare errati i valori erronei senza più giustificazione di quanto non facciano.

Naturalmente, gran parte di questo comportamento è motivato dalle ipotesi di analisi che si vogliono applicare. Spesso le domande più interessanti vanno ben oltre la descrizione o la classificazione delle distribuzioni delle variabili. Ciò influenza anche la risposta giusta per un determinato scenario; ci possono essere ragioni (ad es. esigenze di ) per assumere una distribuzione normale quando non si adatta particolarmente bene (o non si adatta troppo male), poiché i metodi non e altrimenti non sono perfetti. Tuttavia, il rischio di farlo abitualmente è dimenticare di porre le domande interessanti che si possono porre sulla distribuzione di una singola variabile.

Ad esempio, considera la relazione tra ricchezza e felicità: una domanda popolare che le persone generalmente vogliono porre. Potrebbe essere sicuro supporre che la ricchezza segua una distribuzione gamma (Salem & Mount, 1974) o beta generalizzata (Parker, 1999) , ma è davvero sicuro supporre che la felicità sia normalmente distribuita? In realtà, non dovrebbe essere necessario assumerlo affatto solo per rispondere alla domanda originale, ma le persone a volte lo fanno, e quindi ignorare questioni potenzialmente importanti come la distorsione della risposta e le differenze culturali. Ad esempio, alcune culture tendono a dare risposte più o meno estreme (vedi la risposta di @ chl sull'analisi fattoriale di questionari composti da elementi di Likert ), e le norme variano in relazione all'espressione aperta di emozioni positive e negative (Tucker, Ozer, Lyubomirsky e Boehm, 2006 ) . Ciò può aumentare l'importanza delle differenze nelle caratteristiche distributive empiriche come l'asimmetria e la curtosi. Se dovessi confrontare il rapporto di ricchezza con valutazioni soggettive di felicità in Russia, Cina e Stati Uniti, probabilmente vorrei valutare le differenze nelle tendenze centrali delle valutazioni di felicità. Nel fare ciò, esiterei ad assumere distribuzioni normali su ciascuna per il bene di un ANOVA a senso unico (anche se potrebbe essere abbastanza robusto per le violazioni) quando c'è motivo di aspettarsi una distribuzione "dalla coda grassa" in Cina, una distribuzione distorta positivamente in Russia e una distribuzione distorta negativamente negli Stati Uniti a causa di varie norme e pregiudizi di risposta dipendenti dalla cultura. Per motivi di test di significatività (anche se probabilmente preferirei semplicemente riportare le dimensioni degli effetti, onestamente), preferirei usare un metodo non parametrico e per comprendere effettivamente la felicità soggettiva in ogni popolazione individualmente, vorrei piuttosto descrivere empiricamente la distribuzione piuttosto che cercare di classificarla come una semplice distribuzione teorica e ignorare o sorvolare qualsiasi disadattato. Questo è uno spreco di informazioni IMO.

Riferimenti
- Parker, SC (1999). La beta generalizzata come modello per la distribuzione degli utili. Economics Letters, 62 (2), 197–200.
- Salem, ABZ, & Mount, TD (1974). Un comodo modello descrittivo di distribuzione del reddito: la densità gamma. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S., & Boehm, JK (2006). Test per l'invarianza della misurazione nella soddisfazione della scala di vita: un confronto tra russi e nordamericani. Ricerca sugli indicatori sociali, 78 (2), 341-360. Estratto da http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .


Grazie per la tua risposta, Nick. Ho trovato l'esempio particolarmente utile.
HFBrowning

3

le lunghezze della coda dei topi sono probabilmente distribuite normalmente

Ne dubiterei. Le distribuzioni normali derivano da molti effetti additivi indipendenti. I sistemi biologici consistono in molti circuiti di feedback interagenti (effetti moltiplicativi interdipendenti). Inoltre ci sono spesso alcuni stati che sono più stabili di altri (es. Attrattori). Quindi una sorta di distribuzione a coda lunga o multimodale probabilmente descriverebbe le lunghezze della coda. In effetti, la distribuzione normale è probabilmente una pessima scelta di default per descrivere qualcosa di biologico e il suo uso improprio è responsabile dei molti "valori anomali" riportati in quella letteratura. La prevalenza di questa distribuzione in natura è un mito e non solo nel senso "i cerchi perfetti non esistono davvero". Tuttavia non ne consegue che media e sd siano inutili come statistiche riassuntive.

Soprattutto perché non riesco a determinare facilmente quando potrebbe essere meglio "fidarsi dei dati" (come questo ho un set di dati distorto a destra stravagante che ho, ma n = 160 che ha dato i dati non sembra abbastanza) e andare con empirico, o adattalo a una distribuzione Beta come continua a insistere un mio collega. Sospettavo che lo avesse selezionato solo perché limitato a [0,1]. Sembra tutto davvero ad hoc. Spero che questo chiarisca il mio intento!

Il montaggio di distribuzioni empiriche fornisce suggerimenti sul processo sottostante, che facilita lo sviluppo di distribuzioni teoriche. Quindi la distribuzione teorica viene confrontata con le distribuzioni empiriche per testare l'evidenza per la teoria.

Se il tuo scopo è valutare la probabilità di determinati risultati in base alle prove disponibili e non hai motivo di scegliere quella particolare distribuzione, credo di non vedere come fare ipotesi aggiuntive possa essere utile. Invece sembra confondere le cose.

Tuttavia, se si sta tentando di descrivere o riepilogare i dati, potrebbe essere logico adattarsi alla distribuzione.


1
Anche se posso accettare solo una risposta, volevo ringraziarti per aver sottolineato come sorgono effettivamente le normali distribuzioni. Mi ha costretto a pensare più attentamente a ciò che significa che qualcosa si basa sulla teoria.
HFBrowning

3

In alcuni casi sembra chiaro che la teoria potrebbe funzionare meglio (le lunghezze della coda dei topi sono probabilmente distribuite normalmente).

Le lunghezze della coda non sono certamente distribuite normalmente.

Le distribuzioni normali hanno una probabilità diversa da zero di assumere valori negativi; le lunghezze della coda no.

La famosa linea di George Box , " tutti i modelli sono sbagliati, ma alcuni sono utili " rende il punto piuttosto bene. I casi in cui potremmo ragionevolmente affermare la normalità (piuttosto che solo la normalità approssimativa) sono davvero molto rari, quasi creature della leggenda, a volte miraggi quasi intravisti da un angolo dell'occhio.

In molti casi probabilmente non esiste una teoria per descrivere un insieme di dati, quindi usi semplicemente qualcosa che si adatta a ciò che hai abbastanza bene indipendentemente da ciò che è stato originariamente sviluppato per descrivere?

Nei casi in cui le quantità che ti interessano non sono particolarmente sensibili alla scelta (purché le caratteristiche generali della distribuzione siano coerenti con ciò che è noto), quindi sì, puoi semplicemente usare qualcosa che si adatta abbastanza bene.

Nei casi in cui esiste un maggior grado di sensibilità, "usare semplicemente qualcosa che si adatta" non è sufficiente da solo. Potremmo usare un approccio che non fa ipotesi particolari (forse procedure libere dalla distribuzione, come permutazione, bootstrap o altri approcci di ricampionamento o procedure solide). In alternativa, potremmo quantificare la sensibilità all'assunzione distributiva, ad esempio tramite simulazione (anzi, penso che questa sia generalmente una buona idea).

sembra che ci sia il problema che forse dovresti usare una distribuzione empirica se davvero non ne hai idea.

Non lo descriverei come un problema - basare l'inferenza su distribuzioni empiriche certamente un approccio legittimo adatto a molti tipi di problemi (permutazione / randomizzazione e bootstrap sono due esempi).

qualcuno ha un modo coerente di affrontare / pensare a questo problema?

in generale, in molti casi, tendo a considerare domande come:

1) Cosa capisco * su come si comportano i mezzi (o altre quantità di località) per i dati di questo modulo?

* (sia dalla teoria, sia dall'esperienza di questa forma di dati, o dalla consulenza di esperti, o se necessario, dai dati stessi, anche se ciò comporta problemi che devono essere affrontati)

2) Che dire della diffusione (varianza, IQR, ecc.) - come si comporta?

3) Che dire di altre caratteristiche distributive (limiti, asimmetria, discrezione, ecc.)

4) Che dire di dipendenza, eterogeneità delle popolazioni, tendenza a valori occasionalmente molto discrepanti, ecc

Questo tipo di considerazione potrebbe guidare una scelta tra un modello normale, un GLM, qualche altro modello o un approccio solido o privo di distribuzione (come gli approcci di bootstrap o permutazione / randomizzazione, comprese le procedure basate sul rango)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.