Una distribuzione normale, ma fortemente distorta, è considerata gaussiana?


12

Ho questa domanda: come pensi che sia la distribuzione del tempo trascorso al giorno su YouTube?

La mia risposta è che probabilmente è normalmente distribuito e molto inclinato. Mi aspetto che esista una modalità in cui la maggior parte degli utenti trascorre un po 'di tempo medio e quindi una lunga coda destra poiché alcuni utenti sono travolgenti utenti esperti.

È una risposta giusta? C'è una parola migliore per quella distribuzione?


4
Come alcune risposte menzionano ma non sottolineano, l'asimmetria viene nominata in modo informale per la coda più lunga se ce n'è una, quindi inclinata a destra se una coda destra più lunga. Sinistra e destra come usate in questo contesto presuppongono entrambe una visualizzazione secondo una convenzione secondo la quale la grandezza è mostrata sull'asse hoirizontale. Se questo sembra troppo ovvio, considera i display sulla Terra e le scienze ambientali in cui la grandezza è altezza o profondità e mostrata verticalmente. Stampa piccola: alcune misure dell'asimmetria possono essere zero anche se una distribuzione è inclinata geometricamente.
Nick Cox,

1
Tempo totale al giorno per tutti gli utenti? o tempo al giorno a persona? Se quest'ultimo, sicuramente c'è un picco moderatamente grande a 0, nel qual caso probabilmente avrai bisogno di una distribuzione di stile 'spike e slab' con un delta di Dirac a 0.
innisfree

6
"Normale" è sinonimo di "Gaussiano" e le distribuzioni gaussiane, dette anche distribuzioni normali, non sono distorte.
Michael Hardy,

Trovo la domanda nel titolo molto diversa dalla domanda nel testo del corpo. O almeno il titolo è molto confuso. Nessuna distribuzione è "normale ma fortemente distorta", il che è una contraddizione. Inoltre, la distribuzione gaussiana è molto ben definita e per nulla simile alla distribuzione del tempo trascorso al giorno su YouTube. Quindi la risposta alla domanda nel titolo è un grande no. f(x)=12πσ2exp((xμ)22σ2)
Sesto Empirico

2
inoltre, la domanda alla fine "esiste una parola migliore per quella distribuzione?" è molto vago o ampio. L'informazione sembra essere solo "una modalità" e "una lunga coda destra" (la parte "probabilmente normalmente distribuita" non ha senso). Ci possono essere molte distribuzioni che soddisfano queste condizioni. È sorprendente che questa domanda attiri più di dieci risposte e almeno altrettante proposte per la distribuzione alternativa prima di provare effettivamente a chiarire la domanda (non ci sono nemmeno dati).
Sesto Empirico

Risposte:


14

Una frazione al giorno non è certamente negativa. Ciò esclude la distribuzione normale, che ha una massa di probabilità sull'intero asse reale, in particolare sulla metà negativa.

Distribuzioni di legge di potere sono spesso utilizzate per modellare cose come la distribuzione del reddito, le dimensioni delle città, ecc. Sono non negative e in genere altamente distorte. Questi sarebbero i primi che proverei a modellare il tempo trascorso a guardare YouTube. (O monitoraggio delle domande CrossValidated.)

Ulteriori informazioni sulle leggi sul potere sono disponibili qui o qui o nel nostro tag sul .


16
Hai perfettamente ragione sul fatto che le normali distribuzioni hanno il supporto sulla linea reale. Eppure ... non sono un modello orribile per alcune qualità strettamente positive, come l'altezza o il peso degli adulti, dove la media e la varianza sono tali che i valori negativi sono molto improbabili sotto il modello.
Matt Krause,

2
@MattKrause Questa è in realtà una grande domanda - c'è una stessa probabilità che sarò '10 cm sopra o sotto l'altezza media 'o '10% sopra o sotto l'altezza media'? Solo il primo caso potrebbe giustificare una distribuzione normale.
Tomáš Kafka,

1
@MattKrause: sono completamente d'accordo, in senso generale. Tuttavia, la domanda attuale riguarda la percentuale di tempo giornaliero trascorso a guardare YouTube. Non disponiamo di dati, ma sarei estremamente sorpreso se la distribuzione fosse anche lontanamente simmetrica.
Stephan Kolassa,

43

Una distribuzione normale non è molto distorta. Questa è una contraddizione. Le variabili normalmente distribuite hanno inclinazione = 0.


1
Qual è un modo migliore per descrivere la distribuzione? Esiste una parola per quel tipo di distribuzione in cui ruota attorno a una modalità e quindi ha una coda lunga?
Cauder,

13
Unimodale e distorto è il più vicino possibile ...
jbowman

9
A parte questo, è davvero incredibile che le persone diano il loro tempo per aiutare altre persone a migliorare in queste cose. So che è ovvio, ma è così bello quello che entrambi fate!
Cauder,

6
Sì, ma vale la pena chiarire che tale affermazione riguarda la popolazione normalmente distribuita. Un campione estratto da quella popolazione può essere molto distorto.
gung - Ripristina Monica

Quando il valore di inclinazione è piccolo ("piccolo" viene deciso dalle persone che si occupano delle statistiche in questione), è comunque possibile considerare la popolazione come normale, anche se di conseguenza con un errore minore.
Carl Witthoft,


13

Potrebbe essere una distribuzione normale al registro. Come menzionato qui :

Il tempo di permanenza degli utenti su articoli online (battute, notizie, ecc.) Segue una distribuzione normale.

Il riferimento fornito è: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Anche il silenzio è una prova: interpretare il tempo di sosta per una raccomandazione dal punto di vista psicologico. Conferenza internazionale ACM su KDD.


7

"C'è una parola migliore per quella distribuzione?"

Qui c'è una distinzione utile tra l'uso di parole per descrivere le proprietà della distribuzione, rispetto al tentativo di trovare un "nome" per la distribuzione in modo da poterlo identificare come (approssimativamente) un'istanza di una particolare distribuzione standard: una per la quale una formula oppure potrebbero esistere tabelle statistiche per la sua funzione di distribuzione e per le quali è possibile stimarne i parametri. In quest'ultimo caso, è probabile che tu stia utilizzando la distribuzione denominata, ad esempio "normale / gaussiano" (i due termini sono generalmente sinonimi), come modello che acquisisce alcune delle caratteristiche principali dei tuoi dati, piuttosto che rivendicare la popolazione dei tuoi dati disegnati da segue esattamente quella distribuzione teorica. Per citare leggermente in errore George Box,tutti i modelli sono "sbagliati", ma alcuni sono utili. Se stai pensando all'approccio della modellazione, vale la pena considerare quali caratteristiche vuoi incorporare e quanto complicato o parsimonioso vuoi che il tuo modello sia.

Essere inclinati positivamente è un esempio di descrizione di una proprietà che ha la distribuzione, ma non si avvicina a specificare quale distribuzione standard è "il" modello appropriato. Esclude alcuni candidati, ad esempio la distribuzione gaussiana (cioè normale) ha un'inclinazione pari a zero, quindi non sarà appropriato modellare i dati se l'inclinazione è una caratteristica importante. Potrebbero esserci altre proprietà dei dati che sono importanti anche per te, ad esempio che è unimodale (ha solo un picco) o che è limitato tra 0 e 24 ore (o tra 0 e 1, se lo stai scrivendo come una frazione del giorno) o che esiste una massa di probabilità concentrata a zero (poiché ci sono persone che non guardano affatto YouTube in un determinato giorno).curtosi . E vale la pena ricordare che anche se la tua distribuzione aveva una forma a "gobba" o "curva a campana" e aveva un'inclinazione pari a zero o quasi zero, non ne consegue automaticamente che la distribuzione normale sia "corretta" per essa! D'altra parte, anche se la popolazione da cui i tuoi dati sono tratti ha effettivamente seguito una distribuzione particolare, a causa di un errore di campionamentoil set di dati potrebbe non assomigliare del tutto. È probabile che piccoli insiemi di dati siano "rumorosi" e potrebbe non essere chiaro se alcune funzionalità che è possibile visualizzare, ad esempio piccole gobbe piccole o code asimmetriche, siano proprietà della popolazione sottostante da cui sono stati estratti i dati (e forse pertanto dovrebbero essere incorporati nel tuo modello) o se sono solo artefatti del tuo particolare campione (e ai fini della modellazione dovrebbero essere ignorati). Se hai un piccolo set di dati e l'inclinazione è vicina allo zero, è persino plausibile che la distribuzione sottostante sia effettivamente simmetrica. Più grande è il tuo set di dati e maggiore è l'asimmetria, meno plausibile diventa - ma mentre potresti eseguire un test di significatività per vedere quanto convincenti sono le prove che i tuoi dati forniscono all'asimmetria nella popolazione da cui sono stati estratti, ciò potrebbe non comprendere se una distribuzione normale (o altra inclinazione zero) sia appropriata come modello ...

Quali proprietà dei dati contano davvero per gli scopi che si intende modellare? Nota che se l'inclinazione è ragionevolmente piccola e non ti interessa molto, anche se la popolazione sottostante è veramente distorta , potresti comunque trovare la distribuzione normale un modello utile per approssimare questa vera distribuzione dei tempi di visione. Ma dovresti controllare che questo non finisca per fare sciocche previsioni. Poiché una distribuzione normale non ha alcun valore più alto o più basso possibile, anche se valori estremamente alti o bassi diventano sempre più improbabili, scoprirai sempre che il tuo modello prevede che ci sono alcuniprobabilità di guardare per un numero negativo di ore al giorno o più di 24 ore. Questo diventa più problematico per te se la probabilità prevista di tali eventi impossibili diventa alta. Una distribuzione simmetrica come la normale prevede che quante più persone guarderanno per periodi di tempo superiori al 50% sopra la media, mentre osservano meno del 50% sotto la media. Se i tempi di visione sono molto distorti, allora questo tipo di previsione potrebbe anche essere così poco plausibile da essere sciocco e darti risultati fuorvianti, mentre se stai prendendo i risultati del tuo modello e li usi come input per altri scopi (ad esempio, tu stai eseguendo una simulazione dei tempi di visione per calcolare la pianificazione ottimale degli annunci). Se l'asimmetria è così degna di nota, vuoi catturarla come parte del tuo modello, quindi iluna distribuzione normale distorta potrebbe essere più appropriata. Se vuoi catturare sia l' asimmetria che la curtosi, allora considera l' asimmetria t . Se si desidera incorporare i limiti superiore e inferiore fisicamente possibili, considerare l'utilizzo del troncatoversioni di queste distribuzioni. Esistono molte altre distribuzioni di probabilità che possono essere distorte e unimodali (per le scelte di parametri appropriate) come le distribuzioni F o gamma , e di nuovo è possibile troncarle in modo da non prevedere tempi di visione incredibilmente alti. A distribuzione betapuò essere una buona scelta se stai modellando la frazione della giornata trascorsa a guardare, poiché questo è sempre limitato tra 0 e 1 senza che sia necessario un ulteriore troncamento. Se si desidera incorporare la concentrazione di probabilità esattamente a zero a causa di non osservatori, prendere in considerazione la costruzione in un modello di ostacolo .

Ma nel momento in cui stai provando a inserire tutte le funzionalità che puoi identificare dai tuoi dati e creare un modello sempre più sofisticato, forse dovresti chiederti perché lo stai facendo? Ci sarebbe un vantaggio in un modello più semplice, ad esempio sarebbe più facile lavorare matematicamente o avere meno parametri da stimare? Se temi che tale semplificazione non ti impedisca di acquisire tutte le proprietà di tuo interesse, è possibile che nessuna distribuzione "standardizzata" faccia esattamente quello che desideri. Tuttavia, non siamo limitati a lavorare con distribuzioni nominate le cui proprietà matematiche sono state chiarite in precedenza. Invece, considera l'utilizzo dei tuoi dati per costruire un funzione di distribuzione empirica. Questo catturerà tutto il comportamento che era presente nei tuoi dati, ma non puoi più dargli un nome come "normale" o "gamma", né puoi applicare proprietà matematiche che riguardano solo una particolare distribuzione. Ad esempio, la regola "95% dei dati rientra in 1,96 deviazioni standard della media" si applica ai dati normalmente distribuiti e potrebbe non essere applicabile alla propria distribuzione; tuttavia si noti che alcune regole si applicano a tutte le distribuzioni, ad esempio le garanzie di disuguaglianza di Chebyshev almenoIl 75% dei dati deve rientrare in due deviazioni standard della media, indipendentemente dall'inclinazione. Sfortunatamente la distribuzione empirica erediterà anche tutte quelle proprietà del tuo set di dati derivanti puramente da errori di campionamento, non solo quelli posseduti dalla popolazione sottostante, quindi potresti trovare un istogramma della tua distribuzione empirica che presenta alcuni dossi e cali che la popolazione stessa non . Potresti voler esaminare le funzioni di distribuzione empirica levigata o, meglio ancora, aumentare le dimensioni del campione.

In sintesi: sebbene la distribuzione normale abbia un'inclinazione pari a zero, il fatto che i dati siano inclinati non esclude la distribuzione normale come modello utile, sebbene suggerisca che un'altra distribuzione potrebbe essere più appropriata. Quando si sceglie il modello, è necessario considerare altre proprietà dei dati, oltre all'inclinazione, e considerare anche gli scopi per cui si utilizzerà il modello. È sicuro dire che la tua vera popolazione di tempi di visione non segue esattamente una distribuzione famosa e denominata, ma ciò non significa che tale distribuzione sia destinata a diventare inutile come modello. Tuttavia, per alcuni scopi potresti preferire semplicemente utilizzare la distribuzione empirica stessa, piuttosto che provare ad adattare una distribuzione standard ad essa.





2

Che ne dici di un modello di ostacolo?

Un modello di ostacolo ha due parti. Il primo è l'esperimento di Bernoulli che determina se usi YouTube. In caso contrario, il tempo di utilizzo è ovviamente zero e il gioco è fatto. Se lo fai, "passi quell'ostacolo", il tempo di utilizzo proviene da un'altra distribuzione strettamente positiva.

Un concetto strettamente correlato sono i modelli a zero inflazione. Questi hanno lo scopo di affrontare una situazione in cui osserviamo un gruppo di zeri, ma non possiamo distinguere tra sempre zero e talvolta zero. Ad esempio, considera il numero di sigarette che una persona fuma ogni giorno. Per i non fumatori, quel numero è sempre zero, ma alcuni fumatori potrebbero non fumare in un determinato giorno (fuori dalle sigarette? Su un lungo volo?). A differenza del modello di ostacolo, la distribuzione "fumatore" qui dovrebbe includere zero, ma questi conteggi sono "gonfiati" anche dal contributo dei non fumatori.


0

Se la distribuzione è effettivamente un "sottoinsieme" della distribuzione normale, è necessario considerare un modello troncato. Ampiamente usata in questo contesto è la famiglia di modelli TOBIT.
Suggeriscono essenzialmente un pdf con una massa di probabilità (positiva) a 0 e quindi un 'taglio di parte della distribuzione normale' per valori positivi.
Mi asterrò dal digitare la formula qui e piuttosto farò riferimento all'articolo di Wikipedia: https://en.wikipedia.org/wiki/Tobit_model


-4

Le distribuzioni normali sono per definizione non distorte, quindi non puoi avere entrambe le cose. Se la distribuzione è inclinata a sinistra, non può essere gaussiana. Dovrai sceglierne uno diverso! La cosa più vicina alla tua richiesta che mi viene in mente è questa:

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
Sono d'accordo, tranne per il fatto che l'OP confonde l'asimmetria sinistra e destra, come già sottolineato. E @behold ha già suggerito l'inclinazione normale in una risposta. Quindi, non riesco a vedere che questo si aggiunge alle risposte esistenti.
Nick Cox,

Riassume molti di loro in una risposta a tre righe diretta
David,

4
Scusa, ma è ancora ripetizione.
Nick Cox,

OK ... a chi importa?
David,

4
Bene, lo faccio; e chiunque abbia aggiunto +1 ai miei commenti (chiaramente non io) e chiunque abbia annullato il voto della tua risposta (non io, come succede). Questo thread è già lungo e ripetitivo; tuttavia i commenti più ridondanti non lo migliorano per i futuri lettori.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.