"C'è una parola migliore per quella distribuzione?"
Qui c'è una distinzione utile tra l'uso di parole per descrivere le proprietà della distribuzione, rispetto al tentativo di trovare un "nome" per la distribuzione in modo da poterlo identificare come (approssimativamente) un'istanza di una particolare distribuzione standard: una per la quale una formula oppure potrebbero esistere tabelle statistiche per la sua funzione di distribuzione e per le quali è possibile stimarne i parametri. In quest'ultimo caso, è probabile che tu stia utilizzando la distribuzione denominata, ad esempio "normale / gaussiano" (i due termini sono generalmente sinonimi), come modello che acquisisce alcune delle caratteristiche principali dei tuoi dati, piuttosto che rivendicare la popolazione dei tuoi dati disegnati da segue esattamente quella distribuzione teorica. Per citare leggermente in errore George Box,tutti i modelli sono "sbagliati", ma alcuni sono utili. Se stai pensando all'approccio della modellazione, vale la pena considerare quali caratteristiche vuoi incorporare e quanto complicato o parsimonioso vuoi che il tuo modello sia.
Essere inclinati positivamente è un esempio di descrizione di una proprietà che ha la distribuzione, ma non si avvicina a specificare quale distribuzione standard è "il" modello appropriato. Esclude alcuni candidati, ad esempio la distribuzione gaussiana (cioè normale) ha un'inclinazione pari a zero, quindi non sarà appropriato modellare i dati se l'inclinazione è una caratteristica importante. Potrebbero esserci altre proprietà dei dati che sono importanti anche per te, ad esempio che è unimodale (ha solo un picco) o che è limitato tra 0 e 24 ore (o tra 0 e 1, se lo stai scrivendo come una frazione del giorno) o che esiste una massa di probabilità concentrata a zero (poiché ci sono persone che non guardano affatto YouTube in un determinato giorno).curtosi . E vale la pena ricordare che anche se la tua distribuzione aveva una forma a "gobba" o "curva a campana" e aveva un'inclinazione pari a zero o quasi zero, non ne consegue automaticamente che la distribuzione normale sia "corretta" per essa! D'altra parte, anche se la popolazione da cui i tuoi dati sono tratti ha effettivamente seguito una distribuzione particolare, a causa di un errore di campionamentoil set di dati potrebbe non assomigliare del tutto. È probabile che piccoli insiemi di dati siano "rumorosi" e potrebbe non essere chiaro se alcune funzionalità che è possibile visualizzare, ad esempio piccole gobbe piccole o code asimmetriche, siano proprietà della popolazione sottostante da cui sono stati estratti i dati (e forse pertanto dovrebbero essere incorporati nel tuo modello) o se sono solo artefatti del tuo particolare campione (e ai fini della modellazione dovrebbero essere ignorati). Se hai un piccolo set di dati e l'inclinazione è vicina allo zero, è persino plausibile che la distribuzione sottostante sia effettivamente simmetrica. Più grande è il tuo set di dati e maggiore è l'asimmetria, meno plausibile diventa - ma mentre potresti eseguire un test di significatività per vedere quanto convincenti sono le prove che i tuoi dati forniscono all'asimmetria nella popolazione da cui sono stati estratti, ciò potrebbe non comprendere se una distribuzione normale (o altra inclinazione zero) sia appropriata come modello ...
Quali proprietà dei dati contano davvero per gli scopi che si intende modellare? Nota che se l'inclinazione è ragionevolmente piccola e non ti interessa molto, anche se la popolazione sottostante è veramente distorta , potresti comunque trovare la distribuzione normale un modello utile per approssimare questa vera distribuzione dei tempi di visione. Ma dovresti controllare che questo non finisca per fare sciocche previsioni. Poiché una distribuzione normale non ha alcun valore più alto o più basso possibile, anche se valori estremamente alti o bassi diventano sempre più improbabili, scoprirai sempre che il tuo modello prevede che ci sono alcuniprobabilità di guardare per un numero negativo di ore al giorno o più di 24 ore. Questo diventa più problematico per te se la probabilità prevista di tali eventi impossibili diventa alta. Una distribuzione simmetrica come la normale prevede che quante più persone guarderanno per periodi di tempo superiori al 50% sopra la media, mentre osservano meno del 50% sotto la media. Se i tempi di visione sono molto distorti, allora questo tipo di previsione potrebbe anche essere così poco plausibile da essere sciocco e darti risultati fuorvianti, mentre se stai prendendo i risultati del tuo modello e li usi come input per altri scopi (ad esempio, tu stai eseguendo una simulazione dei tempi di visione per calcolare la pianificazione ottimale degli annunci). Se l'asimmetria è così degna di nota, vuoi catturarla come parte del tuo modello, quindi iluna distribuzione normale distorta potrebbe essere più appropriata. Se vuoi catturare sia l' asimmetria che la curtosi, allora considera l' asimmetria t . Se si desidera incorporare i limiti superiore e inferiore fisicamente possibili, considerare l'utilizzo del troncatoversioni di queste distribuzioni. Esistono molte altre distribuzioni di probabilità che possono essere distorte e unimodali (per le scelte di parametri appropriate) come le distribuzioni F o gamma , e di nuovo è possibile troncarle in modo da non prevedere tempi di visione incredibilmente alti. A distribuzione betapuò essere una buona scelta se stai modellando la frazione della giornata trascorsa a guardare, poiché questo è sempre limitato tra 0 e 1 senza che sia necessario un ulteriore troncamento. Se si desidera incorporare la concentrazione di probabilità esattamente a zero a causa di non osservatori, prendere in considerazione la costruzione in un modello di ostacolo .
Ma nel momento in cui stai provando a inserire tutte le funzionalità che puoi identificare dai tuoi dati e creare un modello sempre più sofisticato, forse dovresti chiederti perché lo stai facendo? Ci sarebbe un vantaggio in un modello più semplice, ad esempio sarebbe più facile lavorare matematicamente o avere meno parametri da stimare? Se temi che tale semplificazione non ti impedisca di acquisire tutte le proprietà di tuo interesse, è possibile che nessuna distribuzione "standardizzata" faccia esattamente quello che desideri. Tuttavia, non siamo limitati a lavorare con distribuzioni nominate le cui proprietà matematiche sono state chiarite in precedenza. Invece, considera l'utilizzo dei tuoi dati per costruire un funzione di distribuzione empirica. Questo catturerà tutto il comportamento che era presente nei tuoi dati, ma non puoi più dargli un nome come "normale" o "gamma", né puoi applicare proprietà matematiche che riguardano solo una particolare distribuzione. Ad esempio, la regola "95% dei dati rientra in 1,96 deviazioni standard della media" si applica ai dati normalmente distribuiti e potrebbe non essere applicabile alla propria distribuzione; tuttavia si noti che alcune regole si applicano a tutte le distribuzioni, ad esempio le garanzie di disuguaglianza di Chebyshev almenoIl 75% dei dati deve rientrare in due deviazioni standard della media, indipendentemente dall'inclinazione. Sfortunatamente la distribuzione empirica erediterà anche tutte quelle proprietà del tuo set di dati derivanti puramente da errori di campionamento, non solo quelli posseduti dalla popolazione sottostante, quindi potresti trovare un istogramma della tua distribuzione empirica che presenta alcuni dossi e cali che la popolazione stessa non . Potresti voler esaminare le funzioni di distribuzione empirica levigata o, meglio ancora, aumentare le dimensioni del campione.
In sintesi: sebbene la distribuzione normale abbia un'inclinazione pari a zero, il fatto che i dati siano inclinati non esclude la distribuzione normale come modello utile, sebbene suggerisca che un'altra distribuzione potrebbe essere più appropriata. Quando si sceglie il modello, è necessario considerare altre proprietà dei dati, oltre all'inclinazione, e considerare anche gli scopi per cui si utilizzerà il modello. È sicuro dire che la tua vera popolazione di tempi di visione non segue esattamente una distribuzione famosa e denominata, ma ciò non significa che tale distribuzione sia destinata a diventare inutile come modello. Tuttavia, per alcuni scopi potresti preferire semplicemente utilizzare la distribuzione empirica stessa, piuttosto che provare ad adattare una distribuzione standard ad essa.