Risposte:
La distribuzione categorica è la generalizzazione della distribuzione di Bernoulli a un numero fisso di esiti.
Allo stesso modo, è il caso speciale della distribuzione multinomiale in cui il numero di "scelte" è fissato a uno.
Pertanto, ha pdf:
In breve, Bernoulli ha , il binomio ha , il multinomiale ha e categoriale ha .k = 2 , n ≥ 1 k ≥ 2 , n ≥ 1 k ≥ 2 , n = 1
Le variabili categoriali hanno insiemi finiti di valori discreti. Gli esempi includono sesso (maschio / femmina), paese, pianeta, ecc. Contrastalo con variabili continue, che possono assumere un numero infinito di valori diversi. Gli esempi includono peso, longitudine, distanza, ecc.
Si noti che a volte informazioni simili possono essere espresse in modo categorico e continuo; ad esempio, planet = earth
potrebbe essere espresso come distance to sun = 1 astronomical unit ≈ 150 million kilometers
. Tuttavia, non c'è davvero alcun modo per esprimere 200 milioni di chilometri dal sole in termini di pianeti, perché non c'è nessun pianeta lì (Marte è 228 milioni di km dal sole). Lo stesso vale per 201 milioni di km, 202, ecc. Tutto ciò che si può dire su queste distanze in termini di pianeti è planet = none
; non si potrebbe dire planet = 4/3×earth
o .88×Mars
, perché non esiste un modo significativo per moltiplicare un pianeta o qualsiasi altra variabile categoriale. In termini di pianeti, queste distanze sarebbero indistinguibili, ma ovviamente hanno senso come distinte distanze dal sole quando espresse come tali - come una variabile continua.
Si possono anche esprimere variabili continue con precisione arbitraria (ad esempio, un'unità astronomica è 149.597.871 km, non esattamente 150 milioni di km). Al contrario, non c'è modo di esprimersi in modo planet = earth
più preciso; La Terra è esattamente terra, né più né meno. Inoltre, non avrebbe senso dire che qualsiasi altro pianeta è "più" o "meno" della Terra se planet
è una variabile nominale. Potrebbe essere codificato come variabile ordinata (ordinale) - i pianeti sono ordinati in termini di distanza dal sole, volume, numero di lune, ecc. Questi numeri sono tutti continui nei loro termini (o almeno conteggi, che sono discreti ma non categorico), ma non in termini di pianeti. Ad esempio, se i pianeti sono in ordine di distanza dal sole o dal numero di lune, mars > earth > venus
. Se i pianeti sono ordinati per volume,earth > venus > mars
. Non è necessario ordinare variabili categoriche e forse alcune non possono essere ordinate, ma l'aggiunta di ordine non le rende meno categoriche.
Come dice Wikipedia, le distribuzioni categoriali sono generalizzazioni della distribuzione di Bernoulli a più di due possibili valori (la distribuzione di Bernoulli è rigorosamente binaria). Anche la distribuzione di Bernoulli è un caso speciale della distribuzione binomiale, ma non definirei la distribuzione binomiale categorica (è discreta, ma una variabile di conteggio, quindi vengono definite le distanze tra i valori). Le distribuzioni multinomiali possono essere confuse con le distribuzioni categoriche, ma Wikipedia mette in guardia contro questo .