Paradosso del valore medio - Come si chiama?


22

Ho un set di dati. Pronuncia osservazioni e 3 variabili:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Supponiamo che siano clienti che hanno acquistato ( ) o meno ( ) in ciascuna categoria . Ce ne sono , quindi questi clienti acquistano in media categorie di prodotti.1010A, B, C16101.6

Nota che i clienti possono acquistare più di uno tra A, B e C.

Se guardo solo quelli che acquistano A, ci sono clienti che hanno acquistato in categorie di prodotti, quindi in media .591.8

Bè di nuovo , o .9/51.8

Cè10/6=1.67.

Tutti sopra1.6.

che sembra strano. Lo capisco, ma devo spiegarlo al marketing la prossima settimana e quindi ho bisogno di aiuto!

Come si chiama questa cosa?

So che non è il paradosso di Simpson. Per me è simile nella logica al problema di Monty Hall e alla probabilità condizionata.


2
Personalmente, non ho idea di cosa tu stia parlando. Perché non creare una tabella di contingenza degli As, Bs e C per esaminare i modelli di acquisto incrociato?
Mike Hunter,

3
Abbiamo rapporti che dicono "I clienti che acquistano C valgono più della media - 1,67 contro 1,6", il che è vero, ma anche A e B valgono più della media. A cui sorgerà l'inevitabile domanda "Come possono tutti i clienti valere più della media"?
James Adams,

3
Penso che il suo enigma sia che assomiglia superficialmente al Lago Wobegon, dove tutti sono al di sopra della media: P Sia il numero di categorie / articoli acquistati da un cliente. Sia , e indicatori per gli acquisti nelle categorie A, B e C rispettivamente. , e mentreA B C E [ X A ] = 1.8 E [ X B ] = 1.8 E [ X C ] = 1.67 E [ X ] = 1.6XUNBCE[XA]=1.8E[XB]=1.8E[XC]=1.67E[X]=1.6
Matthew Gunn,

12
Potresti pensare in termini di insiemi complementari e diagrammi di Venn. I set "clienti che acquistano A" e "clienti che non acquistano A" non si sovrappongono. Ma i set che elenchi nella tua domanda si sovrappongono. È possibile calcolare la media complessiva come media (ponderata) delle medie dei sottoinsiemi solo se i sottoinsiemi formano una partizione .
GeoMatt22

4
È vagamente simile al paradosso dell'illusione della maggioranza ? Allo stesso modo in cui è probabile che un individuo sia collegato a un super networker, è probabile che una categoria di acquisto contenga un super acquirente? (Sto chiamando un super networker qualcuno che si collega con molte persone e un super acquirente qualcuno che acquista molti articoli diversi)
Matthew Gunn

Risposte:


28

La media di ogni sottocategoria può essere superiore alla media complessiva se le sottocategorie si sovrappongono ai clienti più grandi.

Semplice esempio per ottenere intuizione:

  • Sia un indicatore se un individuo ha acquistato un oggetto nella categoria A.UN
  • Sia un indicatore se un individuo ha acquistato un oggetto nella categoria B.B
  • Sia il numero di articoli acquistati.X=UN+B

PersonABi10ii01iii11

L'insieme di individui in cui è vero si sovrappone all'insieme di individui in cui B è vero. NON sono insiemi disgiunti.AB

Quindi mentre E [ X A ] = 1,5 ed E [ X B ] = 1,5E[X]1.33E[XA]=1.5E[XB]=1.5

L'affermazione che sarebbe vera è:

P(UN)E[X|UN]+P(B)E[X|B]-P(UNB)E[X|UNB]=E[X]

231.5+231.5-132=1.3333

Non puoi semplicemente calcolare perché i set A e B si sovrappongono, l'espressione conta due volte la persona che acquista entrambi gli articoli A e B !P(UN)E[X|UN]+P(B)E[X|B]UNBUNB

Nome per illusione / paradosso?

Direi che è legato al paradosso dell'illusione della maggioranza nei social network.

Potresti avere un tizio che fa rete / amici a tutti. Quella persona potrebbe essere una su un milione in totale, ma sarà uno dei amici di ogni persona .K

Allo stesso modo, hai 1 su 3 qui che acquista entrambe le categorie A e B. Ma all'interno della categoria A o B, 1 su 2 acquirenti è il superacquirente.

Caso estremo:

Creiamo set di biglietti del lotto. Ogni set S i include due biglietti: un biglietto perdente i e il biglietto vincente del jackpot.nSioio

La vincita media in ogni set è quindi JSio doveJè il jackpot. La media di ogni categoria è DIMODOsopra la media delle vincite per biglietto complessivoJJ2J .Jn+1

È la stessa dinamica concettuale del caso di vendita. Ogni set include il biglietto del jackpot nello stesso modo in cui ogni categoria A, B o C include gli acquirenti pesanti.Sio

Il mio punto di fondo sarebbe che l'intuizione basata su insiemi disgiunti , una partizione completa dello spazio di campionamento non si ripercuote su una serie di insiemi sovrapposti . Se ti condizioni su categorie sovrapposte, ogni categoria può essere al di sopra della media.

Se si suddivide lo spazio e la condizione di campionamento su insiemi disgiunti, le categorie devono raggiungere la media della media complessiva, ma ciò non vale per gli insiemi sovrapposti.


3
Grazie! Penso che il doppio conteggio sia la chiave per spiegare. Non penso che questo sia necessariamente il risultato di alcuni valori estremi. Il mio set di dati di esempio sopra è abbastanza banale e l'effetto "tutti i gruppi sopra la media" si verifica ancora. Suppongo che accadrà nella maggior parte dei casi. Mi chiedevo solo se avesse un nome o un esempio precedente.
James Adams,

Questa spiegazione non è valida se i dati che @JamesAdams analizza sono difettosi. Sto sostenendo che lo sia. Non è possibile avere un insieme reciprocamente esclusivo e completo di categorie A, B e C in cui le medie del gruppo sono tutte superiori alla media di tutte e 3 insieme senza che vi sia una violazione di alcune assunzioni fondamentali dell'analisi dei dati. Nel tuo caso, è molto probabile che il denominatore per la media complessiva differisca (ad esempio, contenga più intervistati) da quelli utilizzati per la stima delle medie per A, B e C.
Mike Hunter

2
@DJohnson Naturalmente hai ragione se gli insiemi A, B e C suddividono lo spazio campione. La mia lettura della domanda e dei "dati" forniti (qualunque essa sia) è che A, B e C siano insiemi sovrapposti . Se A, B e C si sovrappongono, le medie del gruppo possono essere tutte superiori alla media complessiva (che è il punto della mia risposta; gli insiemi si sovrappongono ai clienti più grandi!). Nulla di ciò che ha detto l'OP è internamente incoerente. Il tuo rilevatore "stiamo ottenendo dati BS" potrebbe essere migliore del mio però, e sono d'accordo che è sempre importante porre domande critiche sulla validità dei dati / numeri.
Matthew Gunn,

Sì, sono insiemi sovrapposti. Il mio set di dati è milioni di clienti e 12 categorie. Quando ho visto le mie medie erano tutte più alte della media complessiva, ho pensato che fosse strano ma spiegabile. Ho messo insieme l'esempio di 10 obs e 3 categorie per vederlo. Ho appena sparso 1 e 0 qui ed è uscito lo stesso. Sospetto che ciò accada con la maggior parte dei set di dati in cui viene calcolato questo tipo di media. @Djohnson il mio esempio sopra che sto usando 10 come denominatore per la media complessiva, 5 per l'As, 5 per i Bs, 6 per i Cs. Puoi dirmi cosa sto violando in questo esempio?
James Adams,

Cosa rappresenta "10"? La rete degli intervistati nelle 3 categorie? Cosa succede alle medie se si utilizza lo stesso denominatore per tutti? Dovrebbe restituire medie che oscillano attorno alla media generale.
Mike Hunter,

10

Definirei questo il paradosso della dimensione familiare o qualcosa di simile

Supponiamo, per un semplice esempio, che tutti avessero un partner e un numero distribuito di Poisson di bambini con il parametro :2

  • Il numero medio di bambini per persona sarebbe 2
  • Il numero medio di bambini per persona con bambini sarebbe 21-e-22.313
  • La dimensione media del gruppo di pari livello per ogni individuo (contando i propri fratelli e sorelle e se stessi) sarebbe 3

I numeri demografici e di indagine reali producono numeri diversi ma modelli simili

Il paradosso apparente è che la dimensione media dei gruppi di fratelli degli individui è maggiore del numero medio di figli per famiglia; con dinamiche di popolazione stabili, le persone tendono ad avere in media meno figli rispetto ai genitori

La spiegazione è se la media viene presa su genitori e famiglie o su fratelli: ci sono diversi coefficienti correttori applicati alle famiglie numerose. Nel tuo esempio c'è una differenza tra la ponderazione degli individui o degli acquisti; le vostre medie condizionali sono aumentate dal fatto che condizionate un particolare acquisto in corso.


8

Le altre risposte stanno pensando troppo a ciò che sta succedendo. Supponiamo che ci sia un prodotto e due clienti. Uno ha acquistato il prodotto (una volta) e l'altro no. Il numero medio di prodotti acquistati è 0,5, ma se si guarda solo al cliente che ha acquistato il prodotto, la media sale a 1.

Questo non mi sembra un paradosso o controintuitivo; il condizionamento all'acquisto di un prodotto generalmente aumenta il numero medio di prodotti acquistati.


Esattamente. Supponendo che gli acquisti in ciascuna delle 3 categorie non siano fortemente correlati, ciò che fai è calcolare le medie dopo aver aumentato il tasso di acquisto al 100% in una delle categorie. Sarebbe probabilmente più informativo confrontare ad es. il tasso medio di acquisto nelle categorie B e C: a) tra tutti i clienti (20/11) b) tra coloro che hanno acquistato A (4/10). Dipende da cosa stai cercando di mostrare / trovare, credo.
Konrad,

2

Questa non è semplicemente la confusione della "media delle medie" (ad esempio la precedente domanda di scambio di stack ) sotto mentite spoglie? La tua tentazione sembra essere che le medie dei sottocampioni finiscano con la media della media della popolazione, ma ciò accadrà raramente.

Nella "media delle medie" classica, qualcuno trova la media di N sottoinsiemi che si escludono a vicenda, e quindi rimane sbalordito dal fatto che questi valori non siano in media rispetto alla media della popolazione. L'unico modo per calcolare questa media è se i sottoinsiemi non sovrapposti hanno le stesse dimensioni. Altrimenti, devi prendere una media ponderata.

Il tuo problema è reso più complesso di questa media tradizionale di confusione media avendo sottoinsiemi sovrapposti, ma mi sembra proprio questo classico errore con una svolta. Con sottoinsiemi sovrapposti, è ancora più difficile finire con le medie dei sottocampioni che raggiungono la media della popolazione.

Nel tuo esempio, poiché gli utenti che compaiono in più sottocampioni (e quindi hanno acquistato molte cose) aumenteranno queste medie. Fondamentalmente stai contando ogni grande spender più volte, mentre le persone parsimoniose che acquistano solo un oggetto si incontrano solo una volta, quindi sei influenzato da valori più grandi. Questo è il motivo per cui i tuoi sottoinsiemi particolari hanno valori sopra la media, ma penso che questo sia ancora solo il problema della "media delle medie".

Puoi anche costruire tutti i tipi di altri sottoinsiemi dai tuoi dati in cui le medie dei sottocampioni assumono valori diversi. Ad esempio, prendiamo sottoinsiemi in qualche modo simili ai tuoi sottoinsiemi. Se prendi il sottoinsieme di persone che non hanno acquistato A, otterrai in media 7/5 = 1,4 articoli. Con il sottoinsieme che non ha acquistato B, si ottengono in media 1,4 articoli. Coloro che non hanno acquistato C, hanno acquistato in media 1,5 articoli. Questi sono tutti al di sotto della media della popolazione di 1,6 articoli / cliente. Dato il giusto set di dati e la giusta raccolta di sottoinsiemi, si potrebbe finire con sottoinsiemi sovrapposti la cui media è media alla media della popolazione; tuttavia, ciò sarebbe raro nelle normali applicazioni.

Sono solo io, o la parola media ora sembra strana dopo così tante ripetizioni ... Spero che la mia risposta sia stata utile, e scusa se ho rovinato la parola media per te!


Grazie! Il commento sulle partizioni della stessa dimensione non sovrapposte mi ha chiarito la mente. Speravo che quando venissi a presentare queste cifre potessi dire qualcosa del tipo "Tutte le medie delle categorie sono superiori alla media complessiva, ma questo è il paradosso di Blahblah". Come quando dici "Simpson's Paradox !, Ivy League Sexism!" e poi esaurire la stanza. (A volte lo fate tutti, vero?) Vorrei dire loro "È perché si tratta di sottoinsiemi sovrapposti di dimensioni diverse" ma non pensate che atterreranno!
James Adams,

1
Haha, abbastanza giusto. Prima non avevo capito bene il contesto: sono uno studente laureato in astrofisica, quindi non ho molta familiarità con il contesto. Potresti dire qualcosa di breve, per l'effetto di "Tutte le medie dei sottoinsiemi sono superiori alla media complessiva perché il modo in cui abbiamo creato i sottoinsiemi ci spinge verso valori più grandi". Non vorrei menzionare il nome medio delle medie poiché non è poi così noto, e il tuo caso è come una generalizzazione ad esso. Proverei anche a trovare un sinonimo per sostituire le categorie di parole - generalmente vedo la parola come sottotitoli che si escludono a vicenda.
Tbell

La sazietà semantica è un fenomeno psicologico in cui la ripetizione fa sì che una parola o una frase perda temporaneamente significato per l'ascoltatore, che poi percepisce il discorso come suoni ripetuti senza significato.
Patrick,

1

Poiché il problema è " lo capisco, ma devo spiegarlo al marketing ", l'OP sembra preoccuparsi di come un laico interpreta questi fatti - (non se i fatti siano veri o come dimostrarli). La domanda fa riferimento a 10 categorie di prodotti, (AJ), quindi che ne dite di questo esempio:

[in riunione con il gruppo di marketing]
OP : Quindi, come puoi vedere qui , i clienti che acquistano A, B e C, sono tutti più preziosi della media.
Layman : Aspetta ?! Come possono essere tutti più alti della media?
OP : bella domanda. Questa diapositiva si concentra sui clienti di A, B e C, ma ci sono altri gruppi a basso rendimento non mostrati. Ad esempio, i clienti delle categorie D e G valgono ciascuno circa la metà della media.

Ciò dovrebbe reprimere l'allarme bs interno di tutti su "tutto è al di sopra della media".


Questo non è il modo di rispondere a una domanda.
Michael R. Chernick,

Alla sua domanda era stata data una risposta, ma nessuno ha affrontato il suo problema.
Patrick,

Il mio commento riguardava solo la risposta di Patrick.
Michael R. Chernick,

Non vedo alcuna regola contro i diversi stili di risposta. Segnalare discussioni e conversazioni (reali o immaginarie) è un modo consueto di pensare attraverso questioni che vanno da Socrate in poi (e davanti a lui per quanto ne so).
Nick Cox,

Ma questa spiegazione è effettivamente errata. Anche in assenza di ulteriori categorie (DJ), l'osservazione rimane vera: le medie dei sottoinsiemi sovrapposti possono essere tutte superiori alla media dell'intero set, anche se i sottoinsiemi coprono l'intero set.
Isarandi,

0

Ignora le altre risposte qui. Questo in realtà non è affatto un paradosso. Il vero problema qui a portata di mano che tutti sembrano ignorare è che stai sbagliando quale probabilità stai effettivamente osservando. Ci sono infatti due medie e statistiche completamente diverse in gioco qui che hanno entrambe usi e interpretazioni propri nell'esempio proposto (marketing)!

Prima di tutto c'è il numero medio di prodotti acquistati per cliente. Quindi, in media, un cliente acquista 1,6 articoli. Naturalmente, un cliente non può che 0.6 del prodotto (supponendo che non sia qualcosa come riso o grano a cui sia associata una misurazione continua).

In secondo luogo, c'è il numero medio di clienti che acquistano un determinato prodotto. Sembra strano vero? Quindi in media un prodotto ha 5.33333333 ... clienti che lo acquistano. Questo è diverso comunque. Quello che stiamo descrivendo qui non è il numero di prodotti acquistati (ce ne sono solo tre!) Ma piuttosto il numero di persone che acquistano effettivamente quel prodotto.

Pensa ai due valori in questo modo: cosa rappresenterebbero questi due valori se ci fosse un solo cliente o un solo prodotto? Dopo tutto, la media di un singolo punto dati è proprio quel dato punto dati.

O meglio ancora, pensa al grafico come se ti stesse dando importi in dollari spesi per acquistare il prodotto. Ovviamente l'importo medio speso da un singolo cliente sarà di gran lunga inferiore alla quantità di denaro guadagnata in media da un prodotto fornito da una grande azienda (o anche solo una piccola impresa). Sono sicuro che puoi pensare a buoni modi per utilizzare entrambi i valori quando parli del benessere dell'azienda.

Quando vai a spiegare questo al personale di marketing, spiegalo proprio come ho detto. Non è un paradosso. È solo una statistica completamente diversa. L'unico problema qui era notare che in realtà c'erano due modi diversi di leggere il grafico (cioè il numero di persone che acquistano per prodotto rispetto al numero di prodotti acquistati per persona).

tl; dr la prima cosa che hai descritto è l'importo medio che un singolo cliente è disposto a spendere per acquistare i tuoi prodotti. Il secondo è la domanda media di un determinato prodotto da parte del pubblico. Sono sicuro che ora puoi capire perché entrambi non sono certamente la stessa cosa. Il loro confronto in quanto tale ti darà solo informazioni inutili.


MODIFICARE

Sembrerebbe che la domanda si stia effettivamente ponendo sul denaro medio speso dai clienti che acquistano alcuni prodotti a, b o c. Tutto apposto. Questo è in realtà solo un errore nei calcoli. Non lo definirei un paradosso. È davvero solo un filo sottile.

Guarda le tue colonne. Ci sono persone condivise tra le colonne. Supponiamo che tu abbia fatto una media ponderata adeguata . Stai ancora sommando due persone. Ciò significa che la media conterrà persone extra con un valore maggiore o uguale a 2. Ora qual è stata la tua media? Era 1.6! In sostanza la tua media si presenta così:

Σio=0nvun'lueOfPerSonio*vun'lueOfPerSonion

Questa non è sicuramente la formula giusta. È una media ponderata, pur assumendo l'esclusività reciproca, è così che ti adatteresti per ottenere una media reale nella tua situazione.

Σio=0nnumBerOfPeopleBuyiongio*un'verun'geSpentByPerSonBuyiongion

Ad ogni modo otterrai una media incasinata. Un errore è stato ignorare la necessità di una media ponderata in quanto una categoria ha un "peso" maggiore in termini di media. È come la densità. Un valore è più denso nelle persone rappresenta. L'altro problema è l'aggiunta duplicata che distorcerà la media. Non chiamo nessuno di questi "paradossi" però. Una volta che ho visto cosa stavi facendo, mi è sembrato ovvio perché non avrebbe funzionato. La media ponderata è in qualche modo autoesplicativa per le sue necessità e penso ora che vedi che hai aggiunto valori più volte ... che non può funzionare. Praticamente hai preso la media dei quadrati dei loro valori.


Non penso che sia così. Non mi interessa qui quante persone acquistano un determinato prodotto. Sono interessato a quanti prodotti totali ha acquistato un cliente dato che ha acquistato A.
James Adams

@JamesAdams Va bene abbastanza. In tal caso il problema è ancora più banale. Stai solo prendendo in media un sottoinsieme del tuo campione. In teoria, se facessi lo stesso con B e C, la media finale non sarebbe la media effettiva. Tuttavia, ciò è dovuto solo alla disparità dei campioni. È tutto. In realtà, non vedo alcun motivo per cui ciò sarebbe ovvio per una persona. Esiste in realtà una soluzione per fissare le medie per ottenere la media corretta. Si chiama media ponderata e fondamentalmente si "appesantire" ogni sotto-copertura con il numero di persone in quel gruppo. Ha senso?
The Great Duck

@JamesAdams e so che non ti interessa. Sei un matematico che hai affermato come un paradosso usato quella media per cercare di calcolare il numero medio di prodotti per persona. Ecco perché in questa risposta sottolineo che esiste una seconda media per una statistica diversa e il tuo "errore" è stato nel cercare di farlo diventare una media completamente diversa.
The Great Duck
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.