Quanto da pagare? Un problema pratico


66

Questa non è una domanda di lavoro a domicilio ma un vero problema affrontato dalla nostra azienda.

Molto recentemente (2 giorni fa) abbiamo ordinato a un rivenditore la produzione di 10000 etichette di prodotti. Il rivenditore è persona indipendente. Riceve le etichette prodotte dall'esterno e l'azienda effettua il pagamento al rivenditore. Ogni etichetta costa esattamente $ 1 per l'azienda.

Ieri, il rivenditore è venuto con le etichette ma le etichette sono state raggruppate in un pacchetto di 100 etichette ciascuno. In questo modo c'erano un totale di 100 pacchetti e ogni pacchetto conteneva 100 etichette, quindi un totale di 10000 etichette. Prima di effettuare un pagamento al rivenditore di $ 10000, abbiamo deciso di contare alcuni pacchetti per assicurarci che ciascun pacchetto contenga esattamente 100 etichette. Quando abbiamo contato le etichette abbiamo trovato un pacchetto con meno di 100 etichette (abbiamo trovato 97 etichette). Per garantire che ciò non avvenga per caso, ma è stato fatto intenzionalmente, abbiamo contato altri 5 pacchetti e abbiamo trovato il seguente numero di etichette in ciascun pacchetto (incluso il primo pacchetto):

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97  

Non è stato possibile contare ogni singolo pacchetto, quindi abbiamo deciso di effettuare il pagamento in media. Quindi, il numero medio di etichette in sei pacchetti è 97.166, quindi il pagamento totale deciso è stato di $ 9716.

Voglio solo sapere come lo statistico deve avere a che fare con questo tipo di problema .
Inoltre, voglio sapere quanto dovremmo pagare per ottenere il 95% di garanzia che non abbiamo pagato più del numero effettivo di etichette intere.

Informazioni aggiuntive:

P (qualsiasi pacchetto conteneva più di 100 etichette) = 0
P (qualsiasi pacchetto conteneva un'etichetta inferiore a 90) = 0 {le etichette inferiori a 90 sarebbero facilmente rilevabili durante il conteggio dei pacchetti perché il pacchetto avrebbe un peso inferiore}


EDIT: il rivenditore ha semplicemente negato tale negligenza. Abbiamo riscontrato che questi rivenditori lavorano su una commissione specifica che ricevono dal produttore su ciò che viene pagato dalla società. Quando abbiamo comunicato direttamente al produttore, abbiamo scoperto che non è né colpa del produttore né del rivenditore. Il produttore ha dichiarato: "Le etichette si riducono perché i fogli non hanno dimensioni standardizzate e, indipendentemente dal numero che viene tagliato dal singolo foglio, vengono raggruppati in un pacchetto".

Inoltre, abbiamo convalidato la nostra prima affermazione fornita in ulteriori informazioni, poiché il produttore ha ammesso che dall'aumento marginale delle dimensioni del foglio, non è possibile tagliare etichette aggiuntive, inoltre, da una riduzione marginale delle dimensioni del foglio non è possibile tagliare 100 etichette delle stesse dimensioni.


7
+1 (1) Come puoi giustificare la prima asserzione nella sezione "informazioni aggiuntive"? (2) Con quale precisione è possibile pesare i pacchetti?
whuber

15
L'Inghilterra e Isaac Newton hanno affrontato lo stesso problema 300 anni fa. (La posta in gioco era in qualche modo maggiore, perché le "etichette" in questione erano monete coniate.) Pertanto potresti divertirti a leggere il resoconto di Stephen Stigler sulla Prova del Pyx su stat.wisc.edu/sites/default/files/TR442_0.pdf .
whuber

7
@Neeraj Se i pesi di tutti gli articoli sono coerenti, perché non pesare l'intera consegna?
Ripristina Monica il

9
Offri di pagare $ 9000 e attendi che diano "Ma ti abbiamo messo in corto solo 600 non 1000"
Dean MacGregor

5
A parte la grande domanda sulle statistiche, +1, volevo condividere un consiglio più diretto da anni nel settore della stampa: tutte le stampanti professionali appropriate hanno una politica di sovraccarico / superamento come questa perché la maggior parte delle stampanti non offre conteggi esatti su tutto ciò che non utilizza la "numerazione" (numeri di serie individuali). Ma dovrebbero avere un eccellente conteggio di ciò che ti hanno dato, e se in corto ti sconto se più che minore (5%, diciamo). L'addebito del prezzo intero per underrun noti NON è una politica standard.
BrianH,

Risposte:


20

Sarei interessato al feedback sul paragrafo che inizia "Su riflessione ...", dato che una parte particolare del modello mi ha tenuto sveglio la notte.

Il modello bayesiano

La domanda rivista mi fa pensare che possiamo sviluppare esplicitamente il modello, senza usare la simulazione. La simulazione ha introdotto un'ulteriore variabilità dovuta alla casualità intrinseca del campionamento. La risposta dei sofisti è ottima, però.

Presupposti : il numero più piccolo di etichette per busta è 90 e il più grande è 100.

Pertanto, il numero più piccolo possibile di etichette è 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (come indicato dai dati di OP), 9000 a causa del nostro limite inferiore e le etichette aggiuntive provenienti dai dati osservati.

Indica il numero di etichette in una busta . Indica il numero di etichette oltre 90, ovvero , quindi . La distribuzione binomiale modella il numero totale di successi (qui un successo è la presenza di un'etichetta in un inviluppo) in prove quando le prove sono indipendenti con probabilità di successo costante quindi assume valoriPrendiamo , che dà 11 diversi possibili risultati. Suppongo che, poiché le dimensioni del foglio sono irregolari, alcuni fogli hanno spazio solo per i X i X = Y - 90 X { 0 , 1 , 2 , . . . , 10 } n p X 0 , 1 , 2 , 3 , . . . , n . n = 10 X p X iBinomiale ( 10 , p ) .YiiXiX=Y90X{0,1,2,...,10}npX0,1,2,3,...,n.n=10Xetichette aggiuntive superiori a 90 e che questo "spazio aggiuntivo" per ciascuna etichetta superiore a 90 si verifica indipendentemente dalla probabilità . QuindipXiBinomial(10,p).

(Riflettendoci, il presupposto di indipendenza / modello binomiale è probabilmente uno strano presupposto da fare, poiché corregge efficacemente la composizione dei fogli della stampante in modo da non essere modali, ei dati possono solo cambiare la posizione della modalità, ma il modello non lo ammetterà mai una distribuzione multimodale. Ad esempio, in un modello alternativo, è possibile che solo la stampanteha fogli di dimensioni 97, 98, 96, 100 e 95: questo soddisfa tutti i vincoli dichiarati e i dati non escludono questa possibilità. Potrebbe essere più appropriato considerare ogni dimensione del foglio come la propria categoria e quindi adattare un modello multinomiale di Dirichlet ai dati. Non lo faccio qui perché i dati sono così scarsi, quindi le probabilità posteriori su ciascuna delle 11 categorie saranno fortemente influenzate dal precedente. D'altra parte, adattando il modello più semplice, stiamo anche restringendo i tipi di inferenze che possiamo fare.)

Ogni busta è una realizzazione IID . La somma delle prove binomiali con la stessa probabilità di successo è anche binomiale, quindi(Questo è un teorema: per verificare, utilizzare il teorema di unicità di MGF.)iXpiXiBinomial(60,p).

Preferisco pensare a questi problemi in modo bayesiano, perché puoi fare dichiarazioni di probabilità dirette su quantità posteriori di interesse. Un precedente tipico per le prove binomiali con sconosciuto è la distribuzione beta , che è molto flessibile (varia tra 0 e 1, può essere simmetrica o asimmetrica in entrambe le direzioni, uniforme o una delle due masse di Dirac, avere un antimode o una modalità. È uno strumento fantastico!). In assenza di dati, sembra ragionevole ipotizzare una probabilità uniforme rispetto a . Cioè, ci si potrebbe aspettare di vedere un foglio che può contenere 90 etichette con una frequenza di 91, con una frequenza di 92, ..., con una frequenza di 100. Quindi il nostro precedente èpppBeta(1,1).Se non pensi che questo precedente beta sia ragionevole, il precedente uniforme può essere sostituito con un altro precedente beta e la matematica non aumenterà nemmeno in difficoltà!

La distribuzione posteriore su è per le proprietà di coniugazione di questo modello. Questo è solo un passaggio intermedio, perché non ci importa di quanto ci importa del numero totale di etichette. Fortunatamente, le proprietà della coniugazione significano anche che la distribuzione predittiva posteriore dei fogli è beta-binomiale , con parametri del beta posteriore. Esistono "prove" che rimandano, cioè etichette per le quali la loro presenza nella consegna è incerta, quindi il nostro modello posteriore sulle rimanenti etichette èppBeta(1+43,1+17)p940ZZBB(44,18,940).

inserisci qui la descrizione dell'immagine

Dato che abbiamo una distribuzione su e un modello di valore per etichetta (il venditore ha concordato un dollaro per etichetta), possiamo anche dedurre una distribuzione di probabilità sul valore del lotto. Indica il valore totale in dollari del lotto. Sappiamo che , perché modella solo le etichette di cui non siamo sicuri. Quindi la distribuzione rispetto al valore è dato da .ZDD=9043+ZZD

Qual è il modo appropriato di considerare il prezzo del lotto?

Possiamo scoprire che i quantili a 0,025 e 0,975 (un intervallo del 95%) sono rispettivamente 553 e 769. Quindi l'intervallo del 95% su D è . Il pagamento rientra in tale intervallo. (La distribuzione su non è esattamente simmetrica, quindi questo non è l'intervallo centrale del 95% - tuttavia, l'asimmetria è trascurabile. Comunque, come ho spiegato di seguito, non sono sicuro che un intervallo centrale del 95% sia anche corretto uno da considerare!)[9596,9812]D

Non sono a conoscenza di una funzione quantile per la distribuzione binomiale beta in R, quindi ho scritto la mia usando la ricerca radice di R.

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

Un altro modo di pensarci è solo pensare alle aspettative. Se ripetessi questo processo più volte, qual è il costo medio che pagheresti? Siamo in grado di calcolare l'aspettativa di direttamente. Il modello binomiale beta ha aspettative , quindi quasi esattamente quello che hai pagato. La perdita prevista per l'affare è stata di soli 6 dollari! Tutto sommato, ben fatto!DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,

Ma non sono sicuro che nessuna di queste figure sia la più rilevante. Dopotutto, questo venditore sta cercando di ingannarti! Se stavo facendo questo accordo, smetterei di preoccuparmi del pareggio o del prezzo al valore equo del lotto e inizierei a capire la probabilità che io paghi troppo! Il venditore sta chiaramente cercando di frodarmi, quindi sono perfettamente nei miei diritti per minimizzare le mie perdite e non preoccuparmi del punto di pareggio. In questa impostazione, il prezzo più alto che offrirei è di 9615 dollari, perché questo è il 5% quantile del posteriore su , cioè c'è una probabilità del 95% che sto pagando pocoD . Il venditore non può dimostrarmi che tutte le etichette sono lì, quindi vado a coprire le mie scommesse.

(Certo, il fatto che il venditore abbia accettato l'accordo ci dice che ha una perdita reale non negativa ... Non ho trovato un modo per usare queste informazioni per aiutarci a determinare più precisamente quanto sei stato ingannato, tranne per notare che poiché ha accettato l'offerta, nel migliore dei casi sei stato in pareggio.)

Confronto con il bootstrap

Abbiamo solo 6 osservazioni con cui lavorare. La giustificazione per il bootstrap è asintotica, quindi consideriamo come appaiono i risultati sul nostro piccolo campione. Questo diagramma mostra la densità della simulazione del boostrap. inserisci qui la descrizione dell'immagine

Il modello "irregolare" è un artefatto di piccole dimensioni del campione. L'inclusione o l'esclusione di un punto qualsiasi avrà un effetto drammatico sulla media, creando questo aspetto "disordinato". L'approccio bayesiano appiana questi grumi e, secondo me, è un ritratto più credibile di ciò che sta accadendo. Le linee verticali sono i quantili al 5%.


è un'ottima risposta. Hai fornito nuove informazioni penalizzando il rischio. Grazie
Neeraj il

1
Sono stato felice di scoprire che la tua perdita prevista era solo di $ 6. :-) Grazie ancora per un'ottima domanda.
Ripristina Monica il

1
La distribuzione binomiale modella il numero di successi in prove quando le prove sono indipendenti con probabilità di successo costante quindi assume valoriPrendiamo , che dà 11 diversi possibili risultati. Suppongo che, poiché le dimensioni del foglio sono irregolari, alcuni fogli hanno spazio solo per etichette aggiuntive superiori a 90 e che questo "spazio aggiuntivo" per ciascuna etichetta si verifica con probabilità . np0,1,2,3,....,n.n=10Xp
Ripristina Monica il

1
Il modello di Poisson può assumere valori . Quindi assegna probabilità positive a etichette per pacchetto. Ora, c'è una piccola probabilità di elementi sotto qualsiasi modello di Poisson ragionevole per questi dati, ma nessuno ha usato il modello di Poisson perché non rispetta i vincoli . 101 , 102 , 103 , . . . , 10 6 10 6 0 X 100,1,2,3,...101,102,103,...,1061060X10
Ripristina Monica il


20

EDIT: tragedia! Le mie ipotesi iniziali erano errate! (O in dubbio, almeno - ti fidi di ciò che il venditore ti sta dicendo? Comunque, punta anche a Morten.) Il che immagino sia un'altra buona introduzione alle statistiche, ma l'approccio del foglio parziale è ora aggiunto di seguito ( dal momento che alla gente sembrava piacere quello intero, e forse qualcuno lo troverà comunque utile).

Innanzitutto, grande problema. Ma vorrei renderlo un po 'più complicato.

Per questo motivo, prima di farlo, permettetemi di renderlo un po 'più semplice e dire: il metodo che state usando in questo momento è perfettamente ragionevole . È economico, è facile, ha senso. Quindi, se devi restare fedele, non dovresti sentirti male. Assicurati solo di scegliere i tuoi pacchetti in modo casuale. E, se riesci a pesare tutto in modo affidabile (punta del cappello su whuber e user777), allora dovresti farlo.

Il motivo per cui voglio renderlo un po 'più complicato è che hai già - non ci hai detto dell'intera complicazione, ovvero - il conteggio richiede tempo e anche il tempo è denaro . Ma quanto più ? Forse in realtà è più economico contare tutto!

Quindi quello che stai veramente facendo è bilanciare il tempo necessario per contare, con la quantità di denaro che stai risparmiando. (Se, naturalmente, giochi solo una volta. NEXT volta che succede questo con il venditore, potrebbero aver preso piede e provato un nuovo trucco. Nella teoria dei giochi, questa è la differenza tra i giochi Single Shot e Iterated Giochi. Ma per ora, facciamo finta che il venditore faccia sempre la stessa cosa.)

Ancora una cosa prima di arrivare alla stima. (E, mi dispiace di aver scritto così tanto e non ho ancora ottenuto la risposta, ma poi, questa è una risposta abbastanza buona a Cosa farebbe uno statistico? Passerebbero un sacco di tempo a assicurarsi di aver compreso ogni piccola parte del problema prima si sentivano a proprio agio nel dire qualcosa al riguardo.) E quella cosa è un'intuizione basata su quanto segue:

(MODIFICA: SE SONO EFFETTUAMENTE TRATTANTI ...) Il tuo venditore non risparmia denaro rimuovendo le etichette - risparmia denaro non stampando i fogli. Non possono vendere le tue etichette a qualcun altro (presumo). E forse, non lo so e non so se lo fai, non possono stampare mezzo foglio delle tue cose e mezzo foglio di qualcun altro. In altre parole, prima ancora di iniziare il conteggio, puoi presumere che sia il numero totale di etichette sia 9000, 9100, ... 9900, or 10,000. È così che mi avvicinerò, per ora.

Il metodo intero foglio

Quando un problema è un po 'complicato come questo (discreto e limitato), molti statistici simuleranno ciò che potrebbe accadere. Ecco cosa ho simulato:

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

Questo ti dà, supponendo che stiano usando fogli interi e che i tuoi presupposti sono corretti, una possibile distribuzione delle tue etichette (nel linguaggio di programmazione R).

Quindi ho fatto questo:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

Questo trova, usando un metodo "bootstrap", intervalli di confidenza usando 4, 5, ... 20 campioni. In altre parole, in media, se dovessi usare N campioni, quanto sarebbe grande il tuo intervallo di confidenza? Lo uso per trovare un intervallo abbastanza piccolo da decidere il numero di fogli e questa è la mia risposta.

Per "abbastanza piccolo", intendo che il mio intervallo di confidenza al 95% contiene solo un numero intero, ad esempio se il mio intervallo di confidenza era da [93,1, 94,7], quindi sceglierei 94 come numero corretto di fogli, poiché sappiamo è un numero intero.

Un'altra difficoltà però - la tua fiducia dipende dalla verità . Se hai 90 fogli e ogni pila ha 90 etichette, converti molto velocemente. Lo stesso con 100 fogli. Quindi ho esaminato 95 fogli, dove c'è la maggiore incertezza, e ho scoperto che per avere una certezza del 95%, in media sono necessari circa 15 campioni. Quindi, diciamo nel complesso, vuoi prendere 15 campioni, perché non sai mai cosa c'è davvero.

DOPO che sai di quanti campioni hai bisogno, sai che i tuoi risparmi attesi sono:

100Nmissing15c

dove è il costo del conteggio di uno stack. Se si presume che ci sia la stessa probabilità che manchi ogni numero tra 0 e 10, i risparmi previsti sono c $. Ma, ed ecco il punto di fare l'equazione: potresti anche ottimizzarla, per compensare la tua fiducia, per il numero di campioni di cui hai bisogno. Se stai bene con la sicurezza che ti dà 5 campioni, puoi anche calcolare quanto guadagni lì. (E puoi giocare con questo codice, per capirlo.)500 - 15 *c50015

Ma dovresti anche accusare il ragazzo di averti fatto fare tutto questo lavoro!

(MODIFICA: AGGIUNTO!) L'approccio del foglio parziale

Va bene, quindi supponiamo che ciò che il produttore sta dicendo sia vero e non intenzionale: alcune etichette vengono perse in ogni foglio. Vuoi ancora sapere, su quante etichette, nel complesso?

Questo problema è diverso perché non hai più una buona decisione pulita che puoi prendere - questo è stato un vantaggio per il presupposto di tutto il foglio. Prima c'erano solo 11 possibili risposte - ora ce ne sono 1100 e ottenere un intervallo di confidenza del 95% su quante etichette ci siano probabilmente prenderà molti più campioni di quanto desideri. Quindi, vediamo se possiamo pensarci in modo diverso.

Poiché si tratta davvero di prendere una decisione, ci mancano ancora alcuni parametri: quanti soldi sei disposto a perdere, in un unico affare, e quanti soldi costa contare uno stack. Ma lasciami impostare quello che potresti fare, con quei numeri.

Simulando di nuovo (anche se puntelli per l'utente777 se è possibile farlo senza!), È informativo guardare la dimensione degli intervalli quando si usano diversi numeri di campioni. Questo può essere fatto in questo modo:

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

Il che presuppone (questa volta) che ogni pila abbia un numero uniformemente casuale di etichette tra 90 e 100, e ti dà:

Limiti agli intervalli di confidenza per numero di campioni

Naturalmente, se le cose fossero davvero come se fossero state simulate, la vera media sarebbe di circa 95 campioni per stack, che è inferiore a quella che sembra essere la verità - questo è un argomento in realtà per l'approccio bayesiano. Tuttavia, ti dà un utile senso di quanto più sicuro stai diventando sulla tua risposta, mentre continui a campionare - e ora puoi negoziare esplicitamente il costo del campionamento con qualsiasi affare tu venga a proposito di prezzi.

Che ormai conosco, siamo davvero tutti curiosi di sapere.


6
+1 Questa analisi affronta direttamente e in modo creativo la domanda: come potrebbe un (buono) statistico pensare al problema? Concentrarsi sul conteggio dei fogli è una visione preziosa.
whuber

1
L'approccio costi-benefici è un'ottima idea. Direi già che l'uomo * ore collettive di capacità cerebrale dedicate a questo problema ha superato i risparmi di $ 284 dal campione n = 6 utilizzato da Neeraj. :)
RobertF,

1
Bella risposta. Mentre lo hai attualmente codificato, quando la stampante raccoglie una pila intera lascia cadere a terra l'etichetta aggiuntiva, il che è forse ragionevole. Ma se vuoi avere 9000,9100...10000etichette totali alla fine, puoi sostituire la tua logica if bucket <- sample(which(stacks!=100),1)e quindi incrementare sempre lo stack.
Adam C,

1
Ah, l'ho appena notato! Grazie per la cattura. Sicuramente un errore.
one_observation

1
Come stai calcolando gli intervalli di confidenza? Usando il bootstrap?
RobertF,

3

Questo è un campione abbastanza limitato. (Gli snippet di codice sono in R)

> sample <- c(97,98,96,100,95,97)

Per un'ipotesi iniziale sul numero atteso nella popolazione totale e un valore di confidenza del 95% per il prezzo, possiamo iniziare con la media e il 5% quantile

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525 

Per andare oltre, dovremo creare un modello teorico e fare ipotesi aggiuntive. Ci sono diverse fonti di incertezza in gioco: (1) incertezza sulla forma funzionale di un modello di riempimento dei pacchetti, (2) incertezza nella stima dei parametri per il modello e (3) errore di campionamento.

Per il modello, supponiamo che esista un processo per far cadere ciascuna etichetta in modo indipendente in un pacchetto che è incline al fallimento a un tasso sconosciuto . Non daremo per scontato che il produttore stia commettendo una frode, solo che alcune parti finiscono per essere rovinate o altrimenti sul pavimento. Il successo di ogni goccia è quindi una variabile casuale di Bernoulli. Per ogni pacchetto, il processo viene ripetuto volte, il che significa che il numero di etichette in ciascun pacchetto seguirà una distribuzione binomiale. Possiamo stimare dal campione come segue:n = 100 ppn=100p

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

Poiché e , possiamo approssimare bene la distribuzione binomiale con la distribuzione Poisson più semplicen p 10n100np10

> (lambda <- n*p)
[1] 2.833333

Possiamo trovare alcune piccole garanzie nel fatto che la distribuzione di Poisson ha una varianza uguale alla sua media, , e che la varianza del campione è abbastanza vicina alla media del campioneλ=lambda

> var(sample)
[1] 2.966667

Se assumiamo che ogni pacchetto sia compilato in modo indipendente, anche il numero di errori per l'intera esecuzione di 100 pacchetti è approssimativamente di Poisson con il parametro . La media e il 95% quantile sono quindiλr=100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

Il problema è che il tasso di fallimento, , è sconosciuto e non abbiamo tenuto conto della sua incertezza. Ritorniamo alla distribuzione binomiale e, per motivi di flessibilità e semplicità, supponiamo che sia una variabile casuale Beta con parametri di forma sconosciuti e . Questo rende il processo un processo Beta-Bernoulli. Abbiamo bisogno di un presupposto precedente per e , quindi daremo al produttore il beneficio del dubbio, ma non molta fiducia, e faremo e .p α β α β α = 1 β = 0ppαβαβα=1β=0

In 600 osservazioni, hai osservato 583 successi e 17 fallimenti, quindi aggiorniamo il processo Beta-Bernoilli per avere i parametri e . Quindi, per un pacchetto di 100, ci aspetteremmo una media di 97.17138 e una deviazione standard di 1.789028 (vedi ad esempio la voce di Wikipedia per le formule). Usando la funzione di distribuzione, possiamo vedere che la probabilità di avere meno di 90 in un pacchetto è sufficientemente bassa (0,05%) da ignorare tale ipotesi; farlo è prudente per fissare il nostro prezzo.β = 0 + 17α=1+583β=0+17

Il bello di questo modello è che è facile aggiornare e (aggiungere nuovi successi a e nuovi fallimenti a , il modello posteriore rimane un beta-binomio) per ulteriori osservazioni per ridurre l'incertezza e i tuoi presupposti iniziali sono espliciti.β α βαβαβ

Ora, supponendo che ogni pacchetto sia compilato in modo indipendente, possiamo visualizzare l'intera scatola di pacchetti come 10000 eventi indipendenti anziché 100 eventi di 100 eventi secondari. La media è quindi 9717.138 con deviazione standard 69.57153. Usando la funzione di distribuzione, puoi calcolare il numero di confidenza del 95% in modo che sia circa 9593. Per farlo ho usato il pacchetto R VGAMper le sue *betabinom.abfunzioni.

Quindi, l'incertezza nel parametro stimato riduce il prezzo di confidenza del 95% di quasi 100 e finiamo abbastanza vicino alla nostra semplice approssimazione iniziale.

Qualunque sia l'approccio o il modello, è possibile utilizzare dati aggiuntivi per convalidare il modello, ovvero vedere che i dati aggiuntivi sono ragionevoli in base al modello teorico o se sono giustificati adeguamenti o un nuovo modello. Il processo di modellizzazione è simile al metodo scientifico.


2

In un pizzico, la mia prima inclinazione sarebbe quella di calcolare un intervallo di confidenza del 95% per la media del campione su una distribuzione normale troncata che cade tra i limiti inferiore e superiore di 90 e 100 etichette.

Il pacchetto R truncnormconsente di trovare intervalli di confidenza per una distribuzione normale troncata data una media del campione specificata, deviazione standard del campione, limite inferiore e limite superiore.

Dato che stai prendendo un campione di n = 5 da una popolazione relativamente piccola (N = 100), potresti voler moltiplicare la deviazione standard del campione per un fattore di popolazione finito = [(Nn) / (N-1)] ^. 5 = 0,98.


5
Mi chiedo se le ulteriori complicazioni di assumere una Normale troncata siano utili - o addirittura valide - dato che i conteggi sono discreti e possono assumere solo un piccolo numero di possibili valori.
whuber

@whuber - Vero, ma l'intervallo di confidenza è superiore alla distribuzione della media del campione, che è una quantità continua. Invece di usare un intervallo di confidenza del 95%, forse una scelta migliore sarebbe quella di trovare l'area sotto la distribuzione tra quantità discrete, diciamo 93 e 99.
RobertF

Tuttavia, non è necessario un normale troncato per lavorare con la media del campione. Sembra una complicazione inutile.
whuber

1
Il CLT non afferma che nulla seguirà una distribuzione normale troncata. Il bootstrap potrebbe essere problematico perché si basa su risultati asintotici per la sua validità.
whuber

1
Poiché la deviazione standard della media diventa rapidamente molto più piccola dell'intervallo, il troncamento è praticamente irrilevante. Stiamo parlando di una soluzione pratica che non è complicata da dettagli inutili e che possono distrarre.
whuber

2

Un approccio rapido e semplice è quello di considerare tutti i possibili campioni di dimensione 6. Vi sono solo 15.625 permutazioni. Osservando questi e prendendo la media per ogni caso, quindi ordinando le medie ed estraendo il 5% quantile, otteniamo un valore di 96.

Quindi l'importo stimato che dovresti essere disposto a pagare è di circa 9600. Questo è in buon accordo con un paio di approcci più sofisticati.

Un miglioramento qui sarebbe quello di simulare un gran numero di campioni di dimensione 6 e usare la stessa procedura per trovare il 5 ° percentile dei mezzi di campionamento. Usando poco più di un milione di campioni, ho trovato il 5 ° percentile pari a 96.1667, quindi per il dollaro più vicino il pagamento sarebbe stato di 9617 dollari, che è solo una differenza di 2 dollari dal risultato di user777 di 9615.


1
Potresti spiegare perché questa è una risposta adeguata a quanto dovrebbe essere pagato? Perché non usare la media del campione, per esempio?
whuber

Utilizzeresti la media di esempio se desideri avere un pagamento in linea con il numero di etichette che ritieni ci siano. Ma l'interrogante ha chiesto il 95% di certezza di non pagare per più etichette di quelle fabbricate. Quindi abbiamo un'idea della distribuzione della media campionaria per campioni di dimensione 6 e utilizziamo il 5o percentile.
Soakley,

1
Sarebbe bene includere questa spiegazione nella tua risposta. Potresti anche considerare di spiegare perché ritieni che questa procedura di ricampionamento produca effettivamente un limite di confidenza valido o affidabile. Sebbene possa farlo con molti set di dati di grandi dimensioni, si dovrebbe considerare se può essere utilizzato allo stesso modo con un set di dati così piccolo.
whuber

0

Sembra che tu abbia già concluso che l'errore è stato commesso intenzionalmente, ma uno statistico non vorrebbe saltare a tali conclusioni (anche se le prove sembrano supportarlo).

Si potrebbe impostare questo come un test di ipotesi:

H0: il rivenditore è onesto ma piuttosto sciatto

H1: il rivenditore è fraudolento e il deficit è intenzionale.

Supponiamo H0, quindi ogni deviazione è un evento casuale con media = 0 e pari probabilità di essere positivo o negativo. Supponiamo inoltre che le deviazioni siano normalmente distribuite. La deviazione standard per la distribuzione normale basata sulle deviazioni nei 6 punti dati è sd = 1.722

Se lo statistico non ricordava molto bene la sua teoria, ma aveva R nelle vicinanze (non uno scenario improbabile), allora poteva scrivere il seguente codice per verificare la probabilità di non ricevere deviazioni positive (nessun pacchetto superiore a 100) se H0 è vero.

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

Il risultato della simulazione è:

The probability the H0 is correct is: 5.3471 %

La probabilità che il rivenditore sia onesto è solo del 5,35% ed è quindi molto probabile che tu sia stato vittima di una frode.

Dal momento che dici che questa non è una domanda a casa, ma una situazione reale per la tua azienda, allora questo smette di essere un esercizio nel calcolo delle etichette dei numeri previsti corretti, ma invece è un caso complicato su come gestire un fornitore disonesto.

Quello che fai da qui, in realtà non può essere risposto solo dalle statistiche. Dipende molto dalla tua leva finanziaria e dal rapporto con il rivenditore.

Buona fortuna !

Morten Bunes Gustavsen


1
17/61.72/60.7017/6/0.704.01000.00003

il fallimento è sempre un'opzione, quindi potrei aver fatto un errore ... i miei calcoli sono comunque documentati nel codice R che ho fornito, quindi non ci dovrebbero essere motivi per chiedersi come ho ottenuto il mio risultato. Sì, l'ipotesi H0 nel mio caso è che il rivenditore è onesto, e quindi le deviazioni sarebbero fluttuazioni casuali con una media su 100. Lo Stdev nel mio calcolo è solo lo Stdev della serie (-3, -2, -4, 0, -5, -3) che è la deviazione da 100 in ciascun pacchetto.
Morten Bunes Gustavsen,

Uso semplicemente questa deviazione normale, disegno 6 campioni e controllo se nessuno di essi è maggiore di 0. Eseguo la simulazione 1000.000 volte e contano quante volte sono così sfortunato da non avere campioni superiori a 0. Questo risulta essere il 5,35% dei casi. Il motivo per cui ho scelto questo punto di vista era che la domanda affermava esplicitamente che si tratta di una situazione reale (cioè non un esercizio accademico) e che vorrebbe sapere cosa farebbe uno statistico in questo caso.
Morten Bunes Gustavsen,

3
La domanda affermava inoltre che non vi era alcuna possibilità di contare più di 100 etichette in un pacchetto. Indipendentemente da ciò, ciò che hai fatto è una vasta simulazione di numeri che assomigliano ai dati, ma che cosa, se non altro, ha a che fare con la domanda ("quanto dovremmo pagare") è oscuro.
whuber

-2

Che ne dici di qualcosa come un modello multinomiale.

Prob di ogni risultato è stimato come 1/6, 1/6, .... (basato sulle 6 osservazioni) e quindi E (x) = 97.16 e Var (x) = somma (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2.47 quindi l'IC 95% sarebbe [94, 100]


3
Questo non sembra affatto multinomiale: il tuo CI sembra essere un intervallo di teoria normale usando la formula non corretta per la varianza. Inoltre, come risponde alla domanda su quanto pagare?
whuber

il multinomiale si applica al risultato, cioè 95, 96, 97 ... 100 e sì, l'IC è teoria normale perché xe (x) / sd ~ N. quanto pagare sarebbe uguale all'aspettativa, quindi è 97,16 * 100
Xing,

4
Hai notato che non usi affatto l'assunto multinomiale? Il tuo elemento della configurazione è troppo corto, come osservato da WS Gosset nel 1908. Ma se hai intenzione di basare la tua raccomandazione solo sulla media del campione, perché calcolare un elemento della configurazione?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.