Stimare la massa di frutta in un sacchetto solo dai totali correlati?


9

Un istruttore della mia università ha posto una domanda del genere (non per i compiti da quando la lezione è finita e io non ci ho partecipato). Non riesco a capire come affrontarlo.

La domanda riguarda 2 buste contenenti ciascuna un assortimento di diversi tipi di frutta:

La prima busta contiene i seguenti frutti selezionati casualmente:

+ ------------- + -------- + --------- +
| diametro cm | massa g | marcio? |
+ ------------- + -------- + --------- +
| 17,28 | 139.08 | 0 |
| 6.57 | 91,48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129,8 | 0 |
| 14.58 | 169,22 | 0 |
| 6,99 | 123,43 | 0 |
| 6,63 | 104,93 | 1 |
| 6.75 | 103,27 | 1 |
| 15,38 | 169.01 | 1 |
| 7.45 | 83,29 | 1 |
| 13.06 | 157,57 | 0 |
| 6,61 | 117,72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

La seconda busta contiene 6 frutti scelti a caso dallo stesso negozio della prima busta. La somma dei loro diametri è di 64,2 cm e 4 sono marci.

Fornire una stima per la massa del secondo sacco.

Vedo che sembrano esserci due diversi tipi di frutta con diametri e masse normalmente distribuiti, ma mi sono perso su come procedere.


6
Domanda interessante - ma dati strani: i pesi specifici vanno da 0,78 a 0,05. Forse qualcuno ha scambiato le decorazioni in polistirolo con vera frutta? :-)
whuber

La domanda non dice di cosa sia stata fatta la frutta. Immagino che si possa presumere che anche le borse stesse siano prive di peso. Come risolvo il problema?
Rutilusk,

3
La spinta del mio commento è stata che quando si analizzano quantità così piccole di dati disordinati, ci affidiamo alla conoscenza del significato dei dati. Dal momento che questi numeri ovviamente non descrivono alcun tipo noto di "frutto", non possiamo fare appello a tale conoscenza del dominio. (Ad esempio, non abbiamo alcuna base per supporre che qualsiasi parte di questi dati debba essere "normalmente distribuita"). Ciò rende difficile o impossibile sviluppare risposte ragionevoli e può portare a controversie, perché limita i modi in cui il le prestazioni di qualsiasi approccio possono essere valutate.
whuber

Ma il frutto di polistirolo non può marcire. Forse i frutti sono sferoidi prolati, con "diametro" misurato lungo l'asse lungo. Sembra che ci siano almeno due tipi di frutti: quindi, assumendo gravità specifiche vicine a una, il più piccolo avrebbe circa le dimensioni e la forma di un limone; il più grande circa mezzo piede lungo e meno di 2 pollici di diametro. La difficoltà con questa idea è che sembra più naturale descrivere l'asse più corto come il "diametro".
Scortchi - Ripristina Monica

Risposte:


1

Cominciamo tracciando i dati e dandoli un'occhiata. Si tratta di una quantità molto limitata di dati, quindi sarà in qualche modo ad hoc con molte ipotesi.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Quindi questi sono i dati, i punti rossi rappresentano i frutti marci:

frutta tracciata

Hai ragione nel dare per scontato che sembrano esserci due tipi di frutti. Le ipotesi che faccio sono le seguenti:

  • Il diametro divide i frutti in due gruppi
  • I frutti con un diametro maggiore di 10 sono in un gruppo, altri nel gruppo più piccolo.
  • C'è solo un frutto marcio nel grande gruppo di frutta. Supponiamo che se un frutto si trova nel grande gruppo, quindi essere marcio non influisce sul peso. Questo è essenziale, poiché abbiamo un solo punto dati in quel gruppo.
  • Se il frutto è un piccolo frutto, il marcio influisce sulla massa.
  • Supponiamo che le variabili diam e mass siano normalmente distribuite.

Poiché si ritiene che la somma del diametro sia di 64,2 cm, è molto probabile che due frutti siano grandi e quattro piccoli. Ora ci sono 3 casi per il peso. Vi sono 2, 3 o 4 piccoli frutti marci ( un grosso frutto marcio non influenza la massa per ipotesi ). Quindi ora puoi ottenere limiti sulla tua massa calcolando questi valori.

Possiamo stimare empiricamente la probabilità che il numero di piccoli frutti sia marcio. Usiamo le probabilità per ponderare le nostre stime della massa, a seconda del numero di frutti marci:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Dandoci una stima finale di 691.5183g . Penso che devi fare la maggior parte delle ipotesi che ho fatto per giungere a una conclusione, ma penso che potrebbe essere possibile farlo in un modo più intelligente. Inoltre campiono empiricamente per ottenere la probabilità del numero di piccoli frutti marci, che è solo pigrizia e può essere fatto "analiticamente".


Grazie per il tuo contributo. Mi sembra che la maggior parte delle asserzioni che chiamate "assunzioni" siano in realtà conclusioni basate sulla vostra analisi esplorativa. Sarebbe utile analizzare in che modo i risultati dipendono dall'accuratezza di tali conclusioni. Indipendentemente da ciò, è chiaro che un set di dati così piccolo non può supportare un risultato con sette cifre significative! Sarebbe particolarmente utile fornire una valutazione del suo probabile errore. Sarà relativamente grande, il che sarebbe importante sapere.
whuber

@whuber grazie per il commento, potrei aggiungere qualcosa in più per stimare la variazione più tardi la sera. La cosa più semplice da fare sarebbe ottenere stime di errore per la massa dei tre gruppi che utilizzo per il calcolo finale e calcolare intervalli di previsione basati su quello. Ma vedo che il PO è inattivo da un anno, quindi non mi aspetto che questa risposta venga accettata. Penso ancora che questo esempio sia un bel problema "giocattolo" per vedere come puoi ottenere con così pochi dati.
Gumeo,

Sto cercando di suggerire che in realtà ottieni molte meno informazioni di quanto suggerito dalla tua risposta, perché dipende da molte conclusioni derivate dai dati che esse sono altamente incerte.
whuber

@whuber Sì, è del tutto corretto. Ma cercare di stimare l'errore propagato da tutte le ipotesi / conclusioni che faccio non è molto semplice. Sono stato anche fortemente influenzato dal fatto che la somma dei diametri dei frutti nel secondo sacco è di 64,2 cm e che OP menziona che potrebbero esserci due gruppi di frutti.
Gumeo,

1
@whuber Ci penserò e lo prenderò come una sfida. Rivisiterò questa domanda più tardi!
Gumeo,

0

Proporrei il seguente approccio:

  1. Genera tutte le 6 tuple che soddisfano le condizioni su 4 marci. Sono .(64)(72)
  2. Seleziona dalle tuple generate solo quelle che soddisfano la condizione sul diametro.
  3. Calcola il peso medio delle tuple selezionate (media aritmetica normale).

Tutto ciò è gestibile da una semplice sceneggiatura.


5
Perché questo approccio dovrebbe funzionare? Quali ipotesi fa? Hai provato a vedere se riesce a produrre una risposta?
whuber

0

Approcci multipli includono, dal più semplice al complesso,

  1. 6 (massa media)
  2. 6 (volume medio) (densità media)
  3. 4 (massa media marcio) + 2 (massa media non marcio)
  4. 4 ((volume medio marcio) + 2 (volume medio non marcio)) (densità media)
  5. 4 (volume medio marcio) (densità media marcio) + 2 (volume medio non marcio) (densità media non marcio)

. . .

metodi combinatori

Gli approcci sono disposti in ordine di semplicità di calcolo, non in ordine di alcun approccio migliore o del tutto positivo. La scelta dell'approccio da utilizzare dipende dalle caratteristiche della popolazione conosciute o presunte. Ad esempio, se le masse di frutta nella popolazione del negozio sono normalmente distribuite e indipendenti dai diametri e dallo stato di marciume, si potrebbe usare il primo approccio più semplice senza alcun vantaggio (o addirittura svantaggi dell'errore di campionamento di più variabili) dell'uso di approcci più complessi . Se non le variabili casuali distribuite in modo identico indipendente, una scelta più complessa a seconda delle informazioni conosciute o presunte sulla popolazione potrebbe essere migliore.


3
Perché uno di questi è buono? Quali ipotesi fanno? Come si selezionerebbero l'uno rispetto all'altro? (Sono anche in ordine di bontà crescente in un certo senso?)
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.