Calcolo della distribuzione da min, media e max


10

Supponiamo che io abbia il minimo, medio e massimo di alcuni set di dati, diciamo 10, 20 e 25. C'è un modo per:

  1. creare una distribuzione da questi dati e

  2. sapere quale percentuale della popolazione si trova probabilmente sopra o sotto la media

Modificare:

Come suggerito da Glen, supponiamo di avere una dimensione del campione di 200.


(1) è facile, perché ci sono molte soluzioni. (2) è meglio farlo nel contesto di alcune ipotesi sulla forma distributiva, poiché altrimenti tutto ciò che puoi ottenere sono limiti matematici.
whuber

3
Sei stato preso letteralmente qui nei commenti e nelle risposte finora, ma una precauzione necessaria (tacito, penso, nelle osservazioni di @buber) è che ci sono così tante distribuzioni compatibili con tali informazioni che non dovresti dedurre che hai abbastanza informazioni per farlo bene o in modo affidabile. In particolare, se non conosci nemmeno la dimensione del campione, non puoi fare molto nemmeno a pensare all'incertezza.
Nick Cox,

Quando chiedi della proporzione della popolazione che "si trova sopra o sotto la media" ... stai chiedendo in relazione alla media del campione o media della popolazione lì? Stiamo parlando di variabili continue o discrete? Conosciamo le dimensioni del campione?
Glen_b -Restate Monica

Risposte:


10

Ho il minimo, medio e massimo di alcuni set di dati, diciamo 10, 20 e 25. C'è un modo per:

creare una distribuzione da questi dati e

Esiste un numero infinito di possibili distribuzioni che sarebbero coerenti con quelle quantità di campione.

sapere quale percentuale della popolazione si trova probabilmente sopra o sotto la media

In assenza di alcune ipotesi probabilmente ingiustificate, non in generale - almeno non con molto senso che sarà significativo. I risultati dipenderanno in gran parte dai tuoi presupposti (non ci sono molte informazioni nei valori stessi, anche se alcune disposizioni particolari forniscono alcune informazioni utili - vedi sotto).

Non è difficile trovare situazioni in cui le risposte alla domanda proporzionale potrebbero essere molto diverse. Quando ci sono risposte possibili molto diverse coerenti con le informazioni, come faresti a sapere in quale situazione ti trovi?

Maggiori dettagli possono fornire indizi utili ma così come sono (senza nemmeno una dimensione del campione, anche se presumibilmente è almeno 2 o 3 se la media non è a metà strada tra gli endpoint *) non otterrai necessariamente molto valore su questa domanda . Puoi provare a superare i limiti, ma in molti casi non restringono molto le cose.

* in realtà se la media è vicina a un endpoint è possibile ottenere un limite inferiore sulla dimensione del campione. Ad esempio se invece di 10,20,25 per il tuo min / media / max avessi 10 24 25 allora dovrebbe essere almeno 15, e suggerirebbe anche che la maggior parte della popolazione era sopra i 24; è qualcosa. Ma se dicessimo 10,18,25 è molto più difficile avere un'idea utile di quale potrebbe essere la dimensione del campione, figuriamoci la proporzione sotto la media.n


2
@DJohnson Non penso che sia iperbolico - è letteralmente vero (anche se la nostra capacità di elencarli effettivamente potrebbe fallire dopo alcune migliaia e la nostra capacità di preoccuparci di continuare a elencarli potrebbe fallire dopo alcune dozzine, non significa non ci sono altre serie di ipotesi in base alle quali potremmo operare). Non c'era alcun intento di condiscendenza nel mio fraseggio: è stato scelto deliberatamente per indicare effettivamente la vera ampiezza di possibili serie di ipotesi. Cosa vorresti che scrivessi?
Glen_b

3
1. Qual è un motivo per limitare al massimo le possibilità a due parametri? E se i dati fossero stati estratti da un lognormale a tre parametri, per esempio? In molti casi non possiamo stimare tutti i parametri dai dati, ma fa parte del problema che sto cercando di motivare lì (si riferisce alla discussione di ipotesi. 2. Johnson e Kotz è un sottoinsieme di ciò che le persone hanno chiamato le distribuzioni / ho lavorato con, non lontanamente, vincolato alle ipotesi possibili . Ho inventato numerose distribuzioni che non si trovano in Johnson and Kotz, e ... ctd
Glen_b -Reinstate Monica

4
ctd ... Sono abbastanza sicuro che non siano tutti esclusi qui. Anche senza parametri non specificati, c'è un'infinità di possibili cdf, un sottoinsieme non finito di cui non sarebbero esclusi dalle informazioni specificate.
Glen_b

1
@Djohnson Qualunque sia l'entità di qualsiasi disaccordo residuo, apprezzo i tuoi commenti utili. Prenderò in considerazione se indicare almeno più chiaramente ciò che sto realmente dicendo (la mia affermazione effettiva è in grado di provare, se fosse necessaria, ma forse posso almeno affermarla chiaramente) e se dovrebbe essere formulata diversamente lì.
Glen_b -Restate Monica

4
@DJohnson Prendi due diverse distribuzioni che soddisfano le condizioni: qualsiasi miscela delle due soddisferà comunque le suddette condizioni. È letteralmente un infinito: non enumerabile.
Elvis,

8

Come già notato da Glen_b , ci sono infinite possibilità. Dai un'occhiata ai seguenti grafici, che mostrano otto diverse distribuzioni che hanno lo stesso min, max e media.

Otto diverse distribuzioni

Si noti che sono molto diversi l'uno dall'altro. Il primo è uniforme, il quarto è una miscela bimodale di distribuzioni triangolari, il settimo ha la maggior parte della massa di probabilità concentrata attorno al centro, ma sono ancora possibili min e max con probabilità molto piccola, otto è discreto e ha solo due valori al minimo e al massimo, ecc. .

Dal momento che soddisfano tutti i tuoi criteri, puoi utilizzarli per la simulazione. Tuttavia, la tua scelta soggettiva avrebbe un risultato molto profondo sull'esito della simulazione. Quello che voglio dire è che se min, max e mean sono davvero l' unica cosa che sai sulla distribuzione, allora hai informazioni insufficienti per condurre la simulazione se vuoi davvero imitare la distribuzione reale (sconosciuta).

Quindi è necessario chiedersi che cosa ne sai di distribuzione? È discreto o continuo? Simmetrico o obliquo? Unimodale o bimodale? Ci sono molte cose da considerare. Se è continuo, non uniforme e unimodale e conosci solo il minimo, il massimo e la media, allora una possibile scelta è la distribuzione triangolare - è altamente improbabile che qualcosa nella vita reale abbia una tale distribuzione, ma almeno stai usando qualcosa di semplice e non imporre troppe ipotesi sulla sua forma.


Quindi, se assumessi una distribuzione triangolare, potrei calcolare anche la modalità con le mie informazioni attuali. Sarebbe d'aiuto?
user132053

1
@ user132053 hai bisogno solo di min, max e media. La formula per la media della distribuzione triangolare è (a + b + c) / 3 e puoi risolverla per la modalità usando l'aritmetica semplice.
Tim

4

Una regola basata sull'intervallo per il calcolo della deviazione standard è ampiamente citata nella letteratura statistica (qui c'è un riferimento ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Fondamentalmente, è (max-min) / 4. È noto per essere una stima molto approssimativa.

Dato che le informazioni e la volontà di assumere dati normalmente distribuiti, si possono generare deviazioni normali da due numeri, la media e la deviazione standard basata sull'intervallo. Detto questo, qualsiasi distribuzione a uno o due parametri potrebbe essere generata da queste due informazioni, purché tale distribuzione fosse radicata nel primo o nel secondo momento.

Un coefficiente di variazione approssimativo potrebbe anche essere prodotto prendendo il rapporto tra SD / media. Ciò fornirebbe un proxy per la variabilità senza unità dei dati.

L'errore si riferisce più correttamente alla distribuzione campionaria della popolazione e richiede una dichiarazione delle dimensioni del campione, n , per la stima. La tua descrizione non fornisce questo dettaglio.


3
Alcune cose degne di nota: (1) La media fornisce potenzialmente più informazioni che dovrebbero sovrascrivere la regola (max-min) / 4. (2) Poiché vengono fornite tre informazioni, l'utilizzo di una sola famiglia di due parametri lascia un certo grado di flessibilità in generale.
whuber

@whuber Hai fatto due commenti allusivi su questa discussione. Sarebbe fantastico se tu dovessi approfondire e specificare una risposta.
Mike Hunter,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.