Quando non posso sostituire una variabile casuale con la sua media?


10

Una frequente semplificazione nella modellistica e nella simulazione è quella di sostituire una variabile casuale con il suo valore medio.

Quando questa semplificazione porterebbe a conclusioni errate?


2
"Var" significa variabile o varianza o Value At Risk ?
Henry,

3
Sarebbe divertente avviare un servizio che paga per l'abbonamento Netflix dei suoi membri. Faremmo pagare solo , dovexè scelto a caso nel dominio[-100,100], così, sai, gratis Netflix! In seguito, offriremo ad alcuni clienti la possibilità di pagare invecex2USD|x| USDmonthx[100,100] . x2 USDmonth
Nat

3
Bene, in un caso molto semplice se lo portiamo all'estremo potremmo perdere praticamente tutte le informazioni a cui teniamo. Considera una regressione di Y su X in cui abbiamo sostituito sia Y che X con la loro media. Qualsiasi informazione sulla pendenza è ora persa.
Dason,

1
Stai chiedendo di sostituire i valori mancanti o stai chiedendo di sostituire una variabile casuale in un contesto specifico (ad es. Fare previsioni basate su un modello a effetti casuali)?
IWS,

Risposte:


20

Se si sostituisce un valore mancante con una stima puntuale, si ignora tutta la sua variabilità. Pertanto, non propagherai tutta la variabilità originale al tuo modello. Le stime dei parametri sembrano avere troppo bassi . Se fai l'inferenza, i tuoi valori p saranno distorti. I tuoi saranno troppo stretti. Se si esegue la previsione, l' s sarà troppo stretto.

Nel complesso: sarai troppo sicuro delle tue conclusioni.


2
Buona risposta! Pensa in questo modo: una variabile casuale ha una distribuzione. Può essere mischiato a sinistra, a destra. Posso essere bi-modale ecc. Riducendo la variabile al suo valore medio, si rimuovono tutte quelle informazioni extra (incertezza) e si sostituisce una distribuzione (intervalli) con una stima a punto singolo.
elevendollar,

1
Se si sostituisce un valore mancante con una stima puntuale, si presuppone anche che i dati manchino casualmente. Il valore medio della variabile casuale potrebbe non essere uguale al valore medio dei dati quando manca.
Neil G,

@NeilG mi dispiace per nitpick, ma sostituire un valore mancante con la sua media non significa direttamente supporre che i dati manchino a caso. Soprattutto perché la terminologia - alquanto confusa - intorno ai dati mancanti considera "dispersi a caso" come dati che mancano a caso a condizione di altri, ma dati noti ( en.wikipedia.org/wiki/Missing_data ). IMO, il modo in cui i dati vengono sostituiti non implica nulla sul ragionamento alla base. Tale ragionamento dovrebbe essere reso esplicito e condurre al modo appropriato di trattare i dati mancanti. Detto questo, sono pienamente d'accordo con la risposta di Stephan.
IWS,

@IWS Va bene che gli indicatori di mancanza siano condizionati dai dati osservati. Mancare a caso significa che gli indicatori di mancanza dipendono dai dati non osservati. Se si sostituisce la variabile con il suo valore medio a condizione che venga osservata, potrebbe non corrispondere al valore medio incondizionato, a meno che i dati non siano casuali.
Neil G,

@NeilG Non intendi "perdere completamente a caso", quando scrivi "manca a caso" nell'ultima frase del tuo ultimo commento? In tal caso, siamo d'accordo, ma stavo solo cercando di capire la terminologia. (vedi la pagina wiki che ho inserito nel mio commento sopra, mi è sempre stato insegnato, letto e usato quella terminologia)
IWS

13

Oltre ai punti di Stephan:

  • In quasi tutte le applicazioni in cui sei interessato a funzioni non lineari della variabile casuale, la sostituzione della media generalmente introdurrà pregiudizi e probabilmente risultati contraddittori. La velocità media e la massa media di una particella non saranno generalmente coerenti con l'energia cinetica media, poiché l'energia si scala con V ^ 2.
  • Il valore medio potrebbe non essere nemmeno un possibile risultato per la variabile casuale. Se i miei possibili esiti sono 0 "paziente muore" e 1 "paziente vive", probabilmente non è utile avere un modello che descriva il paziente come 0,1 "per lo più morto ma leggermente vivo".


1
@Alexis ma ovviamente!
Geoffrey Brent,

0

Un esempio di vita reale (correlato alle due risposte che hai ottenuto), nei mercati finanziari. Il prezzo di un'opzione si basa sulla probabilità che il prezzo di un'attività superi (o scenda) un determinato livello.

Ad esempio, il prezzo di un'opzione per l'acquisto di un'attività a un prezzo 100 quando il valore atteso dell'attività è 80. Se si sostituisce la variabile casuale (il prezzo dell'attività) con la sua media, si otterrebbe un prezzo pari a zero (come non avresti mai a 100 un'attività che costa 80). Quando si tiene conto della stocastica del bene (e questo è il modo giusto di farlo) si ottiene un prezzo positivo, poiché esiste una probabilità che il prezzo del bene superi i 100.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.