Probabilità - Perché moltiplicare?


22

Sto studiando la stima della massima verosimiglianza e leggo che la funzione di verosimiglianza è il prodotto delle probabilità di ciascuna variabile. Perché è il prodotto? Perché non la somma? Ho cercato di cercare su Google ma non riesco a trovare risposte significative.

https://en.wikipedia.org/wiki/Maximum_likelihood


7
Si noti che questo non è necessariamente il caso, e in generale la massima probabilità è definita in termini di densità articolare delle variabili casuali. Naturalmente se sono indipendenti la loro densità articolare è solo il prodotto dei marginali
Ant

Ricorda che la moltiplicazione è solo una scorciatoia per l'aggiunta. Quando dico 2 volte 3 dico 2 + 2 + 2. Ci moltiplichiamo perché siamo pigri. Chi ha tempo di farlo nel modo più duro? Puoi aggiungere se ti aiuta a vedere cosa sta succedendo (mi ha aiutato a capire il problema di Monty Hall) ma dopo un po 'ti annoierai.
candied_orange,

supponiamo che tu abbia l'80% di probabilità di avere i capelli castani e il 75% di probabilità di avere gli occhi castani. Pensi che sia possibile che la probabilità di essere dai capelli castani e occhi castani è 80% + 75% = 155%? che ne dici 80% * 75% = 60%?
njzk2,

Risposte:


39

Questa è una domanda molto semplice, e invece di usare un linguaggio formale e una notazione matematica, cercherò di rispondere ad un livello al quale chiunque capisca la domanda può anche capire la risposta.

Immagina di avere una razza di gatti. Hanno una probabilità del 75% di nascere bianca e del 25% di nascere grigia, nessun altro colore. Inoltre, hanno una probabilità del 50% di avere gli occhi verdi e una probabilità del 50% di avere gli occhi blu, e il colore del mantello e il colore degli occhi sono indipendenti.

Ora diamo un'occhiata a una cucciolata di otto gattini:

inserisci qui la descrizione dell'immagine

Vedrai che 1 su 4, o il 25%, sono grigi. Inoltre, 1 su 2 o il 50% ha gli occhi blu. Ora la domanda è:

quanti gattini hanno la pelliccia grigia e gli occhi blu?

Puoi contarli, la risposta è una. Cioè, , o il 12,5% di 8 gattini.14×12=18

Perché succede? Perché ogni gatto ha una probabilità 1 su 4 di essere grigio. Quindi, scegli quattro gatti e puoi aspettarti che uno di loro sia grigio. Ma se scegli solo quattro gatti tra i tanti (e ottieni il valore atteso di 1 gatto grigio), quello grigio ha una probabilità 1 su 2 di avere gli occhi blu. Ciò significa che, per il totale dei gatti che raccogli, moltiplichi prima il totale del 25% per ottenere i gatti grigi, quindi moltiplica il 25% selezionato di tutti i gatti per il 50% per ottenere quelli di loro che hanno gli occhi blu. Questo ti dà la probabilità di ottenere gatti grigi dagli occhi blu.

Riassumendoli ti darebbe , il che rende o 6 su 8. Nella nostra immagine, corrisponde a riassumere il gatti che hanno gli occhi blu con i gatti che hanno la pelliccia grigia - e contando due volte il gattino grigio dagli occhi blu! Tale calcolo può avere il suo posto, ma è piuttosto insolito nei calcoli di probabilità, e non è certamente quello di cui stai chiedendo.14+1234


1
Sono consapevole che le altre risposte qui significano la stessa cosa. Penso comunque che qui sia necessaria una rappresentazione visiva: se l'OP fosse in grado di visualizzare il concetto da solo, probabilmente sarebbe già arrivato alla risposta.
Rumtscho,

Questa è in realtà una risposta formidabile in quanto mostra ogni variabile indipendente come un asse indipendente nella matrice del gatto. Questo lo rende molto facile da capire. Userò questo esempio per insegnare ai miei figli!
dotancohen,

3
Questa risposta è in realtà errata, perché confonde ancora il valore osservato e il valore atteso. Vedendo quanto è popolare, proverò a trovare il tempo per aggiornarlo con una spiegazione del perché questo modo di sottoporre i gatti ci dà uno stimatore della massima verosimiglianza (o, risolvendo il problema di scegliere 8 gatti casuali e scoprire che non sono i quelli che ho dipinto nella foto).
Rumtscho,

Perché questa non può essere l'intera popolazione di tali gatti? (Supponiamo che abbiano qualche proprietà di ricerca speciale - le loro lingue sono chemiluminescenti, per esempio.) Quindi la conflazione non è deleteria.
Eric Towers,

16

B S A B P ( A I [ 1 , 2 , . . . , N ]UNBSUNBP(UNB)=P(UNB)=P(UN)P(B)UN1,UN2,...UNnP(UNioioio)=ΠioioP(UNio)io[1,2,...,n]

Probabilmente supponiamo che esista un campione di osservazioni indipendenti e identicamente distribuite (iid), provenienti da una distribuzione con una funzione di densità di probabilità sconosciuta, ciò significa che questa funzione di densità articolare è . n f ( x 1 , x 2 , . . . , x n | θ ) = Π i = n i = 1 f ( x i | θ )X1,X2,...,Xnnf(X1,X2,...,Xn|θ)=Πio=1io=nf(Xio|θ)


6

P(UNB)P(UN)P(B)

Pertanto, se supponi che tutte le tue osservazioni siano indipendenti, la probabilità di osservare tutti i valori che hai visto è uguale al prodotto delle singole probabilità.


8
P(UNB)

Ciao grazie per la risposta! Perché massimizzare la probabilità (funzione di densità articolare)? Perché non posso invece massimizzare la somma delle probabilità di tutte le osservazioni (o di qualsiasi altra funzione)? Vorrei trovare il motivo per cui è stata scelta la funzione di densità articolare. Wikipedia inizia utilizzando la funzione di densità congiunta. Ma c'è un motivo per cui utilizziamo la funzione di densità articolare? Questo è quello che ho cercato di capire.
RuiQi,

@haziqRazali l'idea di MLE è quella di scegliere le stime in modo da rendere il campione che probabilmente hai dato alla distribuzione. Da qui il nome con la massima verosimiglianza
Repmat

1
@HaziqRazali Una domanda del tipo "perché massimizzare la probabilità" è una nuova domanda (una che è stata posta e ha risposto altrove sul sito)
Glen_b -Reinstate Monica

3

Perché non aggiungere?

Perché chiaramente non ha senso. Supponi di avere un quarto e un nichel e che vuoi capovolgerli entrambi. C'è una probabilità del 50% che il quarto salga di testa, e una probabilità del 50% che il nichel arrivi di testa. Se la possibilità di arrivare entrambi in testa fosse la somma, ciò comporterebbe una probabilità del 100%, il che è ovviamente sbagliato, in quanto non lascia alcuna possibilità per HT, TH e TT.

Perché moltiplicarsi?

Perché non ha senso. Quando si moltiplica la probabilità del 50% di un quarto di testa in testa per il 50% di probabilità che il nichel si presenti in testa, si ottiene 0,5 x 0,5 = 0,25 = 25% di probabilità che entrambe le monete siano teste. Dato che ci sono quattro possibili combinazioni (HH, HT, TH, HT) e ognuna è ugualmente probabile, questo si adatta perfettamente. Nel valutare la probabilità che si verifichino due eventi indipendenti, moltiplichiamo le loro probabilità individuali.


2

Sto leggendo questi post perché, come il poster originale, la mia necessità è capire perché il " Probabilità " fn è il " Prodotto " della densità di ciascun valore del campione - " x ". Un motivo logico e leggibile viene fornito sotto l'intestazione Principio di massima verosimiglità Rif: [ http://www-structmed.cimr.cam.ac.uk/Course/Likelihood/likelihood.html] Un'ulteriore citazione Matematicamente, la probabilità è definita come la probabilità di effettuare l'insieme di misurazioni (stesso riferimento) In breve, la probabilità che tu sia arrivato al campione che hai a portata di mano.


0

L'obiettivo del metodo della massima verosimiglianza è trovare uno stimatore che massimizzi la probabilità di osservare determinati valori della variabile (variabile endogena). Questo è il motivo per cui dobbiamo moltiplicare le probabilità di occorrenza.

Ad esempio: immagina che il numero di chiamate telefoniche a cui un segretario può rispondere in un'ora segue una distribuzione poisson. Quindi, si estraggono 2 valori del campione (5 telefonate e 8 telefonate all'ora) Ora è necessario rispondere a questa domanda. Qual è il valore del parametro che massimizza la probabilità di osservare 5 e 8 telefonate contemporaneamente ?. Dopo, prova a rispondere con la probabilità di osservare tutti i valori del sam

A causa delle variabili casuali indipendenti,

f (y1 = 5 chiamate) * f (y2 = 8 chiamate) = ∏if (y, θ) = L (θ, y1, y2)

Infine, prova a rispondere, la probabilità di osservare tutti i valori del campione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.