2 svar
180 visningar
Ygolopot behöver inte mer hjälp
Ygolopot 215
Postad: 14 dec 2021 11:49 Redigerad: 14 dec 2021 11:49

Maximum a posteriori estimation (MAP), intuition

Hej, har lite svårt att förstå MAP.

Min förståelse för MLE är givet att vi har data från en speciel distribuiton som vi vet exakt sånär som på ett parametervärde, så vill vi beräkna det parametervärde som gör det observerade utfallet så sannolikt som möjligt.

Jag förstår även att givet definitionen av betingade fördelningar: fX|Y(x|y)=fX,Y(x,y)fY(y)

Kan man lätt skriva om det till:

fY|X(y|x)=fY,X(y,x)fX(x)={fY,X(y,x)=fX|Y(x|y)fY(y)} =fX|Y(x|y)fY(y)fX(x)

Om vi antar att x = (x_1,...,x_n) är data från en fördelning med en parameter y, då ska man i MAP beräkna:

yMAP=arg maxyfX|Y(x|y)fY(y)fX(x)

Men från här och framåt förstår jag inte riktigt.

1. Jag förstår inte logiken varför vi ska maximera, jag vet att vi kan exkludera nämnaren då den inte innehåller y, jag tycker fortfarande det är logiskt att maximera likelihood-funktionen som är en del i täljaren men varför letar vi max i uttrycket f_Y(y) och vad säger produkten oss egentligen?

2. Kan jag använda parametervärdet y_MAP precis som om det vore genererat från momentmetoden, least square eller MLE eller säger det något annat? Jag förstår såklart att bakgrunden till hur vi fick fram y_MAP är annorlunda men när jag använde MM, LSQ och MLE så var det hela tiden för att härleda ett utryck för estimatorn till den givna fördelningen, där jag sen givet utfallet på ett slumpmässigt stickprov fick ett estimerat värde för en eller flera parametrar vilka sedan hjälpte mig bestämma den exakta (estimerade) fördelningen, fungerar det annorlunda här?

Tack på förhand!

Smutsmunnen Online 1054
Postad: 14 dec 2021 17:21

Alltså ett kortfattat svar är att i MAP (och generellt i Bayesianska metoder) så betraktas parametervärdet som en slumpvariabel.

Antag exempelvis att en längdhoppare hoppar 8.52, 8.37, 8.48 i tre hopp. Vi kan anta att längden på hoppen beror på någon parameter theta ( längdhopparens förmåga eller något sådant). I MLE-skattning betraktar vi denna parameter som en konstant. I MAP tänker vi oss att den i sig är stokastiskt, theta är exempelvis en normalfördelad variabel (längdhopparens dagsform är i sig en stokastisk variabel). 

Så den marginella fördelningen av Y ingår i vårt optimeringsproblem, vi antas ha någon typ av förkunskap om parametern theta (exvis från att ha observerat längdhopparen förut). 

Så resultatet skiljer sig från ex MLE eller momentmetoden, för vi skattar inte en konstant utan mode (kontinuerlig motsvarighet till ett typvärde) av en fördelning.

Men jag är inte säker på att det där var en så bra förklaring, du behöver troligen titta på ett ordentligt exempel där man tillämpar detta. 

Ygolopot 215
Postad: 16 dec 2021 08:09

Tack så jättemycket för svaret! Förstår bättre nu :)

Jag tänkte först inkludera ett exempel med nomral data och normal prior men visste inte helt hur jag skulle presentera det. Men har nu förstått det här samt poängen med conjugate priors efter att ha försökt mig på en del härledningar själv.

Svara
Close