Maximum a posteriori estimation (MAP), intuition

Hej, har lite svårt att förstå MAP.

Min förståelse för MLE är givet att vi har data från en speciel distribuiton som vi vet exakt sånär som på ett parametervärde, så vill vi beräkna det parametervärde som gör det observerade utfallet så sannolikt som möjligt.

Jag förstår även att givet definitionen av betingade fördelningar: $f_{X | Y} (x | y) = \frac{f_{X, Y} (x, y)}{f_{Y} (y)}$

Kan man lätt skriva om det till:

$f_{Y | X} (y | x) = \frac{f_{Y, X} (y, x)}{f_{X} (x)} = {f_{Y, X} (y, x) = f_{X | Y} (x | y) f_{Y} (y)} = \frac{f_{X | Y} (x | y) f_{Y} (y)}{f_{X} (x)}$

Om vi antar att x = (x_1,...,x_n) är data från en fördelning med en parameter y, då ska man i MAP beräkna:

$y_{M A P} = a r g m a x_{y} (\frac{f_{X | Y} (x | y) f_{Y} (y)}{f_{X} (x)})$

Men från här och framåt förstår jag inte riktigt.

1. Jag förstår inte logiken varför vi ska maximera, jag vet att vi kan exkludera nämnaren då den inte innehåller y, jag tycker fortfarande det är logiskt att maximera likelihood-funktionen som är en del i täljaren men varför letar vi max i uttrycket f_Y(y) och vad säger produkten oss egentligen?

2. Kan jag använda parametervärdet y_MAP precis som om det vore genererat från momentmetoden, least square eller MLE eller säger det något annat? Jag förstår såklart att bakgrunden till hur vi fick fram y_MAP är annorlunda men när jag använde MM, LSQ och MLE så var det hela tiden för att härleda ett utryck för estimatorn till den givna fördelningen, där jag sen givet utfallet på ett slumpmässigt stickprov fick ett estimerat värde för en eller flera parametrar vilka sedan hjälpte mig bestämma den exakta (estimerade) fördelningen, fungerar det annorlunda här?

Tack på förhand!

Alltså ett kortfattat svar är att i MAP (och generellt i Bayesianska metoder) så betraktas parametervärdet som en slumpvariabel.

Antag exempelvis att en längdhoppare hoppar 8.52, 8.37, 8.48 i tre hopp. Vi kan anta att längden på hoppen beror på någon parameter theta ( längdhopparens förmåga eller något sådant). I MLE-skattning betraktar vi denna parameter som en konstant. I MAP tänker vi oss att den i sig är stokastiskt, theta är exempelvis en normalfördelad variabel (längdhopparens dagsform är i sig en stokastisk variabel).

Så den marginella fördelningen av Y ingår i vårt optimeringsproblem, vi antas ha någon typ av förkunskap om parametern theta (exvis från att ha observerat längdhopparen förut).

Så resultatet skiljer sig från ex MLE eller momentmetoden, för vi skattar inte en konstant utan mode (kontinuerlig motsvarighet till ett typvärde) av en fördelning.

Men jag är inte säker på att det där var en så bra förklaring, du behöver troligen titta på ett ordentligt exempel där man tillämpar detta.

Tack så jättemycket för svaret! Förstår bättre nu :)

Jag tänkte först inkludera ett exempel med nomral data och normal prior men visste inte helt hur jag skulle presentera det. Men har nu förstått det här samt poängen med conjugate priors efter att ha försökt mig på en del härledningar själv.

Svara