Bayesiansk inferens
Hej!
Vi har ett avsnitt i statisk kursen som handlar om Bayesiansk inferens och för mig är det bara massa frågetecken i huvudet. Begrepp som har nämnts under föreläsningen är apriorifördelning, datafördelning, marginalfördelning, aposteriorifördlening , konjugerade apriorifördelning och konjugatfamiljer. Så jag undrar om någon kan förklara dessa begrepp och teorin som man bör kunna för att förstå detta avsnitt.
Jag har också kollat på youtube klipp och sökt om detta på nätet, men polletten har inte trillat ner riktigt, så om det finns bra hemsidor eller videos som kan vara till hjälp så kan ni jätte gärna länka dem.
Någon annan än jag ska nog svara på detta. Men grunden för det hela tror jag är de så kallade subjektiva sannolikheterna.
Klassisk sannolikhet bygger på t ex en tärning. Det finns ingen perfekt tärning, så vi hittar på en idealiserad tärning som har precis samma sannolikhet att få trea som femma osv. Med den kan vi bygga en modell och beräkna sannolikheten att få två sexor om vi kastar tärningen tio gånger. Exakt.
Men i verkligheten ställs vi inför andra svårigheter. Vad är sannolikheten att X vinner över Y i Bombardiets nästa val. Det går inte att göra om valet hundra gånger och se i hur många val X vann. Men vi talar likafullt om sannolikhet i sådana situationer.
Ett sätt att nalkas problemet är att tala med experter på bombardisk politik och be dem ange vilka odds de skulle acceptera för att satsa på att X vinner:
Skulle du satsa 100 kronor på X om någon annan satsar
50 kr? Nej
100 kr? Nej
200 kr? Ja
150 kr? Nej
175 kr? Nja, kanske.
Ifall experten är kunnig så har vi kommit fram till oddset 1:1,75. Ur oddset beräknar vi den subjektiva sannolikheten att X vinner till 1/(1+1,75) ≈ 0,36.
Nu vet du lika mycket som jag i dessa frågor. Inte mycket, det medges. Men om ingen annan kommenterar, kanske i alla fall en liten plattform att bygga vidare från.
Jag vet inte om det går att gå igenom allt i ett inlägg, men jag vill påpeka att tidigare när du lärt dig statistik har du (antagligen omedvetet) antagit att parametrarna i en modell är fixa, men okända. Exempelvis, medelvärdet för antalet timmar idrott som svenska 15-åringar utövar varje vecka är fixt. Sedan tänker vi oss att vi kan samla in data (genom att exempelvis fråga 15-åringar hur mycket de idrottar), och denna data kommer från en fördelning med denna fixa parameter och vi använder den för att skatta vad den verkliga parametern är.
I bayesiansk statistik gäller det omvända: vi tänker oss att parametrarna i sig är slumpvariabler (och datan är fix, vi har vad vi har). Det gör att vi, precis som Mogens säger, kan definiera en fördelning för en parameter som reflekterar vad vi på förhand (a priori) tror om om parametern. Denna fördelning kallas a priori-fördelning .
Sedan kan vi få in information från vår data med hjälp av Bayes sats, genom att kombinera vår a priori-fördelning med en likelihood (samma som du sett när du gjort exempelvis maximum likelihood-skattningar) och resultatet blir en a posteriori-fördelning . Dvs, hur ser fördelningen av vår parameter ut efter (a posteriori) vi har sett data?
Notera att detta är väsentligt skiljt från det du sett tidigare, eftersom nu har vi en fördelningen av parametern, och det går bra att svara på frågor som ”vad är sannolikheten att parametern antar ett värde mellan a och b”?
Bra formulerat
Tack så mycket för era svar. Av det som jag har förstått så kan man använda bayes sats för att få fram posteriori-fördelningen, där en likelihood och vår a priori-fördelningen är täljaren i satsen. Jag antar att a priori-fördelningen brukar vara angiven i uppgifter, men hur räknar man ut likelihood (data fördelningen)?
Becky skrev:Tack så mycket för era svar. Av det som jag har förstått så kan man använda bayes sats för att få fram posteriori-fördelningen, där en likelihood och vår a priori-fördelningen är täljaren i satsen. Jag antar att a priori-fördelningen brukar vara angiven i uppgifter, men hur räknar man ut likelihood (data fördelningen)?
Du får skilja på likelihooden och datafördelningen. Datafördelningen är exempelvis normalfördelningen, binomial-fördelningen eller liknande. Det är den fördelning som din data antas följa. Likelihooden beräknar du sedan beroende på datafördelningen. Om du inte kommer ihåg hur man gör det får du gå tillbaka till när du gjorde maximum likelihood-skattningar
Jag läser själv samma kurs (tror jag) och hittade lite vettig information här:
https://www.ida.liu.se/~732G43/Moment_1b.pdf
Men det är riktigt klurigt att räkna på i uppgifter enligt mig.