Statistik

Hej =)

Jag har inte riktigt fått till detta med "vad är sannolikheten för att minst...". Därför har jag ett exempel, där jag fått fel:

Uppgift:

En forskare har konstruerat konfidensinervall för 13 olika okända konstanter. Varje intervall har konfidensgrad 90 % och de olika intervallen härrör från av varandra oberoende mätserier. Vad är sannolikheten att minst 10 av de 13 intervallen täcker den konstant för vilken intervallet konstruerats? Svara i procent med minst två decimaler.

-------

Lite olika sätt jag har attackerat denna uppgift:

sätt 1)

Om sannolikheten att en konstant är där i serien, samt att serierna är oberoende måste sannolikheten för att det minst finns i 10 av de 13: p(minst 10 av 13) = p(finns i 10st) eller p(finns i 11st)+...+ eller p(finns i 13st) = $0 . 9^{10} \times 0 . 9^{11} \times 0 . 9^{12} \times 0 . 9^{13}$

Det blev dock fel. (Blev någorlunda rätt om jag körde från 10-12, och inte 13??)

--------

sätt 2)

Annars tänker jag komplementhändelser.

p(finns i minst 10) = 1-p(finns max i 9)=1-( $0 . 9^{1} \times 0 . 9^{2} \times . . . \times 0 . 9^{9}$ ).. blir också fel, men får typ samma svar om jag tar bort den sista faktorn..

------

sätt 3)

Tredje och kanske mest logiska sättet jag tänker är binomialfördelning. Detta för att vi har ett gäng oberoende mätserier. Däremot är jag bara osäker nu efter alla fel hur jag ska sätta upp detta.

Vad är bäst att göra och varför är mitt tankesätt fel?

Jag ger två olika kommentarer av olika typ, den första pragmatisk, den andra principiell.

Den pragmatiska: Du har helt korrekt metod för att beräkna sannolikheten men har beräknat sannolikheterna fel. Så du borde först ställa frågan: vad är sannolikhetsfördelningen här?

Men sen principiellt: jag funderar lite på var den här uppgiften kommer ifrån, den är felformulerad på en nivå som känns som att någon missförstått grundläggande saker inom sannolikhetsteori. Egentligen kan vi inte tala om några sannolikheter här, det finns nämligen inga slumpvariabler. Antingen ligger konstanten i intervallet eller inte, här finns ingen slump.

Det här sammanhänger med en fundamental missuppfattning som är ganska vanlig, nämligen att om man konstruerar ett 90%-konfidensintervall för en okänd parameter utifrån en viss uppsättning data som man antar är iid realiseringar av en slumpvariabel så är det 90% chans att konfidensintervallet täcker parametern. Det är det inte. Det finns ingen slump kvar i den situationen och intervallet antingen täcker parametern eller ej.

Däremot: om vi har många realiseringar en slumpvariabel, säg att vi kan producera hur många samples vi vill av data enligt en viss fördelning vara väntevärde vi vill skatta och för var och en av dessa samples bildar ett 90%-igt konfidensintervall: då kommer i längden proportionen av intervall som täcker väntevärdet att gå mot 90%.

Alternativt kan vi formulera oss så här: om vi skulle generera ett sample från en viss fördelning och sedan bilda ett konfidensintervall för fördelningens väntevärde så skulle sannolikheten att intervallet täcker väntevärdet vara 90%.

Men med fix data så är konstruktionen av konfidensintervallen deterministisk, inte stokastisk och ingen slump är öht inblandad i frågan om intervallet täcker parametern och man kan därför inte prata om någon sannolikhet.

Smutsmunnen skrev:
Jag ger två olika kommentarer av olika typ, den första pragmatisk, den andra principiell.

Den pragmatiska: Du har helt korrekt metod för att beräkna sannolikheten men har beräknat sannolikheterna fel. Så du borde först ställa frågan: vad är sannolikhetsfördelningen här?

Men sen principiellt: jag funderar lite på var den här uppgiften kommer ifrån, den är felformulerad på en nivå som känns som att någon missförstått grundläggande saker inom sannolikhetsteori. Egentligen kan vi inte tala om några sannolikheter här, det finns nämligen inga slumpvariabler. Antingen ligger konstanten i intervallet eller inte, här finns ingen slump.

Det här sammanhänger med en fundamental missuppfattning som är ganska vanlig, nämligen att om man konstruerar ett 90%-konfidensintervall för en okänd parameter utifrån en viss uppsättning data som man antar är iid realiseringar av en slumpvariabel så är det 90% chans att konfidensintervallet täcker parametern. Det är det inte. Det finns ingen slump kvar i den situationen och intervallet antingen täcker parametern eller ej.

Däremot: om vi har många realiseringar en slumpvariabel, säg att vi kan producera hur många samples vi vill av data enligt en viss fördelning vara väntevärde vi vill skatta och för var och en av dessa samples bildar ett 90%-igt konfidensintervall: då kommer i längden proportionen av intervall som täcker väntevärdet att gå mot 90%.

Alternativt kan vi formulera oss så här: om vi skulle generera ett sample från en viss fördelning och sedan bilda ett konfidensintervall för fördelningens väntevärde så skulle sannolikheten att intervallet täcker väntevärdet vara 90%.

Men med fix data så är konstruktionen av konfidensintervallen deterministisk, inte stokastisk och ingen slump är öht inblandad i frågan om intervallet täcker parametern och man kan därför inte prata om någon sannolikhet.

Alright. Intressant!

Apropå sannolikhetsfördelning, det lär väl vara binominalfördelat pga oberoende upprepade försök?

Japp det blir binomialfördelat.

Så givet att det är binomialfördelat hur stora är p(finns i 10), p(finns i 11), p(finns i 12), p(finns i 13)? Sedan är det bara att addera.

PS Jag vill uppriktigt veta var uppgiften är ifrån , kommer den från en lärobok ska jag mejla dem.

Det var inte från någon lärobok, utan från en quiz i en kurs jag läser =)

Jag ska testa med binominal då.

Smutsmunnen skrev:
Jag ger två olika kommentarer av olika typ, den första pragmatisk, den andra principiell.

Den pragmatiska: Du har helt korrekt metod för att beräkna sannolikheten men har beräknat sannolikheterna fel. Så du borde först ställa frågan: vad är sannolikhetsfördelningen här?

Men sen principiellt: jag funderar lite på var den här uppgiften kommer ifrån, den är felformulerad på en nivå som känns som att någon missförstått grundläggande saker inom sannolikhetsteori. Egentligen kan vi inte tala om några sannolikheter här, det finns nämligen inga slumpvariabler. Antingen ligger konstanten i intervallet eller inte, här finns ingen slump.

Det här sammanhänger med en fundamental missuppfattning som är ganska vanlig, nämligen att om man konstruerar ett 90%-konfidensintervall för en okänd parameter utifrån en viss uppsättning data som man antar är iid realiseringar av en slumpvariabel så är det 90% chans att konfidensintervallet täcker parametern. Det är det inte. Det finns ingen slump kvar i den situationen och intervallet antingen täcker parametern eller ej.

Däremot: om vi har många realiseringar en slumpvariabel, säg att vi kan producera hur många samples vi vill av data enligt en viss fördelning vara väntevärde vi vill skatta och för var och en av dessa samples bildar ett 90%-igt konfidensintervall: då kommer i längden proportionen av intervall som täcker väntevärdet att gå mot 90%.

Alternativt kan vi formulera oss så här: om vi skulle generera ett sample från en viss fördelning och sedan bilda ett konfidensintervall för fördelningens väntevärde så skulle sannolikheten att intervallet täcker väntevärdet vara 90%.

Men med fix data så är konstruktionen av konfidensintervallen deterministisk, inte stokastisk och ingen slump är öht inblandad i frågan om intervallet täcker parametern och man kan därför inte prata om någon sannolikhet.

Jag håller med dig om vad för tolkning man inte kan göra för ett konstruerat intervall (vilket också finns dokumenterat här på pluggakuten…)

Men problemet i uppgiftens formulering är väl då att man säger ”har konstruerat”? Hade man istället sagt ”ska konstruera” eller liknande, då hade väl frågan funkat?

Ja precis, när man "har konstruerat" så finns ingen slump med i bilden.

Hade man istället skrivit "ska konstruera" så hade det lämnat frågan öppen lite grann, det viktiga är egentligen inte tidsaspekten, utan huruvida datan är fix eller stokastisk. Om vi har en viss uppsättning data då är det ingen skillnad på "har konstruerat" och "ska konstruera", konstruktionen av konfidensintervallet är ju deterministisk, givet data är ingen slump alls inblandat. Om "ska konstruera" innefattar inhämtning av randomiserad data, typ "Vi ska konstruera ett konfidensintervall genom att vi slår tärningen 100 gånger och sen ser vi om 3,5 ligger i konfidensintervallet för väntevärdet" då är det helt korrekt att prata om sannolikheter. Intervallgränserna är då funktioner av de slumpmässiga tärningsslagen och därför själva också slumpvariabler.

Alternativt kan man som sagt tolka konfidensgraden som långsiktig andel men det är ju inte samma sak som sannolikhet för ett enskilt intervall.

Men ja hade det stått "ska konstruera" så hade jag aldrig reagerat.

Smutsmunnen skrev:
Ja precis, när man "har konstruerat" så finns ingen slump med i bilden.

Hade man istället skrivit "ska konstruera" så hade det lämnat frågan öppen lite grann, det viktiga är egentligen inte tidsaspekten, utan huruvida datan är fix eller stokastisk. Om vi har en viss uppsättning data då är det ingen skillnad på "har konstruerat" och "ska konstruera", konstruktionen av konfidensintervallet är ju deterministisk, givet data är ingen slump alls inblandat. Om "ska konstruera" innefattar inhämtning av randomiserad data, typ "Vi ska konstruera ett konfidensintervall genom att vi slår tärningen 100 gånger och sen ser vi om 3,5 ligger i konfidensintervallet för väntevärdet" då är det helt korrekt att prata om sannolikheter. Intervallgränserna är då funktioner av de slumpmässiga tärningsslagen och därför själva också slumpvariabler.

Alternativt kan man som sagt tolka konfidensgraden som långsiktig andel men det är ju inte samma sak som sannolikhet för ett enskilt intervall.

Men ja hade det stått "ska konstruera" så hade jag aldrig reagerat.

Tack för det :)

Svara

Visa senaste svar