Sannolikheten för att ett slumpat värde är större än ett annat

Min rubrik är kanske inte klockren, men det jag undrar är följande:

Jag har två slumpgeneratorer som kastar ur sig värden vilka är normalfördelade. Slumpgenerator nr 1 har visat sig ge ett väntevärde på 200 och en standardavvikelse på 10 (dvs 5% spridning). Generatorn nr 2 har visat sig ge ett väntevärde på 350 och denna har 10% spridning (dvs sigma=35).

Jag undrar nu vad sannolikheten är att generator nr 1 ger ett värde som är lika med eller större än det som ges av nr 2 om jag bara kör varje generator en gång, dvs bara ett enda värde ges av varje generator. De är oberoende av varandra ska jag väl tillägga. Hur räknat jag ut detta? Hur ser det analytiska uttrycket ut? Jag hade för mig att det var något i stil med

P = integral( f(x)*integral(g(x)dx )dx där "f" är normalfördelningsfunktionen för generator nr 1 och "g" är för generator nr 2. Men jag får inget vettigt ur detta. Är det fel eller sätter jag integrationsgränserna fel?

Tack!

Titta på differensen generator 1 - generator 2. Vilken fördelning har den?

Hm ja jag antar att det den också är normalfördelad? Men egentligen skulle jag vilja lösa det med ett analytiskt uttryck så att man kan ha med olika fördelningar. T.ex om f är lognormalfördelad och g är normalfördelad, eller vad som helst.

Hej Wille,

Om X och Y båda är kontinuerliga slumpvariabler med samma värdemängd ( $D$ ) så beräknas den sökta sannolikheten som

$P(X>Y) =\int_{y\in D}P(X>y | Y=y)f_{Y}(y)\,dy$

Om slumpvariablerna dessutom är oberoende är $P(X>y|Y=y) = P(X>y) = 1-F_{X}(y)$ vilket ger

$P(X>Y) = \int_{y\in D}(1-F_{X}(y))f_{Y}(y)\,dy = 1-\int_{y\in D}F_{X}(y)f_{Y}(y)\,dy,$

där $f_{Y}$ betecknar täthetsfunktionen för $Y$ och $F_{X}$ betecknar fördelningsfunktionen för $X$ .

Notera att beräkningen inte behöver att $X$ och $Y$ har samma värdemängd $D$ , utan endast att värdemängden för $Y$ är en delmängd av värdemängden för $X$ ,

$D_{Y} \subseteq D_{X}.$

Om de kontinuerliga slumpvariablerna $X$ och $Y$ är beroende så behöver du känna till deras gemensamma täthetsfunktion ( $f_{(X,Y)}$ ) för att kunna beräkna den sökta sannolikheten, som är en dubbelintegral över området $E$

$P(X>Y) = \iint_{E}f_{(X,Y)}(x,y)\,dxdy$

där $E=\{(x,y)\in D_{X}\times D_{Y} : x>y\}.$

@Albiki tack för svaret! Ditt uttryck 1-integral Fx(y)*fy(y)dy, är inte det egentligen det jag skrev i min text? Bortsett från "1-" då.

Fx är väl den kumulativa sannolikheten för fördelningen för ökande y? Alltså Fx(y)=integral (fx(y))dy? Dvs jag kommer stå med två integraler som skall lösas. Vad sätter jag integrationsgränserna till för att det ska bli rätt?

Hej,

Integralen $\int_{D}F_{X}(y)f_{Y}(y)\,dy$ är lika med sannolikheten $P(X \leq Y)$ , vilket är sannolikheten för komplementhändelsen till $X > Y$ ; du ville ju veta sannolikheten att enda variabeln är större än den andra.

Man säger inte att $F_X$ är den kumulativa sannolikheten för fördelningen för ökande y. Funktionen $F_X$ är den kumulativa fördelningen för $X$ , eller kortare: Fördelningsfunktionen för $X$ .

Albiki skrev:
Hej,
Integralen $\int_{D}F_{X}(y)f_{Y}(y)\,dy$ är lika med sannolikheten $P(X \leq Y)$ , vilket är sannolikheten för komplementhändelsen till $X > Y$ ; du ville ju veta sannolikheten att enda variabeln är större än den andra.

Absolut, du har rätt. Så utrycket involverar två integraler. fx kommer bli integrerat två gånger och fy en gång. Men, givet vad jag skrivit i min text, vad skall nu integrationsgränserna sättas till?

Vad gäller "integrationsgränserna" så ges de av området $D$ ; det är inte säkert att $D$ är en rektangel, vilket är vad du antyder när du pratar om integrationsgränser. Kom ihåg att vi arbetar med en dubbelintegral över ett område i planet och detta område behöver inte vara en rektangel.

Det vore skönt om $D$ var en rektangel och det kanske går att finna en bijektiv transformation av $D$ som ger en rektangel, men det är ett separat problem som behöver lösas innan sannolikheten kan beräknas.

Ok... Tack för era svar. Det verkar som om jag får göra som Dr. G föreslog.

$x = \frac{μ_{1} - μ_{2}}{\sqrt{{σ_{1}}^{2} + {σ_{2}}^{2}}} = - 4.1208$

Den standardiserade normalfördelningsfunktionen ger sannolikheten som

$Φ (x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{x} e^{- \frac{t^{2}}{2}} d t =$ 1.8535e-05

Dvs ca 2 på 100 000 att generator nr1 ger ett större värde än generator nr2 på ett försök.

Om $X$ är normalfördelad med väntevärde $\mu_{X}$ och varians $\sigma_{X}^2$ och oberoende av $Y$ som är normalfördelad med väntevärde $\mu_{Y}$ och varians $\sigma_{Y}^2$ så är differensen $X-Y$ normalfördelad $N(\mu_{X}-\mu_{Y},\sigma_X^{2}+\sigma_Y^2)$ , vilket medför att den standardiserade differensen $Z$ är normalfördelad $N(0,1)$ där

$Z=\frac{(X-Y)-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2+\sigma_Y^2}}.$

Den sökta sannolikheten kan då beräknas som

$P(X>Y) = P(X-Y>0) = P\left(Z>\frac{0-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2+\sigma_Y^2}}\right)=1-\Phi\left(-\frac{\mu_X-\mu_Y}{\sqrt{\sigma_X^2+\sigma_Y^2}}\right)$

där $\Phi$ betecknar fördelningsfunktionen för N(0,1)-fördelningen.

Om $\mu_X=200$ och $\sigma_X=10$ samt $\mu_Y=350$ och $\sigma_Y=35$ så är det mycket ovanligt att en simulering av $X$ ger ett större värde än en simulering av $Y$ ; sannolikheten för att detta ska uppstå är

$P(X>Y) = 1-\Phi(4.12) \approx 0.$

Svara

Visa senaste svar