Normalapproximation av Binomialfördelning och att skapa konfidensintervall

Hej, om jag har n st slumpvariabler Y_i, i = 1, ..., n och dom kommer från en normalfördelning där alla har samma väntevärde och varians så ger ju ML (och även moment och minsta-kvadrat) att en väntevärdesriktig skattning av väntevärdet är medelvärdet av givna slumpvariabler. Om vi dessutom känner till variansen (som är samma för alla slumpvariabler) gäller det att:

$μ * = \frac{Y_{1} + . . . + Y_{n}}{n} = \bar{Y} ~ N (μ, σ^{2} / n)$

Standardiseras med:

$R_{μ} = \frac{\bar{Y} - μ}{\frac{σ}{\sqrt{n}}} ~ N (0, 1)$

När vi har en binomialfördelning med X ~ Bin(n,p) för stort n kan jag använda normalapproximation s.a X ~ N(np, np(1-p))

Men ifall jag har ett stickprov där jag vet att mitt stickprov på n observationer kommer från Bin(n,p) och därför vet att jag kan approximera fördelningen med normalfördelningen likt ovan så får jag lite problem att förstå standardiseringen.

ML ger skattning, x = antal lyckade utfall, att p* = x/n. Så p* är slumpvariabeln X/n ~ N(p, p(1-p)/n)

Men när jag ska standardisera detta tänker jag att följande ska gälla:

$R_{p} = \frac{p * - p}{\sqrt{\frac{p (1 - p)}{n}}} ~ N (0, 1)$

Men det gäller tydligen att:

$R_{p} = \frac{p * - p}{\sqrt{\frac{p * (1 - p *)}{n}}} ~ N (0, 1)$

Hur kommer sig detta? Nu standardiserar vi ju inte slumpvariabeln längre genom att använda den varians och det väntevärde vi vet gäller utan nu sker detta med skattat värde som i sig är en slumpvariabel så hur vet vi att detta blir N(0,1)? Jag kan inte dra mig till minnes att uttryck på ovan form, där förvisso alla slumpvariabler är normalfördelade, garanterat också skulle bli normalfördelat. (vet såklart att det gäller linjärkombinationer av slumpvariabler osv)

Tack på förhand! :)

Vill bara förtydliga min fråga:

Allmänt gäller att för alla slumpvariabler X man gör följande med: $\frac{X - μ}{σ} = Y$ , ger ett Y med 1 i std och 0 i mu.

Så vet vi den sanna variansen sigma och vet att X ~N(mu, (sigma^2)/n) så blir ju fördelningen för R:

$R_{μ} = \frac{\bar{X} - μ}{\frac{σ}{\sqrt{n}}} ~ N (0, 1)$

Men när vi inte vet den sanna variansen och estimerar den med stickprovsvariansen så får vi ju en slumpvariabel i nämnaren med en egen fördelning som påverkar fördelningen för R. Stickprovsvariansen med viss modifikation visar sig ha Chitvåfördelning och det visar sig sen att en variabel med standardiserad normalfördelning delat på ett visst sätt med en variabel Y med chitvåfördelning ger ett R som har t-fördelning.

Så det jag undrar här är: När vi har fördelningen p* ~ N(p, p(1-p)/n) och inte känner till variansen och måste estimera den med den normalfördelade variabeln p*, vilket leder till att vi har slumpvariabler även i nämnaren när vi ska standardisera, vad är det då som garanterar att R fortfarande är normalfördelat och i synnerhet vad är det som garanterar R_p ~ N(0,1)?

$R_{p} = \frac{p * - p}{\sqrt{\frac{p * (1 - p *)}{n}}}, p * ~ N (p, \frac{p (1 - p)}{n})$

Var har du läst/sett/hört detta? Jag håller spontant med dig om att standardiseringen ska vara med p, inte p*

På bilden är sida 348 i Tom Britton och Sven Erick Alms bok Stokastik. Det är framförallt framtagandet av konfidensintervallet jag tänker på. Risken är stor att jag missuppfattat författarna, men jag tänker att man har gjort följande:

Man har utgått från att följande stämmer:

$R_{p} = \frac{p * - p}{\sqrt{\frac{p * (1 - p *)}{n}}} ~ N (0, 1)$

Och sen fått för t.ex 95% konfidensnivå:

$95 % = P (- 1.96 < R_{p} < 1.96) = P (- 1.96 < \frac{p * - p}{\sqrt{\frac{p * (1 - p *)}{n}}} < 1.96)$

= $P (- 1.96 * \sqrt{\frac{p * (1 - p *)}{n}} < p * - p < 1.96 * \sqrt{\frac{p * (1 - p *)}{n}})$

= $P (p * - 1.96 * \sqrt{\frac{p * (1 - p *)}{n}} < p < p * + 1.96 * \sqrt{\frac{p * (1 - p *)}{n}})$

All detta fungerar ju om R verkligen är N(0,1), men det är det jag inte hänger med på riktigt.

Okej, det här med hypotesprövning har alltid varit min akilleshäl, men p* är väl bara ML-skattningen av p, så det är vad du stoppar in för att beräkna ditt konfidensintervall? Något värde måste du ju ha?

Jo så är det, alla tre skattningar jag har lärt mig Minsta-kvadrat, Maximum Likelihood, och Moment ger p*(X) = X/n som blir den relativa frekvensen. Men det här gör ju att p*(X) ju är en slumpvariabel.

Men som du säger, något värde måste jag ju ha hehe. Men jag tänker att det logiska hade varit att på något sätt lösa ut p och aldrig använda mig av p* i nämnaren då det, i min värld, borde rubba fördelningen

Svara

Visa senaste svar