Fundamentet inom statistik, men räcker inte hela vägen - Statistik

Mitt försök: Jag utgår från att det är en binomialfördelning. Antingen lyckas den eller så misslyckas den med sannolikheterna p respektive 1-p. Kollar om CGS är möjlig genom att testa:

Preparat A: Skattar misslyckade behandlingar: $\overset{⏜}{p_{A}} = \frac{28}{72}$ . Där np(1-p) är 17.11 vilket är stort nog för normalapproximation.

$\overset{⏜}{p_{B}} = \frac{19}{71}$ och np(1-p) är 13.92 vilket är stort nog för normalapproximation:

Statisk modell: $X_{A} \in B i n (72, p_{A}) o c h Y_{B} \in B i n (71, p_{B})$

Nollhypotes: $H 0 : ∆ = p_{B} - p_{A} = 0 H a : ∆ = p_{B} - p_{A} n o t e q u a l t o 0$

Test: $t = \frac{\overset{⏜}{∆} - 0}{σ / \sqrt{n}}$

Fatstnar här. Vet inte hur jag ska ta fram sigma. Vet att roten ur n är ju roten ur 143 för 71+72=143

Och vet inte vad jag ska göra med det värdet jag tar fram här, hur jag ska undersöka det? Tänkte testa med alpha = 0.05 men vet inte vad jag ska jämföra det t jag tar fram! Verkar som att jag ska göra en z-test och nite t-test men vet inte varför och hur jag ska hitta sigma!

Tack för hjälpen

Bump

Bumpa inte din tråd förrän det har gått minst 24 timmar utan svar.

Variansen hos en binomialfördelning är np(1-p). Dela variansen i binomialfördelningen för respektive behandlingsmetod med antalet personer som behandlades med metoden. Då får du motsvarande varians i normalfördelningen. Om du lägger ihop dessa varianser så får du variansen hos skillnaden mellan dem. Sesn kan du beräkna standardavvikelsen.

I princip är det inte fel att göra ett t-test istället för z-test. Det är värre att göra ett z-test när du egentligen borde ha gjort ett t-test eftersom du då kommer ge ett för smalt konfidensintervall. Egentligen är det mer korrekt att köra med t-test eftersom populationens standardavvikelse är okänd. Du har ju inte testat alla KOL-patienter som finns, utan bara tagit ett stickprov och använder stickprovets standardavvikelse i dina beräkningar. Om man gör ett z-test är en förutsättning att populationens standardavvikelse är känd, vilket ju faktiskt inte är fallet här. Däremot har du stora stickprov och man brukar säga att om n>30 så är stickprovets avvikelse så pass nära populationens avvikelse att det är ”tillåtet” att använda ett z-test istället för ett t-test. För stora n är de två testtyperna i praktiken identiska.

Om jag alltså adderar n1p1(p1-1) + n2p2(p2-1) så kan jag sätta in det i formeln så har jag rätt svar? Eller är formeln fel?

n=143 och därför är antalet frihetsgrader 142? Hur ska jag sedan veta om jag ska jämföra det "t-värdet" för alpha 0.025 och frihetsgrader 142 eller alpha 0.05 och frihetsgrader 142 ( i formelsamlingen)?

Lite lost på tänket!

För testet med preparat A gäller:

$n_A=72$

$\mu_A=n_Ap_A$

$V_A=n_Ap_A(1-p_A)$

Du har redan konstaterat att vi kan approximera detta med en normalfördelning och då gäller:

$\mu'_A=\mu_A$

$V'_A=\frac {n_Ap_A(1-p_A)}{n_A}$

Gör på motsvarande sätt för preparat B. Sedan har du att:

$V'=V'_A+V'_B$

$\sigma=\sqrt{V'}$

$z = \frac{μ'_{B} - μ'_{A}}{σ}$

(Här har jag använt primtecknet för att beteckna egenskaper hos normalfördelningen)

Varför delar man med nA? Vid skattningen för variansen :(

Annars är jag nog helt med!

Är du med på att standardavvikelsen för normalfördelningen i CGS fås som standardavvikelsen hos den ursprungliga fördelningen delat med roten ur antalet mätningar? Om du kvadrerar båda leden i den formeln så får du att normalfördelningens varians är den ursprungliga variansen delat med antalet mätningar.

Nope. Det där kändes inte som jag förstod särskilt bra..

V'A=nApA(1−pA)nA Det är detta steg jag inte förstår. Varför man delar med n igen.

Centrala gänsvärdessatsen säger att vi kan omvandla standardavvikelsen hos vilken-fördelning-som-helst (märkt 1) till en standardavvikelse i en normalfördelning (märkt 2) på följande sätt:

$\sigma_2=\frac {\sigma_1}{\sqrt{n}}$

Kvadreras båda leden fås

$\sigma^2_2=\frac {\sigma^2_1}{n}$

Standardavvikelsen i kvadrat är samma sak som variansen:

$V_2=\frac {V_1}{n}$

Det är formeln som jag använde. Att varians och stabdardavvikelse blir lägre när man går över till en normalfördelning beror på att man plockar stickprov ur den ursprungliga fördelningen, beräknar provets medelvärde och sedan beräknar frekvensen för de olika medelvärdena som fås fram. Detta ger en normalfördelning och eftersom vi tar medelvärdet av flera observationer blir den totala avvikelsen mindre.

Du kan själv testa detta genom att kasta en tärning. Normalt sett bör det ge dig en likformig fördelning med väntevärdet 3,5. Kastar du ett stort antak kast kan du alltså förvänta dig att medelvärdet blir 3,5 med någon viss spridning. Om du istället gör, låt säga 5-10 kast, beräknar medelvärdet av dessa kast, gör en ny omgång med kast, beräknar medelvärdet osv. så kommer dessa ”medelvärdens medelvärde” fortfarande att vara 3,5 men med betydligt mindre spridning. Dessutom kommer medelvärdena att vara nästan normalfördelade, eller snarare t-fördelade eftersom vi har så pass få kast per medelvärde som vi har beräknat. Detta är CGS i praktiken och formeln ovan beskriver just hur variansen (eller standardavvikelsen) blir lägre.

King

Svara

Visa senaste svar