16 svar

11491 visningar

Konfidensintervall

Kan någon förklara för mig vad är konfidensintervall? Gärna med exempel.

Jag är rätt säker på att man inte behöver lära sig konfidensintervall i matte 1.

Men vi har lärt oss det. Det är den nya kursplanen, förra året hade man inte det.

Konfidensintervall är inte så lätt att greppa vad de faktiskt är. Låt säg att du gör en undersökning, tex, du undersöker hur många timmar i veckan som 15åringar sportar. Du har samlat in data, och beräknar medelvärdet på antalet timmar. Enkelt förklarat kan man säga att om du då beräknar ett konfidensintervall för medelvärdet får du ett mått på hur osäker din skattning är. Om intervallet är väldigt stort betyder det att din skattning är väldigt osäker, men är det ett väldigt litet intervall så har du en väldigt säker skattning.

Mer formellt kan man definiera konfidensintervallet såhär: om du beräknat ett 95-procentigt konfidensintervall betyder det att om du upprepar processen med att samla in data och beräknar konfidensintervall kommer det verkliga medelvärdet att vara inom intervallen i 95 % av fallen. Detta är inte samma sak som att säga att det verkliga medelvärdet med 95 % sannolikhet ingår i ditt konfidensintervall.

Hondel skrev:
Konfidensintervall är inte så lätt att greppa vad de faktiskt är. Låt säg att du gör en undersökning, tex, du undersöker hur många timmar i veckan som 15åringar sportar. Du har samlat in data, och beräknar medelvärdet på antalet timmar. Enkelt förklarat kan man säga att om du då beräknar ett konfidensintervall för medelvärdet får du ett mått på hur osäker din skattning är. Om intervallet är väldigt stort betyder det att din skattning är väldigt osäker, men är det ett väldigt litet intervall så har du en väldigt säker skattning.

Mer formellt kan man definiera konfidensintervallet såhär: om du beräknat ett 95-procentigt konfidensintervall betyder det att om du upprepar processen med att samla in data och beräknar konfidensintervall kommer det verkliga medelvärdet att vara inom intervallen i 95 % av fallen. Detta är inte samma sak som att säga att det verkliga medelvärdet med 95 % sannolikhet ingår i ditt konfidensintervall.

Konfidensintervall är inte alls så krångligt. Det är ett intervall som vi med en viss konfidensgrad (till exempel 99%) kan säga att det verkliga värdet ligger i (så med 99% säkerhet ligger det verkliga värdet i detta intervall) baserat på vår data. Hela det sista avsnittet du skriver är totalt fel.

Däremot är det nu stora problem i Matematik 1 att många av läroböckerna helt missförstått stora delar av Matematisk Statistik på en helt grundläggande nivå. Dessutom högst olämpligt att de slänger in formel för felmarginalen för en normalapproximation för binomialfördelning enligt $1.96 \sqrt{\frac{p (100 - p)}{n}}$ i stället för $1.96 \sqrt{\frac{p (1 - p)}{n}}$ . Dels eftersom det är helt absurt att använda procentenheter i själva beräkningarna, det är en horribel återvändsgata. Men även stor problematik att ha med formeln över huvud taget då de inte alls presenterar vare sig att det är en approximation, approximations begräsningar, essensen av standardavvikelse och heller inte i tillräcklig grad vad det får för effekter och ofta inte ens med tydligt förtydligande att det enbart är just för konfidensgraden 95%.

Allt jag säger i sista avsnitt är fel? Så det är fel att säga att den verkligen parametern kommer ligga i 95 % av de framtida beräknade konfidensintervallen? Och jag har fel när jag säger att om jag beräknat ett konfidensintervall så betyder det inte att med 95 % sannolikhet ligger den verkliga parametern i detta intervall?

Hondel skrev:
Allt jag säger i sista avsnitt är fel? Så det är fel att säga att den verkligen parametern kommer ligga i 95 % av de framtida beräknade konfidensintervallen? Och jag har fel när jag säger att om jag beräknat ett konfidensintervall så betyder det inte att med 95 % sannolikhet ligger den verkliga parametern i detta intervall?

Ja precis. Vad menar du ens med framtida beräknade konfidensintervall? Tolkningen av ett 95% konfidensintervall är exakt det du i din sista mening påstår det INTE är. Men det är lätt att bli förvirrad av detta ibland.

Daniel Pedersen, var hittar du din definition av konfidensintervall? Wikipedia (och jag) håller i alla fall med Hondel, inte dig.

Daniel Pedersen skrev:
Hondel skrev:
Allt jag säger i sista avsnitt är fel? Så det är fel att säga att den verkligen parametern kommer ligga i 95 % av de framtida beräknade konfidensintervallen? Och jag har fel när jag säger att om jag beräknat ett konfidensintervall så betyder det inte att med 95 % sannolikhet ligger den verkliga parametern i detta intervall?

Ja precis. Vad menar du ens med framtida beräknade konfidensintervall? Tolkningen av ett 95% konfidensintervall är exakt det du i din sista mening påstår det INTE är. Men det är lätt att bli förvirrad av detta ibland.

Jag tror faktiskt det är du som blivit förvirrad. Den engelska Wikipedia-sidan listar några vanliga missförstånd, och att tolka ett uträknat konfidensintervall som att det är 95 % sannolikhet att den verkliga parametern ligger i det framräknade intervallet är en av dem.

Jag har i en tidigare tråd länkat denna diskussion.

Det som fick mig att haja till av det som skrivs där är att från en frekventistisk synvinkel så är påståendet ”95 % sannolikhet att parametern ingår i ett intervall” helt omöjligt. I den frekventistiska statistiken så har en parameter ett fixt värde, och att då säga att det är en viss sannolikhet att parametern ligger i ett intervall fungerar helt enkelt inte. Antingen ligger den i intervallet eller ej. Det står också på den engelska Wikipedia.

Hondel skrev:
Daniel Pedersen skrev:
Hondel skrev:
Allt jag säger i sista avsnitt är fel? Så det är fel att säga att den verkligen parametern kommer ligga i 95 % av de framtida beräknade konfidensintervallen? Och jag har fel när jag säger att om jag beräknat ett konfidensintervall så betyder det inte att med 95 % sannolikhet ligger den verkliga parametern i detta intervall?

Ja precis. Vad menar du ens med framtida beräknade konfidensintervall? Tolkningen av ett 95% konfidensintervall är exakt det du i din sista mening påstår det INTE är. Men det är lätt att bli förvirrad av detta ibland.

Jag tror faktiskt det är du som blivit förvirrad. Den engelska Wikipedia-sidan listar några vanliga missförstånd, och att tolka ett uträknat konfidensintervall som att det är 95 % sannolikhet att den verkliga parametern ligger i det framräknade intervallet är en av dem.

Jag har i en tidigare tråd länkat denna diskussion.

Det som fick mig att haja till av det som skrivs där är att från en frekventistisk synvinkel så är påståendet ”95 % sannolikhet att parametern ingår i ett intervall” helt omöjligt. I den frekventistiska statistiken så har en parameter ett fixt värde, och att då säga att det är en viss sannolikhet att parametern ligger i ett intervall fungerar helt enkelt inte. Antingen ligger den i intervallet eller ej. Det står också på den engelska Wikipedia.

När man vill skapa ett konfidensintervall vill man specifikt skapa gränserna så intervallet med en given konfidensgrads sannolikhet innehåller den faktiska okända sannolikheten/andelen. Det är faktiskt exakt den frågan man svarar på när man hittar gränserna på ett konfidensintervall utan normalapproximation.

För ett tvåsidigt konfidensintervall för en binomialfördelning sätter man gränserna specifikt på detta sätt genom att för nedre gränsen hitta "för vilket p blir sannolikheten att vi skulle observera så många eller fler gynnsamma observationer än det vi gjorde exakt $\frac{α}{2}$

där $α$ är 1-konfidensgraden." Om vi till exempel gjort n försök och k är gynnsamma hittar man den nedre gränsen genom att avgöra för vilket p följande gäller $\sum_{j = k}^{n} ((\begin{matrix} n \\ j \end{matrix}) \cdot p^{j} \cdot {(1 - p)}^{n - j}) = α / 2$ samt den övre gränsen för vilket p följande gäller $\sum_{j = 0}^{k} ((\begin{matrix} n \\ j \end{matrix}) \cdot p^{j} \cdot {(1 - p)}^{n - j}) = α / 2$ . Därför sträcker sig ju konfidensintervallet lika långt åt båda håll om och endast om 2k=n, i övrigt blir det enbart symmetriskt av normalapproximationen i sig. Vill du ha korrekta konfidensintervall av binomialfördelningar kan man bland annat få det här: https://www.danielsoper.com/statcalc/calculator.aspx?id=85

Observera att i och med man tar med hela observationen k utanför åt båda sidorna kommer den faktiska sannolikheten att den faktiska sannolikheten/andelen ligger innanför konfidensintervallet faktiskt vara aningen högre än konfidensgraden, men för stora värden på n och i synnerhet k är detta mer eller mindre försumbart. Detta gäller allmänt för konfidensintervall och inte enbart i specialfallet att vi ska prova uttala oss om andelen som besitter en viss egenskap i en större population genom att utföra ett stickprov. Om man normalapproximerar tillkommer ju ytterligare utmaningar naturligtvis.

Konfidensintervall används till väldigt mycket, även om man ofta har en tendens att snöa inne på just stickprovsundersökningar när statistik tidigt presenteras. Att låtsas som konfidensintervall enbart syftar på att skatta andelen som besitter en viss egenskap genom att ha tagit ett stickprov ur en viss population är högst vilseledande. Nu påverkar det inte denna diskussion, men Wikipedia-artikeln är direkt hemsk.

Specificeringen som görs av Smithson som ofta citeras handlar just om stickprov i synnerhet (men även för sannolikhet i allmänhet senare i boken, det stämmer). Man varför görs den? Är det fel att säga att det verkliga värdet med 95% sannolikhet befinner sig innanför konfidensintervallet?

Nej egentligen inte, det beror på hur underförstått man anser det är att den faktiska andelen eller sannolikheten inte är av stokastisk natur i sig själv. Anser man detta måste förtydligas bör omformuleringen som ibland görs göras. Men det är av yttersta vikt att alltid då understryka syftet med omformuleringen, annars riskerar man hamna i en situation där personer felaktigt tror att det är fel att till exempel säga "Det är 99% sannolikhet att vår okända parameter ligger inom konfidensintervallet" utöver att man då "ytterst aningen slarvigt" tilldelar ett fixerat värde en stokastisk natur. Detta är i nästan alla avseenden så fundamentalt underförstått att till exempel antalet som vill rösta på parti A i Sverige just nu är 842472 av 7621444 röstberättigade. Denna andel i sig är ju inte en stokastisk variabel i sig. Det har jag aldrig stött på någon som haft problem med att begripa.

Därav, givet att man önskar att inte låtsas som en fix andel har stokastisk natur undviks det att säga att den reella andelen med konfidensgraden i sannolikhet befinner sig innanför konfidensintervallet. Denna specificering tas ofta helt ur sin kontext då många inte förstår syftet bakom specificeringen. Specificeringen görs alltså för man inte gillar att prata om att en fixerad andel kan variera som en stokastisk variabel. Den görs alltså inte för att det i allmänhet är fel att säga att det är till exempel 99% sannolikhet att den faktiska sannolikheten/andelen befinner sig innanför intervallet. Rent principiellt kunde man också påstå att den verkliga sannolikheten för ett visst utfall (kasta ett konstigt föremål och se hur det landar) också är fixerat och att man även där kan välja att specificera att den faktiska sannolikheten även där är fixerad.

För att sammanfatta, hela idén med att specificera det som att man skapat en procedur som med konfidensgraden i sannolikhet innehåller det verkliga värdet, härstammar i sin helhet från oviljan att temporärt betrakta något fixerat men okänt som en stokastisk variabel.

Därför är det absolut inte fel att säga att ett konfidensintervall med konfidensgraden i sannolikhet innehåller det eftersökta värdet om man förlåter sig för att betrakta en okänd men fixerad andel som en stokastiskt variabel, trots att den egentligen är fixerad. Inte bara är det inte fel, det är mycket lämpligt praktiskt att säga så och att påstå att det är fel är direkt vilseledande och högst pedagogiskt olämpligt. Att påstå det är fel att säga så är direkt kontraproduktivt om man vill lära ut statistik. I synnerhet hur underförstått det är att den faktiska andelen är fixerad och hur få som har problem med att greppa detta. Det är på bakgrund av detta som jag anser att detta är att "krångla till det i onödan."

Diskussionen du länkar till bär prägel av många som diskuterar lite olika saker om varandra.

Smaragdalena skrev:
Daniel Pedersen, var hittar du din definition av konfidensintervall? Wikipedia (och jag) håller i alla fall med Hondel, inte dig.

Hej. Kollade Wikipedia-artikeln nu. Den är utformad som om konfidensintervall enbart görs för stickprovsundersökningar. Märkligt!

Sen när de skriver ''Exempelvis, ett 95 % konfidensintervall för en andel innebär inte att sannolikheten för att populationsandelens värde ska ligga innanför det givna konfidensintervallet är lika med 0,95.'' så visar de tydligt att de inte har förstått syftet till omskrivningen som görs i den källa som de själva citerar.

EDIT: Man kan verkligen förstå att man felaktigt kan dra den slutsatsen om man läser det Michael Smithson skriver. Han är på tok för slarvig med att motivera varför han förespråkar omskrivningen. Av det jag kan se motiveras det aldrig. Ganska hårresande faktiskt. Det är därför väldigt lätt, om man inte tänker sig om, att tro att han på något sätt påstår att sannolikheten att den verkliga andelen/sannolikheten befinner sig innanför konfidensintervallet är något annat värde i det öppna intervallet (0,1) än konfidensgraden (till exempel att det kanske är 0.962 i stället för 0.95). Men det är ju inte det som menas, utan att sannolikheten antingen är 0 eller 1, då andelen antingen är innanför eller utanför för andelen är det den är och alltså antingen innanför eller utanför intervallet.

Men återigen, då det är så underförstått att vi accepterar att vi inte vet vad den faktiska andelen/sannolikheten är utan att av den anledning förmoda det är en stokastiskt variabel, är det egentligen en mycket onaturligt specificering. Det är principiellt snarlikt med att argumentera att sannolikheten att det översta kortet i den närmsta vanliga kortleken du har i närheten av dig som inte är en joker eller instruktionskort ska vara ett ruterkort inte är 1/4 utan antingen 0 eller 1 för antingen är det ju ett ruterkort eller så är det inte. Att man då i stället bör säga att om du kontrollerar väldigt många av dina närliggande kortlekar så kommer en fjärdedel av dessa ha ett ruterkort som det översta (av de som inte är jokrar eller instruktionskort). Jag vill argumentera för att detta är en ganska onaturlig specificering och leder till att elever tror saker är mer komplicerade än de är. Och då brukar jag annars vara så ivrig efter att vara koncis att en del kollegor nästan stör sig på det.

Om man vill göra denna specificering så måste man noggrant poängtera varför man gör den. Jag får dock känslan av att många inte ens förstår varför specificeringen görs, men ändå förespråkar de den. Då är vi ute på en tunn och meningslös is.

Hondel skrev:
Daniel Pedersen skrev:
Hondel skrev:
Allt jag säger i sista avsnitt är fel? Så det är fel att säga att den verkligen parametern kommer ligga i 95 % av de framtida beräknade konfidensintervallen? Och jag har fel när jag säger att om jag beräknat ett konfidensintervall så betyder det inte att med 95 % sannolikhet ligger den verkliga parametern i detta intervall?

Ja precis. Vad menar du ens med framtida beräknade konfidensintervall? Tolkningen av ett 95% konfidensintervall är exakt det du i din sista mening påstår det INTE är. Men det är lätt att bli förvirrad av detta ibland.

Jag tror faktiskt det är du som blivit förvirrad. Den engelska Wikipedia-sidan listar några vanliga missförstånd, och att tolka ett uträknat konfidensintervall som att det är 95 % sannolikhet att den verkliga parametern ligger i det framräknade intervallet är en av dem.

Jag har i en tidigare tråd länkat denna diskussion.

Det som fick mig att haja till av det som skrivs där är att från en frekventistisk synvinkel så är påståendet ”95 % sannolikhet att parametern ingår i ett intervall” helt omöjligt. I den frekventistiska statistiken så har en parameter ett fixt värde, och att då säga att det är en viss sannolikhet att parametern ligger i ett intervall fungerar helt enkelt inte. Antingen ligger den i intervallet eller ej. Det står också på den engelska Wikipedia.

Nu har jag även kollat den engelska Wikipedia-sidan eftersom jag nu ser det var den du citerade. Den påpekar ju det lite mer tydligt att det ju är enbart genom att betrakta andelen eller sannolikheten som fixerad som man kan säga att man inte bör säga så. Problemet är att det inte finns något problem med folk som genuint tror att det faktiska andelen av en population i sig ej är fixerad. Det har jag aldrig stött på någon som tror, och jag har sett mycket konstigt. Den är bara för ögonblicket okänd och det är därför vi vill skatta den.

Precis som korten som dealern ska dela ut i en pokerturnering. De ligger där och det är nu givet vilka kort som kommer att komma upp om vi hade tittat på de, för vi ska inte blanda mer. Med liknande resonemang borde man då säga att det är fel att säga att spelare A har 0.38 i sannolikhet att vinna och spelare B har 0.62. För antingen vinner ju A eller så vinner B (OK ser bort från split pot men du fattar) för utfallet har ett fixt värde. Med liknande resonemang borde det då inte stå 38% respektive 62% i grafiken utan antingen ingenting eller eventuellt "0% or 100%" på varje spelare. Det är givet hur vi i övrigt betraktar okänd information inte särskilt konsekvent att göra denna distinktionen i skattningen av en andel eller sannolikhet, när man generellt inte gör den i övrigt. Och om man väljer att göra den måste man tydligt förtydliga varför!

Sen när det gäller skattningen av sannolikheten för en spelare att till exempel träffa en basketstraff är det ju verkligen inte självklart att det ens finns en faktiskt fixerad sannolikhet och det är lite där jag är inne på att preciseringen är egentligen bara delvis korrekt för stickprov ur en population, men återigen enbart under förmodandet att man inte temporärt bör betrakta något okänt som en stokastisk variabel.

Sen är artikeln lite konstig för det görs massa citeringar till "Common misunderstandings", men sen väljer Wikipedia att uteslutande skriva om det att huruvida den faktiska andelen är inom intervallet egentligen är en antingen eller fråga om vi betraktar andelen som något fixerat precis som du skriver. Men länkarna som ges pratar nästan uteslutande om otroligt många andra och betydligt mer intressanta problem kring missförstånd kring statistiska undersökningar i allmänhet, sen en artikel där författaren inte verkar inse att frågan i sin helhet handlar om detta. Det är i och för sig lite klassiskt Wikipedia att göra så tyvärr.

För det finns redan en rad utmaningar inom statistik som många missförstår med allvarliga konsekvenser för beslutsfattande. Detta är inte en av de. Risken är stor att personer som ser detta felaktigt tror att sannolikheten inte är k för att det faktiska värdet/andelen/sannolikheten kommer ingå om vi gör ett konfidensintervall med konfidensgrad k. Det är det ju visst det!

Därför, om man absolut måste påpeka detta, måste man i samma veva ytterst koncist och tydligt förtydliga vad man syftar på, inte bara lite häftigt slänga ut det för lite wow-faktor. Det är bara kontraproduktivt och skapar osäkerhet i onödan. Sånt hör inte hemma i klassrummen!

Är det för att det finns bättre digitala hjälpmedel nu som man tar upp konfidensintervall redan i Matte 1? Jag träffade på det först i trean och jag tror det var en sån sak som man ofta inte hann med.

Man kanske skulle ta upp vanliga missförstånd i form av konkreta exempel i stället, från nyhetsmedia t.ex., både när de har rätt och har fel.

Laguna skrev:
Är det för att det finns bättre digitala hjälpmedel nu som man tar upp konfidensintervall redan i Matte 1? Jag träffade på det först i trean och jag tror det var en sån sak som man ofta inte hann med.

Man kanske skulle ta upp vanliga missförstånd i form av konkreta exempel i stället, från nyhetsmedia t.ex., både när de har rätt och har fel.

Jag håller med dig. Det hade varit mer lämpligt att ta några exempel på det viset i stället för att räkna på det för mycket.

Det mest intressanta att lyfta fram är kanske idén att man med statistik bara med viss säkerhet kan dra slutsatser och att det finns en stor benägenhet i samhället att prata i termer av mer eller mindre "bevisat" om en studie indikerat något och kanske ännu värre att det att en studie inte kunnat visa något med tillräcklig bra signifikans direkt indikerar att man nu "bevisat" att det inte fanns något intressant samband i det som undersöktes. Just det tror jag ganska lätt kan gå hem hos eleverna och ge de relevanta insikter.

Räkneuppgifterna kan vara av mycket enkel art i så fall. 300 personer i Oskarshamn tillfrågades om de gillade sill. 120 svarade ja. Det bor ungefär 20000 invånare i Oskarshamn. Ungefär hur många personer som bor i Oskarshamn gillar sill? Men sen då vara väldigt noga med att de svarar ungefär 8000, inte 8000. Sen kanske kort om eventuella felkällor.

Jag ser flera väljer att titta på sambandsdiagram. Det tycker jag verkar som ett lämpligt sätt att föra in korrelation och även få de att rita ut punkter i ett sambandsdiagram och vice versa tolka punkter och samband i ett sambandsdiagram. Jag gjorde något sambandsdiagram mellan lufttryck och lufttemperatur varje natt klockan 2 under en Februarimånad till exempel som de skulle tolka och diskutera.

Baserat på kommentarmaterialet står det (se nederst). Länk: https://www.skolverket.se/publikationsserier/kommentarmaterial/2022/kommentarmaterial-till-amnesplanen-i-matematik---gymnasieskolan-och-vux

Jag ifrågasätta böcker som till exempel tar med formeln för normalapproximation av binomialfördelning, som de dessutom ofta skriver ut så man ska sätta in procentenheter, vilket man ju inte gör "på riktigt" (bl.a. Origo).

Många böcker förklarar inte ens var 1.96 kommer ifrån eller att det är specifikt för tvåsidigt 95% konfidensintervall. Man pratar ju inte ens om vad standardavvikelse är eller att normalapproximation just är en approximation och att man inte alltid bör utföra den, så att kräva att de ska kunna plotta in rätt värden i denna formeln känns väl lite väl "följ en formel" undervisning och dessutom stor att de applicerar den fel ändå. Jag såg lärare på nätet som applicerade formeln på ett material så konfidensintervallet innehöll negativa sannolikheter till och med. Det är lätt att förstå att man kan råka göra, för böckerna diskuterar ju inte dess begränsning alls och har man inte längre koll på det är det lätt gjort.

Förutom att det verkar som ett obefogat djupdyk görs det ofta så slarvigt att det mer eller mindre gör mer skada än nytta. Det nämns ju inte ens konfidensintervall specifikt från skolverket dessutom. Bättre att då bara ta något kort om en opinionsundersökning utan att man räknar för mycket?

Dessutom försöker vissa böcker sig på förändring av en andelar, men påstår då att huruvida en förändring är signifikant är ekvivalent med att de två konfidensintervallen inte överlappar. Det är ju direkt fel. Så tyvärr är det ju även böcker som bidrar med missförstånden.

Sen är ju frågan hur givande det är att göra allt för stora djupdyk i urvalsmetoder. Jag anser vissa böcker dyker onödigt mycket ner i detta. Det blir nästan som det skapas bilden av att man knappt kan lita på undersökningar alls för det är ju så mycket som kan gå så snett. Jag anser man ska vara försiktig med att trycka på för mycket med det. Vad tycker du?

I matematik 1-kurserna ingår exempel på hur några statistiska begrepp används i
samhälle och [yrkesliv/inom vetenskap], inklusive signifikans, korrelation,
kausalitet, urvalsmetoder och felkällor.
Undervisningen ska ta upp exempel på hur begreppen faktiskt används, snarare än
att fördjupa sig i själva begreppen. Detta eftersom många av de relevanta
begreppen är så pass avancerade att en djupare förståelse av matematiken bakom
dem inte är rimlig på gymnasial nivå. Samtidigt spelar begreppen en så pass
viktig roll i samhälle, yrkesliv och vetenskap att det är angeläget att elever som
läser på gymnasial nivå ska känna till dem på en orienterande nivå.

Okej, det är mycket text som jag har lite svårt att ta mig igenom. Jag står dock på mig att man inte kan tolka ett beräknat konfidensintervall som att den verkliga parametern är i intervallet med 95 % sannolikhet.

Enligt denna artikel, som ska vara den ursprungliga, går att läsa (på sidan 347):

"[W]e may proceed to the statement of the problem in its full generality.

Consider the variables [tidigare ekvation] and assume that the form of their probability law [annan tidigare ekvation] is known, that it involves the parameters $\theta_1 \theta_2, \dots \theta_l$ , which are constant (not random variables), and that the numerical values of these parameters are unknown"

Vidare står:

"It will be noticed that in the above description the probability statements refer to the problems of estimation with which the statistician will be concerned in the future. In fact, I have repeatedly stated that the frequency of correct results tend to $\alpha$ ". Consider now the case when a sample is already drawn, and the calculations have given [ett visst intervall]. Can we say that in this particular case the probability of the true value [är inom detta interval] is equal to $\alpha$ ? The answer is obviously in the negative. The parameter is an unknown constant, and no probability statement concerning its value may be made..."

Något jag däremot vill understryka är att jag är medveten om att man kan se sina parametrar som stokastiska, och att det går att skapa intervall sådana att det faktiskt går att tolka som en sannolikhet att parametern befinner sig i intervallet. Ett konfidensintervall är dock inte ett sådant. Att se sina variabler som stokastiska tillhör Bayesianska statistiken, och där kan man skapa ett credible interval med denna tolkning.

Det var det sista för mig i denna tråd. Ha en trevlig kväll.

Jag tycker också motiveringen med sant eller inte är ganska dum, men det här exemplet som tas upp håller jag med om. Är det verkligen relevant att göra skillnad på gymnasienivå?

Problematiken är att man krånglar till konfidensintervall helt i onödan. Det är inte ens mer korrekt det som påpekas i någon användbar mening. Det är redan i en rad fall underförstått att man ibland talar om sannolikheten för att något som faktiskt går att beräkna eller kontrollera har en viss egenskap även om egenskapen naturligtvis antingen är där eller inte där. Som att ett stort heltal är ett primtal eller inte är ett primtal. Självklart är ju heltalet antingen primtal eller sammansatt, men givet dess storlek kan vi, innan vi påbörjat prova faktorisera det tala om en sannolikhet att det är ett primtal.

Just denna meningslösa kverulans är extremt onödig och den tycks nästan uteslutande göras av personer som har ett behov av att låta märkvärdiga och ofta bristfällig iver att undervisa och lära ut. Ibland lyckas de inte ens förklara varför de kverulerar om detta, utan motivet verkar i sin helhet vara att framstå som sofistikerad och i denna iver glömde de av vad de ens var som de ville påpeka. Många verkar dessutom förvirrade av konceptet att en undersökning kan indikera en sak, men en annan kan indikera någon annan. De verkar glömma att uttalandena man gör är baserat på undersökningen man gjort. Görs då två olika undersökningar är det inte alls en motsägelse att två olika konfidensintervall uppstod om samma fråga. Dessutom verkar de också argumentera som att konfidensintervall enbart görs för stickprovsundersökningar, vilket i sig är olämpligt och vilseledande.

Jag tog denna diskussion lite kort med både en av författarna bakom en av de mest använda böckerna i Matematisk Statistik i Sverige samt även en professor i matematisk statistik. För det första tog det ett tag innan de ens insåg vad jag syftade på, men när de väl insåg problemställningen fnös de mer eller mindre bara och sa "Jaja, det är ju bara trams att säga så."

Invändningen är alltså att det är exceptionellt olämpligt och onödigt att motsätta sig uttalanden som "Enligt vår undersökning ligger medelvärdet med 95% sannolikhet i intervallet [a,b]", för insikten att för en stickprovsundersökning är det naturligtvis är så att antingen så ingår ju det faktiska värdet eller så gör det inte det är redan extremt väletablerat och alla införstådda med. Jag har aldrig mött någon som inte varit komfortabel med detta och jag har undervisat matematisk statistik i många år. Därmed förmodas det nästan systematiskt att syftet med kverulansen måste vara av en annan natur än detta (just för att det är så självklart) och elever blir osäkra och tror de inte har förstått saker som de faktiskt har förstått. Särskilt när de som kverulerar sällan klarar få fram deras faktiska argument på ett bra sätt och i stället provar få det till att vara superkomplicerat. För om de förklarar deras invändning på det tydliga sättet, svarar ju de flesta direkt studenter något i stil med "Jaja, men det är ju underförstått. Varför påpekar du detta just nu? I andra delar av kursen pratar vi ju visst på detta sätt om sannolikheter.".

Svara

Visa senaste svar