Fråga om linjär regression
Hej jag har en fråga om linjär regression i formen y=kx. Se värdena nedan
Om man gör en linjär regression bör inte lutningen för den vara då 0,262 eftersom det är medelvärdet av alla lutningar. Jag får nämligen inte det värdet på lutningen utan ett lite större värde. Vad beror detta på?
4:e raden
2 / 5,93136 = 0,33719
Ojj, tack för rättelsen, men medelvärdet blir fortfarande ca 0,262 medans i en linjär regression blir den över 0,3
Se hemsidan för regressionen https://www.desmos.com/calculator/njj4utvsdk
Jag vet inte vad linjär regression innebär, så jag kan nog inte hjälpa mer här.
Men om du kan förklara det lite enkelt kanske jag fattar...
Kollade lite på wikipedia och demos och det var inte så konstigt, hade bara inte hört ordet regression tidigare.
Jag kollar på linjen i demos och märker ut två punkter på linjen.
De blir (0,0) och (7,5 , 2,3318)
Det ger k=0.3109
Tack men jag undrar varför linjen får lutning ca 0.31 i första hand och inte 0.262. Alltså vad är skillnaden mellan att använda linjära regressionen för att få lutningen och att ta medelvärdet av de olika lutningarna? Det måste ju finnas någon skillnad då de inte ger samma värde.
Tacksam för svar
Det kanske är krångligare än medelvärdet på lutningarna?
Kanske detta kan hjälpa
https://www.matteboken.se/lektioner/matte-2/statistik/korrelation-och-regressionsanalys
Där finns en länk till en youtube-film oxå
Ali6935 skrev :Ojj, tack för rättelsen, men medelvärdet blir fortfarande ca 0,262 medans i en linjär regression blir den över 0,3
Se hemsidan för regressionen https://www.desmos.com/calculator/njj4utvsdk
k-värdet och medelvärdet är ändå hyfsat lika!
Medelvärdes-beräkningen och den linjär regressionen används för att beräkna olika egenskaper och för att lösa olika aspekter av en uppgift.
När du tittar noggrannare på den linjära linjen, så ser du att de fyra punkterna är placerade på ungefär på samma avstånd från linjen....men....en punkt är placerad över medan tre punkter är placerade under linjen. Det borde då vara lätt att förstå varför medelvärdet avviker från k-värdet, som är ett resultat av regressions-analysen (beräknad av desmos).
Tack men förstår inte riktigt, kan du förklara lite tydligare. Visst ligger över linjen och höjer därför k värde men talet är i och för sig också högre och höjer också medelvärdet då. Eller tänker jag helt fel?
Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.
När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.
Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.
Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.
Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.
Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.
Ali6935 skrev :Tack men förstår inte riktigt, kan du förklara lite tydligare. Visst ligger över linjen och höjer därför k värde men talet är i och för sig också högre och höjer också medelvärdet då. Eller tänker jag helt fel?
Fundera då över följande.
För fyra punkter på den linjära linjen gäller ungefär:
dioid skrev :Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.
När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.
Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.
Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.
Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.
Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.
Tack tror att jag förstår nu
Men Affe Jkpg vad är a i din uträkning och varför är det -a vid slutet
Ali6935 skrev :dioid skrev :Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.
När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.
Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.
Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.
Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.
Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.
Tack tror att jag förstår nu
Men Affe Jkpg vad är a i din uträkning och varför är det -a vid slutet
Jaha det skulle vara y...
a är ungefärliga avståndet mellan y-värde på linjen och respektive punkts y-värde
"-a" för att det är den enda punkten som linjen går under.
Affe Jkpg skrev :Ali6935 skrev :dioid skrev :Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.
När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.
Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.
Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.
Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.
Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.
Tack tror att jag förstår nu
Men Affe Jkpg vad är a i din uträkning och varför är det -a vid slutet
Jaha det skulle vara y...
a är ungefärliga avståndet mellan y-värde på linjen och respektive punkts y-värde
"-a" för att det är den enda punkten som linjen går under.
Tack förstår nu!!!