13 svar
1060 visningar
Ali6935 behöver inte mer hjälp
Ali6935 43
Postad: 5 jan 2018 21:59

Fråga om linjär regression

Hej jag har en fråga om linjär regression i formen y=kx. Se värdena nedan 

Om man gör en linjär regression bör inte lutningen för den vara då 0,262 eftersom det är medelvärdet av alla lutningar. Jag får nämligen inte det värdet på lutningen utan ett lite större värde. Vad beror detta på? 

larsolof 2684 – Fd. Medlem
Postad: 5 jan 2018 22:10

4:e raden

2 / 5,93136 = 0,33719

Ali6935 43
Postad: 5 jan 2018 22:28

Ojj, tack för rättelsen, men medelvärdet blir fortfarande ca 0,262 medans i en linjär regression blir den över 0,3

Se hemsidan för regressionen https://www.desmos.com/calculator/njj4utvsdk 

larsolof 2684 – Fd. Medlem
Postad: 5 jan 2018 22:38 Redigerad: 5 jan 2018 22:39

Jag vet inte vad linjär regression innebär, så jag kan nog inte hjälpa mer här.

Men om du kan förklara det lite enkelt kanske jag fattar...

larsolof 2684 – Fd. Medlem
Postad: 5 jan 2018 22:49

Kollade lite på wikipedia och demos och det var inte så konstigt, hade bara inte hört ordet regression tidigare.

Jag kollar på linjen i demos och märker ut två punkter på linjen.
De blir (0,0) och (7,5 , 2,3318)
Det ger k=0.3109

Ali6935 43
Postad: 5 jan 2018 22:57

Tack men jag undrar varför linjen får lutning ca 0.31 i första hand och inte 0.262. Alltså vad är skillnaden mellan att använda linjära regressionen för att få lutningen och att ta medelvärdet av de olika lutningarna? Det måste ju finnas någon skillnad då de inte ger samma värde.

Tacksam för svar

larsolof 2684 – Fd. Medlem
Postad: 5 jan 2018 23:20

Det kanske är krångligare än medelvärdet på lutningarna?

Kanske detta kan hjälpa
https://www.matteboken.se/lektioner/matte-2/statistik/korrelation-och-regressionsanalys

Där finns en länk till en youtube-film oxå

Affe Jkpg 6630
Postad: 5 jan 2018 23:44 Redigerad: 5 jan 2018 23:45
Ali6935 skrev :

Ojj, tack för rättelsen, men medelvärdet blir fortfarande ca 0,262 medans i en linjär regression blir den över 0,3

Se hemsidan för regressionen https://www.desmos.com/calculator/njj4utvsdk 

k-värdet och medelvärdet är ändå hyfsat lika!
Medelvärdes-beräkningen och den linjär regressionen används för att beräkna olika egenskaper och för att lösa olika aspekter av en uppgift.

När du tittar noggrannare på den linjära linjen, så ser du att de fyra punkterna är placerade på ungefär på samma avstånd från linjen....men....en punkt är placerad över medan tre punkter är placerade under linjen. Det borde då vara lätt att förstå varför medelvärdet avviker från k-värdet, som är ett resultat av regressions-analysen (beräknad av desmos). 

Ali6935 43
Postad: 5 jan 2018 23:56

Tack men förstår inte riktigt, kan du förklara lite tydligare. Visst ligger över linjen och höjer därför k värde men talet är i och för sig också högre och höjer också medelvärdet då. Eller tänker jag helt fel?

dioid 183
Postad: 6 jan 2018 09:34

Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.

När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.

Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.

Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.

Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.

Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.

Affe Jkpg 6630
Postad: 6 jan 2018 10:31
Ali6935 skrev :

Tack men förstår inte riktigt, kan du förklara lite tydligare. Visst ligger över linjen och höjer därför k värde men talet är i och för sig också högre och höjer också medelvärdet då. Eller tänker jag helt fel?

Fundera då över följande.
För fyra punkter på den linjära linjen gäller ungefär:

14((x1+a)+(x2+a)+(x3+a)+(x4-a))=14(x1+x2+x3+x4+2a)=(x1+x2+x3+x4)4+2a4=x¯+a2=   medelvärdet plus "a" halva

Ali6935 43
Postad: 6 jan 2018 15:53
dioid skrev :

Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.

När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.

Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.

Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.

Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.

Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.

Tack tror att jag förstår nu

Men Affe Jkpg  vad är a i din uträkning och varför är det -a vid slutet

Affe Jkpg 6630
Postad: 6 jan 2018 16:07 Redigerad: 6 jan 2018 16:10
Ali6935 skrev :
dioid skrev :

Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.

När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.

Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.

Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.

Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.

Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.

Tack tror att jag förstår nu

Men Affe Jkpg  vad är a i din uträkning och varför är det -a vid slutet

Jaha det skulle vara y...

14((y1+a)+(y2+a)+(y3+a)+(y4-a))=14(y1+y2+y3+y4+2a)=(y1+y2+y3+y4)4+2a4=y¯+a2=   medelvärdet plus "a" halva

a är ungefärliga avståndet mellan y-värde på linjen och respektive punkts y-värde

"-a" för att det är den enda punkten som linjen går under. 

Ali6935 43
Postad: 6 jan 2018 16:17
Affe Jkpg skrev :
Ali6935 skrev :
dioid skrev :

Den linjära regressionen minimerar summan av kvadraten på avvikelserna mellan den räta linjen och de observerade y-värdena. Det gör att en datapunkt med stort x-värde får större inflytande (eng leverage) på k-värdet eftersom en liten ändring i k-värdet flyttar den räta linjen mer vid det x-värdet än för mindre x-värden.

När du tar medelvärdet av k-värdet för varje datapunkt får varje datapunkt lika stort inflytande på k-värdet för den räta linjen.

Det kan vara rimligt att låta de olika punkterna ha olika inflytande om man antar att felet vid en observation är lika stor för olika x-värden, t ex om y-värdet som observeras har ett fel på 0.05. Du kan testa att lägga till och dra bort 0.05 från y-värdet och få intervall för k-värdet på varje observation, då ser du att för större x-värden blir intervallet mindre, dvs skattningen av k-värdet är mer precist.

Det går att räkna ut inflytandet på varje datapunkt genom att dividera x-värdet i kvadrat för den datapunkten med summan av x-värdena i kvadrat för alla datapunkter. Om du tar ett viktat medelvärde av k-värdena för varje datapunkt med vikt lika med inflytandet får du samma k-värde som för linjära regressionen. För dina datapunkter blir inflytandet ungefär 0.046, 0.081, 0.178, 0.695. Då får du 0.196*0.046+0.247*0.081+0.267*0.178+0.337*0.695 = 0.311.

Du kan även testa att ta bort sista punkten och göra linjär regression och se hur k-värdet ändras, osv.

Att ta oviktat medelvärde av skattat k-värde för varje punkt motsvarar att man antar att det är samma relativa fel vid observationerna istället för samma absoluta fel vid observationerna. Dvs att y-värdet är fel inom t ex 10% istället för att det är fel inom t ex +- 0.05.

Tack tror att jag förstår nu

Men Affe Jkpg  vad är a i din uträkning och varför är det -a vid slutet

Jaha det skulle vara y...

14((y1+a)+(y2+a)+(y3+a)+(y4-a))=14(y1+y2+y3+y4+2a)=(y1+y2+y3+y4)4+2a4=y¯+a2=   medelvärdet plus "a" halva

a är ungefärliga avståndet mellan y-värde på linjen och respektive punkts y-värde

"-a" för att det är den enda punkten som linjen går under. 

Tack förstår nu!!!

Svara
Close