9 svar
1013 visningar
lund behöver inte mer hjälp
lund 529
Postad: 12 jan 2022 23:03 Redigerad: 12 jan 2022 23:06

Förutsättningar för linjär regression

Hej! Jag undrar förutsättningarna för enkel linjär regression är? I en tidigare uppgift hade jag nämligen skrivit:

Förutsättningarna för enkel linjär regression är (a) observationerna måste vara oberoende, (b) residualerna måste vara normalfördelade och (c) variansen i residualerna måste vara konstanta.

Men fick som kommentar att jag hade glömt det viktigaste antagandet, men vilket är detta? Jag har försökt att läsa både i boken och på internet men kan inte hitta vilket antagande det är som jag missar.. 

Tack på förhand!

SaintVenant 3956
Postad: 13 jan 2022 02:54 Redigerad: 13 jan 2022 03:12

Vad som gör den just enkel är att:

En beroende variabel (vanligtvis y) beror på endast en oberoende variabel (vanligtvis x).

Vi gör alltså modellantagandet:

yi=α+βxi+ϵiy_i = \alpha +\beta x_i + \epsilon_i

Där i=1,2,...,ni=1,2,..., n, vi har regressionsparametrar α\alpha och β\beta samt att slumpfelet är normalfördelat som:

ϵiN(0,σ2)\epsilon_i \sim N(0,\sigma^2)

Detta kan du exempelvis läsa om på Engelska Wikipedia:

"The adjective simple refers to the fact that the outcome variable is related to a single predictor."

Smutsmunnen 1054
Postad: 13 jan 2022 13:49

Det viktigaste antagandet är att responsvariabeln beror linjärt på den förklarande variabeln.

Smutsmunnen 1054
Postad: 13 jan 2022 13:50

Alltså att E[Y|X] är en linjär funktion.

lund 529
Postad: 13 jan 2022 16:11
Smutsmunnen skrev:

Det viktigaste antagandet är att responsvariabeln beror linjärt på den förklarande variabeln.

Är detta (ungefär) detsamma som vad Ebola skrev? Det vill säga att responsvariabeln ska beror på en variabel, vilket är den förklarande variabeln och detta ska vara linjärt?

lund 529
Postad: 13 jan 2022 16:12
Ebola skrev:

Vad som gör den just enkel är att:

En beroende variabel (vanligtvis y) beror på endast en oberoende variabel (vanligtvis x).

Vi gör alltså modellantagandet:

yi=α+βxi+ϵiy_i = \alpha +\beta x_i + \epsilon_i

Där i=1,2,...,ni=1,2,..., n, vi har regressionsparametrar α\alpha och β\beta samt att slumpfelet är normalfördelat som:

ϵiN(0,σ2)\epsilon_i \sim N(0,\sigma^2)

Detta kan du exempelvis läsa om på Engelska Wikipedia:

"The adjective simple refers to the fact that the outcome variable is related to a single predictor."

Tack Ebola!

SaintVenant 3956
Postad: 13 jan 2022 19:30
lund skrev:

Är detta (ungefär) detsamma som vad Ebola skrev? 

Nej, det är inte samma sak. Men, att det antas vara linjärt känns som ett extremt överflödigt antagande att ens ställa upp men det kanske är vad som åsyftas. Vissa pedagoger är lite skitnödiga på det viset.

Smutsmunnen 1054
Postad: 14 jan 2022 09:05

Jag tycker inte att det är ett överflödigt antagande att ställa upp.

Det eftersom det är relativt vanligt förekommande bland samhällsvetare, dietikforskare osv osv att tro att signifikans i regressionsmodellen bevisar att det finns ett linjärt samband, när det i själva verket är en förutsättning för signifikanstestets validitet.

Sedan kan man ju ha approximativt linjära samband och då får man approximativa resultat i modellen men det är lite annan sak.

Man kan experimentera lite med att generera data från icke-linjära regressionsfunktioner och sedan anpassa en linjär modell till data. Vad som händer är ju, om regressionsfunktionen är deriverbar, att man skattar derivatans riktningskoefficient i närheten av observationernas tyngdpunkt. Om observarionerna ligger klustrade nära den tyngdpunkten kan man absolut få hög grad av signifikans. I princip kan man säga att regressionsfunktionen är approximativt linjär på små intervall, som alla deriverbara funktioner. 

Om regressionsfunktionen inte ens är deriverbar så är det som kommer ut ur modellen helt enkelt nonsens.

SaintVenant 3956
Postad: 14 jan 2022 11:44 Redigerad: 14 jan 2022 11:44
Smutsmunnen skrev:

[...]

Tack för genomgången! Då vill jag fråga; stämmer verkligen det Lund skrev i övrigt? Alltså nedan:

Förutsättningarna för enkel linjär regression är (a) observationerna måste vara oberoende, (b) residualerna måste vara normalfördelade och (c) variansen i residualerna måste vara konstanta.

Om man läser i statistik-böcker får man fram följande:

There are four assumptions associated with a linear regression model:

  1. Linearity: The relationship between X and the mean of Y is linear.
  2. Homoscedasticity: The variance of residual is the same for any value of X.
  3. Independence: Observations are independent of each other.
  4. Normality: For any fixed value of X, Y is normally distributed.

Specifikt noterar jag att den beroende variabeln måste vara på intervallskalenivå, enligt punkt 4. Däremot saknas kravet att residualerna ska vara normalfördelade.

Smutsmunnen 1054
Postad: 14 jan 2022 11:57

Men det följer av 4.

4 säger alltså att Y givet X är normalfördelad, säg N(mu,sigma). Då är residualen (Y- Y_hat), givet X, N(0,sigma) eftersom Y_hat är väntevärdesriktig. Så 4 är detsamma som att residualerna är normalfördelade.

Svara
Close