Förutsättningar för linjär regression

Hej! Jag undrar förutsättningarna för enkel linjär regression är? I en tidigare uppgift hade jag nämligen skrivit:

Förutsättningarna för enkel linjär regression är (a) observationerna måste vara oberoende, (b) residualerna måste vara normalfördelade och (c) variansen i residualerna måste vara konstanta.

Men fick som kommentar att jag hade glömt det viktigaste antagandet, men vilket är detta? Jag har försökt att läsa både i boken och på internet men kan inte hitta vilket antagande det är som jag missar..

Tack på förhand!

Vad som gör den just enkel är att:

En beroende variabel (vanligtvis y) beror på endast en oberoende variabel (vanligtvis x).

Vi gör alltså modellantagandet:

$y_i = \alpha +\beta x_i + \epsilon_i$

Där $i=1,2,..., n$ , vi har regressionsparametrar $\alpha$ och $\beta$ samt att slumpfelet är normalfördelat som:

$\epsilon_i \sim N(0,\sigma^2)$

Detta kan du exempelvis läsa om på Engelska Wikipedia:

"The adjective simple refers to the fact that the outcome variable is related to a single predictor."

Det viktigaste antagandet är att responsvariabeln beror linjärt på den förklarande variabeln.

Alltså att E[Y|X] är en linjär funktion.

Smutsmunnen skrev:
Det viktigaste antagandet är att responsvariabeln beror linjärt på den förklarande variabeln.

Är detta (ungefär) detsamma som vad Ebola skrev? Det vill säga att responsvariabeln ska beror på en variabel, vilket är den förklarande variabeln och detta ska vara linjärt?

Ebola skrev:
Vad som gör den just enkel är att:

En beroende variabel (vanligtvis y) beror på endast en oberoende variabel (vanligtvis x).

Vi gör alltså modellantagandet:

$y_i = \alpha +\beta x_i + \epsilon_i$

Där $i=1,2,..., n$ , vi har regressionsparametrar $\alpha$ och $\beta$ samt att slumpfelet är normalfördelat som:

$\epsilon_i \sim N(0,\sigma^2)$

Detta kan du exempelvis läsa om på Engelska Wikipedia:

"The adjective simple refers to the fact that the outcome variable is related to a single predictor."

Tack Ebola!

lund skrev:
Är detta (ungefär) detsamma som vad Ebola skrev?

Nej, det är inte samma sak. Men, att det antas vara linjärt känns som ett extremt överflödigt antagande att ens ställa upp men det kanske är vad som åsyftas. Vissa pedagoger är lite skitnödiga på det viset.

Jag tycker inte att det är ett överflödigt antagande att ställa upp.

Det eftersom det är relativt vanligt förekommande bland samhällsvetare, dietikforskare osv osv att tro att signifikans i regressionsmodellen bevisar att det finns ett linjärt samband, när det i själva verket är en förutsättning för signifikanstestets validitet.

Sedan kan man ju ha approximativt linjära samband och då får man approximativa resultat i modellen men det är lite annan sak.

Man kan experimentera lite med att generera data från icke-linjära regressionsfunktioner och sedan anpassa en linjär modell till data. Vad som händer är ju, om regressionsfunktionen är deriverbar, att man skattar derivatans riktningskoefficient i närheten av observationernas tyngdpunkt. Om observarionerna ligger klustrade nära den tyngdpunkten kan man absolut få hög grad av signifikans. I princip kan man säga att regressionsfunktionen är approximativt linjär på små intervall, som alla deriverbara funktioner.

Om regressionsfunktionen inte ens är deriverbar så är det som kommer ut ur modellen helt enkelt nonsens.

Smutsmunnen skrev:
[...]

Tack för genomgången! Då vill jag fråga; stämmer verkligen det Lund skrev i övrigt? Alltså nedan:

Förutsättningarna för enkel linjär regression är (a) observationerna måste vara oberoende, (b) residualerna måste vara normalfördelade och (c) variansen i residualerna måste vara konstanta.

Om man läser i statistik-böcker får man fram följande:

There are four assumptions associated with a linear regression model:

Linearity: The relationship between X and the mean of Y is linear.
Homoscedasticity: The variance of residual is the same for any value of X.
Independence: Observations are independent of each other.
Normality: For any fixed value of X, Y is normally distributed.

Specifikt noterar jag att den beroende variabeln måste vara på intervallskalenivå, enligt punkt 4. Däremot saknas kravet att residualerna ska vara normalfördelade.

Men det följer av 4.

4 säger alltså att Y givet X är normalfördelad, säg N(mu,sigma). Då är residualen (Y- Y_hat), givet X, N(0,sigma) eftersom Y_hat är väntevärdesriktig. Så 4 är detsamma som att residualerna är normalfördelade.

Svara

Visa senaste svar