Minsta-kvadrat-metoden (Matematik/Universitet)

Menar du om vi har modellen $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ , vad är väntevärde och varians av $y_i$ ? Man brukar anta att $\epsilon_i$ har väntevärde $0$ och varians $\sigma^2$ och $\epsilon_i$ i.i.d. Då "försvinner" den från väntevärden av $y_i$ eftersom den är $0$ så $E[y_i] = \beta_0 + \beta_1 x_i$ men för variansen är det tvärtom så att det är bara $\epsilon_i$ som bidrar eftersom resten är konstanter så $Var[y_i] = \sigma^2$ .

Inabsurdum skrev:
Menar du om vi har modellen $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ , vad är väntevärde och varians av $y_i$ ? Man brukar anta att $\epsilon_i$ har väntevärde $0$ och varians $\sigma^2$ och $\epsilon_i$ i.i.d. Då "försvinner" den från väntevärden av $y_i$ eftersom den är $0$ så $E[y_i] = \beta_0 + \beta_1 x_i$ men för variansen är det tvärtom så att det är bara $\epsilon_i$ som bidrar eftersom resten är konstanter så $Var[y_i] = \sigma^2$ .

Jag kan inte riktigt koppla det till regressionslinjen.. I det här fallet rör det sig om att man har gjort fyra oberoende mätningar med väntevärdet $β, β, β s a m t 3 β$ .

De har alla samma varians. Man vill skatta beta med minsta-kvadrat-metoden och undrar hur olika värden på mätningarna påverkar skattningen.

Säg att man i mätning ett har 3, 4, 3, samt 12 men i mätning två utelämnat 12 och istället lagt till värden runt 3,4 samt i mätning tre enbart 9 samt 12. Min fråga är hur skattningen påverkas med ursprung från E(X) samt V(X). Borde inte skattningen av beta ha större varians ifall även 12 räknas med och även större förväntat värde?

Ok, väntevärde och varians är för $\hat{\beta}$ är annorlunda.

Om du har samma modell som jag beskrev ovan och har tagit fram $\hat{\beta_1}$ genom minsta kvadratmetoden från ett sample med storlek $n$ har du $E[\hat{\beta_1}] = \beta_1$ (d.v.s. den är väntevärdesriktig) och $Var[\hat{\beta_1}] = \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$ . Alltså är det tvärtom: har man stor spridning på $x$ (värdena i mätningen du nämner är $x$ alltså oberoende variabeln?) så blir variansen lägre! Det kan se märkligt ut först men är egentligen ganska naturligt: man kan vara säkrare på att ens estimat är korrekt och kan generaliseras om man har många datapunkter som skiljer sig mycket från varandra (alltså stor spridning på $x$ ).

Jag förstår inte riktigt vad som menas med att det är $3 \beta$ för en mätning?