7 svar

776 visningar

Jacobi determinant, flervariabelanalys

Hej!

Jag undrar varför Jacobi determinanten används i flervariabelanalysen när man ska finna lokala maximum eller minimum vid exempelvis en triangel eller halvcirkels rand! Som jag förstår saken ifrån linjär algebra, säger oss jacobi determinanten hur arean förändras inom en del av koordinatsystemet som är inzoomad.

Fråga: Här sätts determinanten lika med noll? Vad innebär detta? Att arean/volymen är noll? At gradienterna ska vara kinjärt beroende? Ha en eller oändligt många lösningar?

Vad är är tanken med att efterfråga linjärt beroende gradienter?

Mitt försök: Kan det vara för att vi i sådana fall egentligen har en gradient, vilket beskriver lutningen på randen? Sätt den lika med noll så finner man max och min inom det intervallet? I sådana fall, om man skulle ha två bivillkor, och vill ha randen som alstras därigenom, kan man i sådana fall helt enkelt skapa en likartad determinant med skillnaden att man adderar gradienten för det tillagda bivillkoret?

En svår fråga så jag reserverar för eventuella fel:

Detta relaterar till användning av Lagrange multiplikatormetod. Du kan endast garanterat lösa problemet med denna metod om gradienten för funktionen och bivillkoret är linjärt beroende, alltså om de är parallella.

Du garanterar detta genom att räkna ut skalärprodukten av $\vec{\nabla f}$ och en vektor som är ortogonal till $\vec{\nabla g}$ och sätta detta lika med noll. Matematiskt är detta samma sak som att Jacobianen (Jacobideterminanten) är lika med noll:

$J (f, g) = (\frac{\partial f}{\partial x} {\hat{e}}_{x} + \frac{\partial f}{\partial y} {\hat{e}}_{y}) \cdot (\frac{\partial g}{\partial y} {\hat{e}}_{x} - \frac{\partial g}{\partial x} {\hat{e}}_{y}) = 0$

$J (f, g) = \frac{\partial f}{\partial x} \frac{\partial g}{\partial y} - \frac{\partial f}{\partial y} \frac{\partial g}{\partial x} = 0$

Vi kan gå den andra vägen. Om vi minns hur man ställer upp Lagrange multiplikatormetod har vi att följande ekvationssystem måste gälla:

$\{\begin{cases} \frac{\partial f}{\partial x} = λ \frac{\partial g}{\partial x} \\ \frac{\partial f}{\partial y} = λ \frac{\partial g}{\partial y} \end{cases}$

För att multiplikatorn $λ$ ska vara användbar måste:

$\frac{\partial f}{\partial x} \frac{\partial g}{\partial y} = \frac{\partial f}{\partial y} \frac{\partial g}{\partial x}$

Vilket är ekvivalent med att Jacobianen är lika med noll enligt ovan.

För att vidare svara på dina frågor efterfrågas att gradienterna är linjärt beroende för att då vet man att att randen och funktionen (eller dess nivåkurvor) tangerar varandra i punkten. Gradienterna är normalvektorer till funktionens nivåkurvor så det är endast då de är parallella i en punkt som de kan tangera varandra.

Wikipedia - Lagrange multiplier

Paul's Notes - Lagrange multipliers

Khan Academy - Interpretation of Lagrange multipliers

Angående ditt eget försök att förklara finns det rigorösa sätt att behandla flera bivillkor. Det är dock ganska avancerat och behandlar stabilitetsanalys av lösningsmetoden med mera. Du kan läsa mer här:

Constrained optimization - Sec. 2.2

An example with two Lagrange Multipliers

Tack!

I denna bilden används ”Lagranian”: jag har svårt att överföra det till determinanten av grad och delat på grad 2. Vet du hur man tor (Dock så var din svar mycket hjälpsamma! Lärde mig en hel del! )

Tack på förhand!

Det är inte mitt favoritområde och var lite för länge sedan jag läste det, så jag kan inte vara särskilt hjälpsam. Lagrangianen är enbart en funktionsdefinition som fångar målfunktionen, våra bivillkor och multiplikator-variabler. Du kan läsa ett uttömmande svar av Snuggly_Person om det intuitiva bakom metoden här:

Why are the Lagrangian and Jacobian needed/used?

Hej!

Jag fyller på med litet bakgrund till varför det är intressant att studera gradienter till målfunktionen och till bivillkor-funktionen.

Du vill finna optimum för en funktion $f: D \to \mathbb{R}$ där definitionsmängden $D \subseteq \mathbb{R}^2$ beskriver vilka punkter i planet som du ska söka optimum bland. Anta att denna definitionsmängd kan beskrivas som en nivåkurva till en funktion $g : \mathbb{R}^2 \to \mathbb{R}$ ,

$D = \{(x,y)\,:\,g(x,y)=0\}.$

Säg att funktionen $f$ har optimum i punkten $(a,b) \in D$ och att funktionen $g$ är snäll i denna punkt, så att nivåkurvans tangent i denna punkt ej är lodrät. Eftersom funktionen $g$ är snäll i punkten så kan en liten del av nivåkurvan runt punkten $(a,b)$ beskrivas med en parameterisering, så att $(a,b)=(x(0),y(0))$ och $(x,y) = (x(t),y(t))$ där parametern $t \in [0,1].$

Funktionen $F(t) = f(x(t),y(t))$ , där $t \in [0,1]$ , är en funktion av en enda variabel ( $t$ ) och vi vet att optimum för denna funktion fås genom att studera nollställen till derivatan $F'(t)$ . Kedjeregeln ger derivatan

$F'(t) = \frac{\partial f}{\partial x}\cdot x'(t) + \frac{\partial f}{\partial y} \cdot y'(t).$

Denna summa kan skrivas som en skalärprodukt mellan två vektorer, gradientvektorn till funktionen, $\nabla f = (\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})$ , och tangentvektorn till nivåkurvan, $v(t)=(x'(t),y'(t))$ . Optimum för funktionen $f$ uppfyller alltså ekvationen

$F'(0) = (\nabla f)(a,b) \cdot v(0) = 0\ ,$

vilket betyder att vektorerna $(\nabla f)(a,b)$ och $v(0)$ är vinkelräta. Det gäller att tangentvektorn $v(0)$ är vinkelrät mot normalvektorn $(\nabla g)(a,b)$ ; med andra ord är $(\nabla f)(a,b)$ vinkelrät mot $v(0)$ , som i sin tur är vinkelrät mot $(\nabla g)(a,b)$ vilket betyder att $(\nabla f)(a,b)$ är parallell med $(\nabla g)(a,b)$ . Det finns därför en förlängningsfaktor (ett tal $\lambda$ ) så att

$(\nabla f)(a,b) = \lambda (\nabla g)(a,b)\ .$

Denna förlängningsfaktor kallas Lagranges multiplikator och används för att omformulera det ursprungliga optimeringsproblemet för funktionen $f$ med den komplicerade definitionsmängden $D$ till ett enklare optimeringsproblem för funktionen $L$ med den enklare definitionsmängden $\mathbb{R}^3$ .

$L(x,y,\lambda) = f(x,y)-\lambda g(x,y).$

Optimum till funktionen $L$ antas när vektorn $\nabla L$ är lika med nollvektorn.

$\nabla L = (\frac{\partial f}{\partial x}-\lambda \frac{\partial g}{\partial x},\frac{\partial f}{\partial y}-\lambda\frac{\partial g}{\partial y},-g)$ .

Att denna vektor är lika med nollvektorn är samma sak som att samtliga tre komponenter är lika med talet noll, det vill säga

$\frac{\partial f}{\partial x}-\lambda \frac{\partial g}{\partial x} = 0$

och

$\frac{\partial f}{\partial x}-\lambda \frac{\partial g}{\partial x}=0$

och

$g=0$ .

Funktionen $L$ är optimeringsproblemets Lagrangefunktion som översätter problemet att finna optimum för funktionen $f : D \to\mathbb{R}$ till problemet att finna optimum för funktionen $L:\mathbb{R}^3\to\mathbb{R}$ ; notera att definitionsmängden $\mathbb{R}^3$ saknar bivillkor.

$\frac{\partial f}{\partial x} - l \frac{\partial g}{\partial x} = 0 \Leftrightarrow l = \frac{\frac{\partial f}{\partial x}}{\frac{\partial g}{\partial x}} \frac{\partial f}{\partial y} - l \frac{\partial g}{\partial y} = 0 \Leftrightarrow l = \frac{\frac{\partial f}{\partial y}}{\frac{\partial g}{\partial y}} \Rightarrow \frac{\partial f}{\partial x} \cdot \frac{\partial g}{\partial y} - \frac{\partial f}{\partial y} \cdot \frac{\partial g}{\partial x} = 0 \Leftrightarrow |\begin{matrix} \nabla f \\ \nabla g \end{matrix}| = |\begin{matrix} \frac{\partial f}{\partial x} & \frac{\partial f}{\partial y} \\ \frac{\partial g}{\partial x} & \frac{\partial g}{\partial y} \end{matrix}| = 0$

Varefter Jacobis determinant alstras!

Tack så jättemycket både Ebola och Albiki, era svar var mycket gynnsamma!

Något annat som länge undgick mig är att det faktiskt finns en ganska intressant tolkning av vad talet $\lambda*$ (jag låter $\lambda$ beteckna variabeln och $\lambda*$ beteckna konstanten i lösningen till ekvationssystemet) innebär. Det är inte bara en restprodukt av beräkningen, utan talet $\lambda*$ ger faktiskt förändringshastigheten hos optimumet med avseende på bivillkoret.

Det blir enklare att förstå om vi istället beskriver bivillkoret som $g(x,y)=k$ (Detta är ekvivalent med din formulering ifall man sätter $g(x,y)$ till $g(x,y)-k$ så att bivillkoret blir $g(x,y)=0$ ). Lagrangianen blir då:

$L(x,y,\lambda)=f(x,y)-\lambda(g(x,y)-k)$

Om vi nu tänker oss att vi låter $k$ variera, d.v.s. vi ruckar på bivillkoret så att optimumet $M$ beror av $k$ , går det att visa att hastigheten med vilken optimumet förändras då $k$ varierar är $\lambda*$ , alltså

$\dfrac{dM}{dk}=\lambda*$

Ponera till exempel att en bilfirma har en budget på $10\ 000\ \text{kr}$ och har vinst $f(x,y)$ och utgifter $g(x,y)$ som beror på två variabler $x$ och $y$ , hur många bilar $x$ som köps in och hur många arbetstimmar $y$ som läggs ned. Med hjälp av Lagrangianen finnes ett maximum $M$ för dessa vinster (vi ställer upp det som att $f(x,y)$ skall maximeras med bivillkoret $g(x,y)=10\ 000$ ) och i samband med det fås en Lagrangemultiplikator $\lambda*$ , som vi säger får värdet $5$ .

Det betyder alltså att om vi skulle öka budgeten till $10\ 001\ \text{kr}$ skulle den maximala vinsten $M$ öka med $5\ \text{kr}$ . Om man istället minskade budgeten med en krona skulle då den maximala vinsten minska med $5\ \text{kr}$ . På så sätt kan även Lagrangemultiplikatorn vara hjälpsam för att anpassa bivillkoret.

Svara

Visa senaste svar