Tips på var jag kan läsa om deriveringsregler för matriser

Hej!

Jag känner till funktionalmatrisen/Jacobimatrisen, jag känner till kedjeregeln för vektorvärda funktioner osv. Men jag har aldrig arbetat med derivering av matriser mer än att jag löst differentialekvationer i linjär algebra. I nuvarande kurs har dom sagt att man bör känna till räknereglerna på bilden men jag har aldrig stött på det här innan. Jag har ingen lust att memorera räknereglerna utan att ha någon form av förståelse för vad som pågår. Har febrilt försökt googla fram en pdf som går igenom detta men har inte hittat något bra. Har läst wikipedias artikel om matrix calculus men hade lite svårt att hänga med.

Jag söker efter en sida/pdf/bok där det tydligt definieras vad det innebär att derivera en matris och där man sedan går igenom räknereglerna på bilden med tillhörande bevis.

Känner någon till en sida där jag kan läsa om detta?

Tack på förhand.

Hej, jag har inget förslag på litteratur på rak arm, ska se vad jag kan hitta senare. Men notera att derivatorna du listar inte är derivator av matriser eller matrisvärda funktioner, utan av reellvärda funktioner. Gemena bokstäver representerar kolonnvektorer och versaler matriser, med storlekar som gör att uttrycken är definierade. $\frac{\partial}{\partial x}f(x)$ är alltså en vektor sådan att varje element är derivatan av $f(x)$ med avseende på motsvarande element i $x$ , eller $[\frac{\partial}{\partial x}f(x)]_i=\frac{\partial}{\partial x_i}f(x)$ . På motsvarande sätt är $\frac{\partial}{\partial X}f(X)$ en matris med samma storlek som $X$ .

Hoppas att det gör att det klarnar lite, och att åtminstone de två första uttrycken känns mer eller mindre självklara.

Stort tack för svaret! Nu förstår jag mycket bättre, jag tolkar det som (väldigt oprecist uttryckt) att det blir hela tiden reellvärda funktioner som man sen deriverar utefter hur nämnaren ser ut.

Så: $a^{T} X b = [\begin{matrix} a 1 & . . . & a n \end{matrix}] [\begin{matrix} x 11 & . . . & x 1 n \\ . . . & . . . \\ x n 1 & . . . & x n n \end{matrix}] [\begin{matrix} b 1 \\ . . . \\ b n \end{matrix}] = (a 1 b 1 x_{11} + . . . + a n b 1 x_{n 1}) + . . . + (a 1 b n x_{1 n} + . . . + a n b n x_{n n})$

Vilket blir en reelvärd funktion: $f (x_{11}, . . ., x_{n 1}, . . ., x_{1 n}, . . ., x_{n n})$

Vill man sen derivera den här på matrisen X blir det:

$\frac{\partial}{\partial X} f (x_{11}, . . ., x_{n 1}, . . ., x_{1 n}, . . ., x_{n n}) = [\begin{matrix} \frac{\partial f (x)}{\partial x_{11}} & . . . & \frac{\partial f (x)}{\partial x_{1 n}} \\ . . . & . . . \\ \frac{\partial f (x)}{\partial x_{n 1}} & . . . & \frac{\partial f (x)}{\partial x_{n n}} \end{matrix}]$ , vilket man sen kan se blir ab^t

Är jag rätt ute?

$\frac{\partial}{\partial x} a^{T} x$ = $[\begin{matrix} \frac{\partial}{\partial x_{1}} \\ ⋮ \\ \frac{\partial}{\partial x_{n}} \end{matrix}] [\begin{matrix} a_{1} & \dots & a_{n} \end{matrix}] [\begin{matrix} x_{1} \\ ⋮ \\ x_{n} \end{matrix}] = [\begin{matrix} \frac{\partial}{\partial x_{1}} \\ ⋮ \\ \frac{\partial}{\partial x_{n}} \end{matrix}] \sum_{k = 1}^{n} a_{k} x_{k} = [\begin{matrix} \frac{\partial \sum_{k = 1}^{n} a_{k} x_{k}}{\partial x_{1}} \\ ⋮ \\ \frac{\partial \sum_{k = 1}^{n} a_{k} x_{k}}{\partial x_{n}} \end{matrix}] = [\begin{matrix} a_{1} \\ ⋮ \\ a_{n} \end{matrix}]$ = $a$ .

Det här blev ju lite fult.

Vad är det för kurs och vad är det för lärobok?

På riktigt är en derivata av en skalär funktion kovariant (jmfr gradienten) och vanligtvis brukar man använda en notation där kovarianta vektorer är "transponerade"

T.ex.

$a^Tx=g_{jk}a^jx^k=a_kx^k\quad(=\mathbf{a\cdot x})$

Och därför är

$\frac{\partial (a^Tx)}{\partial x^m}=\frac{\partial(g_{jk}a^jx^k)}{\partial x^m}=g_{jk}a^j\delta^k_m=a_m$

Det är en kurs i Financial Econometrics och reglerna radas bara upp utan närmare förklaring och vi har inte arbetat med sånt här förut. I vilken mattekurs brukar man arbeta med sånt här?

Jag tror jag förstår såpass nu att jag kan ta mig fram i kursen men jag förstår inte det här på något djupare plan.

Jag tror inte det finns någon mattekurs där man går igenom eller använder det här. Däremot kan det säkert dyka upp i tillämpade kurser, t.ex. inom ekonomi, numerisk analys eller kontinuummekanik. Det är absolut inte någon standardkunskap eftersom man normalt sett använder mer generella metoder för att undersöka- och räkna med differentierbarhet.

För att formlerna ska fungera måste du begränsa dig till Kartesiska koordinater i euklidiska rum (försök inte byta koordinatsystem eller använda skaländrande transformationer) och notera att man använder den ovanliga och smått bisarra konventionen att derivatan av en skalär funktion (gradienten) tecknas som en kontravariant vektor (dvs som en radvektor).

Du behöver inte kunna härleda formlerna för att använda dem, men det är inget mystiskt med dem. Det är bara vanlig (partiell) derivering, ibland med formeln för derivatan av en produkt.

Då förstår jag bättre, tack så mycket för svaret! :)

Svara

Visa senaste svar