Zurück
Version vom 3.07.2016.
Themen-Navigation:
Partielle Ableitungen /Gradient
Richtungsableitung
Tangentialebene
Höhere Ableitungen /Taylorentwicklung
Extremalstellen - notwendige Kriterien
Extremalstellen - hinreichende Kriterien
Implizit definierte Funktionen
Kettenregel

Differentialrechnung im $ I\!\!R^2 $

Vorbemerkung: Die wesentlichen Konzepte der Differentialrechnung werden hier nur an Funktionen von 2 Variablen erklärt und unter starker Einbeziehung der Anschauung, wie etwa für die Physik ind Ingenieurmathematik benötigt.
Eine allgemeinere und mathematisch präziserer Darstellung erfolgt im Kapitel Differentialrechnung im $R^n$.

Der Graph einer Funktion $f$ von zwei Variablen $(x,y) \in G \subset I\!\!R^2 $ kann als Fläche im kartesischen Koordinatensystem (x,y,z) dargestellt werden. $$ z = f(x,y) \qquad (x,y) \in G \subset I\!\!R^2 $$ Wir sehen uns den Graphen der einfachen quadratische Funktion $$ f(x,y) = x^2 + y^2 \qquad (x,y) \in G = [-2;2] \times [-2;2] $$ aus zwei Perspektiven an.
Geplottet wurde über dem Rechtecksgebiet $G : -2 \le x \le 2, -2 \le y \le 2 $ also $ G = [-2;2] \times [-2;2] $. Grün ist die "Unterseite" des Graphen.

       
Abbildung 1.

Zum Vergleich dazu den Graphen der ebenso einfachen quadratischen Funktion $$ f(x,y) = x^2 - y^2 \qquad (x,y) \in G = [-2;2] \times [-2;2]$$ geplottet über demselben Gebiet aus zwei Perspektiven.


Abbildung 2.

Frage: Bei welchem der Graphen können wir eine Extremalstelle erwarten und wie können wir diese charakterisieren?

Partielle Ableitungen $ f: I\!\!R^2 \to I\!\!R $

Wenn die folgenden Grenzwerte existieren, nennen wir sie die partiellen Ableitungen von $f$ nach $x$ bzw $y$. $$ f_x(x,y) = { \partial f \over \partial x } (x,y) = \lim_{t \to 0} { f(x+t, y) - f(x,y) \over t } \qquad f_y(x,y) = { \partial f \over \partial y } (x,y) = \lim_{t \to 0} { f(x, y+t) - f(x,y) \over t } $$ Man kann also $f$ jeweils formal nach einer Variablen differenzieren und die andere wie eine Konstante behandeln. Geometrisch geben die partiellen Ableitungen die Steigungen des Funktionsgraphen jeweils in Richtung der Achsen an. Die Abkürzungen $f_x $ und $f_y $ benutzt man gerne, wenn die andere Schreibweise Formeln zu unübersichtlich macht. Weiterhin gebräuchlich sind die bruchfreien Schreibweisen $ \partial_{x} f $ und $ \partial_y f .$
Beispiel 1. $$ f(x,y) = x^2 + y^4 \qquad { \partial f \over \partial x } (x,y) = 2x \qquad , \qquad { \partial f \over \partial y } (x,y) = 4y^3 $$ Beispiel 2. $$ f(x,y) = x\sin(y) + x^2 -5y^4 \qquad { \partial f \over \partial x } (x,y) = \sin(y) + 2x \qquad { \partial f \over \partial y }(x,y) = x\cos(y) -20y^3 $$ Beispiel 3. $$ f(x,y) = \ln(x^2 + y^2) + \exp(x^2 - y^2 ) \qquad $$ $$ { \partial f \over \partial x } (x,y) = { 2x \over x^2 + y^2 } + 2x \exp(x^2 - y^2 ) \qquad { \partial f \over \partial y } (x,y) = { 2y \over x^2 + y^2 } - 2y \exp(x^2 - y^2 ) $$ Im Gradienten werden die partiellen Ableitungen zusammengefasst, sie zeigen den Anstieg (Änderung) der Funktion in x bzw y Richtung an: $$ \nabla f (x,y) = \left( { \partial f \over \partial x } (x,y) \ , \ { \partial f \over \partial y } (x,y) \right) $$ Der Gradient wird auch manchmal so bezeichnet: grad$f$ = $\nabla f (x,y) $ , meistens wird er als Zeilenvektor geschrieben. Die Gepflogenheiten sind nicht einheitlich in der Literatur. Ich bevorzuge hier die Zeilenschreibweise.

Richtungsableitung

1. Falls $f$ einen Gradienten besitzt: Den Anstieg des Graphen an einem Punkt $(x,y)$ in eine Richtung $\vec{h} \in I\!\!R^2 $ erhält man durch Skalarprodukt des Richtungsvektors $\vec{h} = (h_1,h_2) $ mit dem Gradienten $$ \nabla f (x,y) \bullet \vec{h} = {\partial f \over \partial x } \cdot h_1 + { \partial f \over \partial y } \cdot h_2 $$ Setzt man für $\vec{h} $ gerade die Richtung in einer Koordinatenachse, so erhält man genau die partiellen Ableitungen. Die Richtungsableitung misst also den Anstieg des Graphen in der gegebenen Richtung $\vec{h}.$

Beispiel: $ f(x,y) = x^2 - y^2 $ , $ h = (1, 1) / \sqrt{2} $ (Winkelhalbierende in der (x,y)-Ebene. )
$$ \nabla f (x,y) \bullet h = { 1\over \sqrt{2} } ( 2x - 2 y ) = \sqrt{2} (x -y) $$ Läuft man also genau über der Winkelhalbierenden in der (x,y) - Ebene (dort x=y) auf der Fläche, so ist der Anstieg Null, die Fläche ist über dieser Linie waagerecht. Man sieht das natürlich hier auch direkt an der Funktion $f(x,x) = 0 = f(y,y) , $ auf der Winkelhalbierenden sind die Funktionswerte konstant. Man sieht das auch oben im Plot des Graphen wenn man diagonal von Ecke zu Ecke der verzerrten Quadrate im Graphen geht.

2. Allgemeines Konzept der Richtungsableitung Bereits für Funktionen einer Variablen kann man links- und rechtsseitige Ableitungen definieren, es gibt in den reellen Zahlen ja nur die zwei Richtungen $ \pm$. Dieses Konzept überträgt sich sofort auf mehrere Variable, wenn man den Anstieg des Graphen in eine Richtung $\vec{h} $ mit dem entsprechenden Differentialquotienten misst: $$ f'((x,y); \vec{h} ) = \lim_{ t \to 0+} { f(x+ t \vec {h} ) - f(x) \over t } $$ Wenn dieser Grenzwert existiert, so ist ist er nicht notwendigerweise linear in $h$. Wenn die Funktion $f$ jedoch stetige partielle Ableitungen besitzt, so gilt (Satz) $$ f'((x,y); \vec{h} ) = \nabla f (x,y) \bullet \vec{h} $$

Anmerkung Bei Funktionen mehrerer Variablen treten die Eigenschaften "Stetigkeit" und "Differenzierbarkeit" in zwei Versionen auf: Einer schwachen Richtungseigenschaft (Richtungsstetigkeit / Richtungsdifferenzierbarkeit) und einer starken Umgebungseigenschaft (Stetigkeit/ sog. Frechet-Differenzierbarkeit). Man kann etwa Funktionen angeben, die in jeder Richtung im Nullpunkt stetig sind - wenn man auf Geraden in die Null läuft, erhält man immer denselben Grenzwert - aber nicht umgebungs-stetig. z.B. $$ f(x,y) = {xy \over (x^2 + y^4) } $$ Das soll hier aber nicht weiter vertieft werden.

Visualisierung: Eine Niveaulinie (Höhenlinie, Äquipotentiallinie) einer Funktion zu einem Niveau (Höhe) $c$ ist die Menge aller Punkte in der (x,y)-Ebene mit Funktionswert $c$. Also $$ (x,y)\in I\!\! R^2 : \quad f(x,y) = c $$
Frage: Wie sieht das Höhenlinienbild der Beispielfunktionen aus Abb. 1. und Abb, 2 aus?

Satz
Der Gradient von $f$ in einem Punkt $ (x,y) $ zeigt die Richtung des steilsten Anstiegs /Abstiegs des Graphen an diesem Punkt an.
Der Gradient steht senkrecht auf den Niveaulinien (Höhenlinien).
Der Betrag des Gradienten $ \sqrt{ \nabla f \bullet \nabla f } $ gibt das Maß des Anstiegs des Graphen an (Steigungsmaß).



Die Skizze zeigt das Niveaulinienbild einer Funktion in der $(x,y)$ Ebene und einige Gradienten. Je enger Niveaulinien beieinanderliegen, desto größer ist die Steigung. Aus dieser Eigenschaft kann man auch ein Verfahren zur numerischen Näherungsberechnung von Extremalstellen entwickeln - das Gradientenverfahren.

Niveaulinienbild in der (x,y) Ebene.


Tangentialebene

Die Definition der Tangentialebene an den Graphen einer Funktion $f$ an einem festen Punkt $(u, v) \in G$ erfolgt ganz analog zum eindimensionalen Fall der Tangentengleichung. $$ z = T_1(x,y) = f(u,v) + \nabla f(u,v) \bullet ( (x,y) - (u,v) ) \quad (x,u) \in I\!\! R^2 $$ ausgeschrieben $$ z = T_1(x,y) = f(u,v) + f_x(u,v)\cdot (x-u) + f_y(u,v)\cdot (y-v) $$ Es ist zugleich die Linearisierung der Funktion $f$ bzw die Taylorentwicklung vom Grad 1 von $f$ an der Stelle $$ f(x,y) = T_1(x,y) + R(x,y,u,v) $$ Das Restglied $R$ besteht aus 2. Potenzen und 2. Ableitungen an Zwischenstellen. Siehe auch hier (Wikipedia)

Für unser Beispiel $$ f(x) = x^2 + y^2, \quad \nabla f(x,y) = (2x, 2y) $$ hat die Tangentialebene am Punkt $ (u,v) = (2,2)$ damit die Gleichung $$ z(x,y) = f(2,2) + \nabla f (2,2) \bullet ( x-2, y-2) = 8 + (4, 4) \bullet ( x-2, y-2) = 4x + 4 y - 8 \qquad (x,y) \in I\!\! R^2 $$
Tangentialebene im Bild blau.

Die Ableitung einer Vektorfunktion $F = (f_1,f_2) : R^2 \to R^2 $, die Jacobimatrix

Die partiellen Ableitungen der Komponenten von $F$ werden in eine Matrix - die sogenannte Jacobimatrix gespeichert. Konvention ist dabei, die Ableitungen von $f_1$ in die erste Zeile zu speichern und die von $f_2$ in die zweite. $$ \nabla F = J_F(x,y) = \left( \begin{array}{cc} { \partial f_1 \over \partial x } (x,y) & { \partial f_1 \over \partial y } (x,y) \\ { \partial f_2 \over \partial x } (x,y) & { \partial f_2 \over \partial y } (x,y) \end{array} \right) $$ Eine spezielle Vektorfunktion (auch Vektorfeld) ist der Gradient einer skalaren Funktion $f$, also $$ F(x,y) = \nabla f(x,y) = (f_x, f_y) $$ Dessen Jacobimatrix wiederum ist eine Matrix von zweiten Ableitungen - siehe nächsten Abschnitt.

Höhere Ableitungen; Hessematrix und Taylorentwicklung

Die zweiten partiellen Ableitungen erhält man durch partielle Differentiation der ersten. Also: $$ {\partial \over \partial x } {\partial f \over \partial x } = {\partial^2 f \over \partial x^2 } \qquad {\partial \over \partial y } {\partial f \over \partial x } = {\partial^2 f \over \partial y \partial x } $$ Die zweiten partiellen Ableitungen einer Funktion speichert man in einer Matrix, der sogenannten Hessematrix. Diese ist also die Jacobimatrix des Gradienten von f, denn dieser ist eine Vektorfunktion.
Notation: $$ \nabla^2 f = H_f(x,y) = \left( \begin{array}{cc} { \partial^2 f \over \partial x^2 } (x,y) & { \partial^2 f \over \partial x \partial y } (x,y) \\ { \partial^2 f \over \partial y \partial x } (x,y) & { \partial^2 f \over \partial y^2 } (x,y) \end{array} \right) \quad \mbox{ in Kurzform: } H_f (x,y) = \left( \begin{array}{cc} f_{xx} (x,y) & f_{xy} (x,y) \\ f_{yx} (x,y) & f_{yy} (x,y) \end{array} \right) $$ Wenn die 2. partiellen Ableitungen stetig sind, dann sind die Ableitungen nach unterschiedlichen Variablen vertauschbar, somit $$ {\partial^2 f \over \partial y \partial x } = {\partial^2 f \over \partial x \partial y } $$ und $H_f$ ist symmetrisch.
Beispiele siehe hier
Die Taylorentwicklung vom Grad 1 hatten wir bereits bei der Tangentialebene.
Die Taylorentwicklung vom Grad 2 an einer Stelle $(u,v)$, einmal kompakt und einmal ausmultipliziert geschrieben $$ f(x,y) = f(u,v) + \nabla f(u,v) \bullet (x-u, y-v) + { 1\over 2! } (x-u, y-v) \cdot \nabla^2 f(u,v) { x-u \choose {y-v} } + R(x,y,u,v) $$ $$ = f(u,v) + f_x(u,v) \cdot (x-u) + f_y(u,v) \cdot (y-v) + $$ $$ + { 1\over 2!} ( f_{xx} (u,v) \cdot (x-u)^2 + f_{xy}(u,v) \cdot (x-u)(y-v) + f_{yx}(u,v) \cdot (x-u)(y-v) + f_{yy}(u,v) \cdot (y-v)^2 ) + R(x,y,u,v) $$ Das Restglied ist eine mühsam hinzuschreibende Summe von Potenzen 3. Ordnung und allen 3. Ableitungen von $f$, diese an Zwischenstellen. Wir unterstellen einmal, dass die 3. Ableitungen stetig sind, wir also nicht zwischen $f_{xyy} $ und $ f_{yxy} $ usw. unterscheiden müssen. $$ R = { 1\over 3!} ( f_{xxx}(\xi_1, \eta_1) (x-u)^3 + 3 f_{xxy} ( \xi_2, \eta_2) (x-u)^2(y-v) + 3 f_{xyy}( \xi_3, \eta_3) (x-u)(y-v)^2 + f_{yyy}( \xi_4, \eta_4) (y-v)^3 $$ Zwischenstellen: $$ \xi_k \in (x,u) \cup (u,x), \quad \eta_k \in (y,v)\cup (v,y) , \ k=1,2,3,4 $$ Beispiel/Aufgabe: Taylorentwicklung Grad 2 von $ \sin(x\cdot y) $ an $(u,v) = (0,0) . $

Extremalstellen und Optimalitätsbedingungen

Mit Hilfe des Gradienten kann man eine einfache notwendige Optimalitätsbedingung formulieren und sich damit - wie im eindimensionalen Fall - Kandidaten für lokale Extremalstellen verschaffen. Ob diese dann tatsächlich Extremalstellen sind, oder Sattelpunkte, muss man dann mit anderen Kriterien untersuchen.

Notwendige Optimalitätsbedingung.

(a) Unrestringiertes Optimierungsproblem $G= I\!\!R^2 $ : Wenn $(x,y) $ eine lokale Minimalstelle oder Maximalstelle von $f$ auf $I\!\!R^2$ ist, dann gilt $$ \nabla f (x,y) = 0 $$.

(b) Nur "scheinbar" restringiertes Optimierungsproblem: Wenn $(x,y) $ im Inneren von $G$ liegt und eine lokale Minimalstelle oder Maximalstelle von $f$ auf G ist, dann gilt $ \nabla f (x,y) = 0 $

(c) Die Menge $G$ sei bezüglich $(x,y) $ sternförmig. Wenn $(x,y) $ eine lokale Minimalstelle ist, dann gilt $$ \nabla f(x,y) \bullet (u-x, v-y) \ge 0 \quad \mbox{ für alle } (u,v) \in G $$ Wenn $(x,y)$ eine lokale Maximalstelle von $f$ auf G ist, so gilt $$ \nabla f(x,y) \bullet (u-x, v-y) \le 0 \quad \mbox{ für alle } (u,v) \in G $$ Bedingung (a) und (b) bedeuten geometrisch: Die Tangentialebene in diesem Punkt ist waagrecht (parallel zur (x,y) Ebene, der Anstieg in jede Richtung ausgehend von der Extremalstelle $(x,y) $ ist Null.
Geometrisch interpretiert bedeuten die (Variations-)Ungleichungen in (c): Wenn man von einer Minimalstelle am Rand des Gebietes aus in das Innere der Gebietes geht, steigt man auf, bei einer Maximalstelle steigt man ab. Falls $(x,y) $ im Inneren der Menge $G$ liegt, dann reduziert sich (c) zu (b). Die Bedingung (c) ist also sowohl für innere als auch Randpunkte der Menge $G$ anwendbar und enthält (b) und (a) als Sonderfälle.

Die Nullstellen des Gradienten nennt man auch stationäre Punkte. Die Tangentialebene in diesen Nullstellen ist parallel zur (x,y)-Ebene.
Zu den benutzten Begriffen: Ein Punkt liegt "im Inneren" einer Menge, wenn es eine Umgebung um den Punkt (hier z.B. einen Kreis) gibt, der auch in der Menge liegt. Man kann also von diesem Punkt aus in jede Richtung ein Stück gehen, ohne die Menge zu verlassen. Bei der Bestimmung einer Extremalstelle spielt somit die gesamte Umgebung dieser Stelle eine Rolle, deswegen spreche ich in (b) von einem scheinbar restringierten Problem (auch bei beschränkter Menge $G \subset I\!\! R^2 $) - die Optimalitätsbedingung für einen Punkt im Inneren der Menge ist dieselbe wie beim unrestringierten Problem. Man sagt auch: die Restriktionen sind nicht aktiv.

Eine Menge ist sternförmig bezüglich eines Punktes wenn jede Verbindungsstrecken von diesem Punkt aus zu einem beliebigen Punkt in der Menge auch in der Menge liegt. Im Bild:



Linkes Bild: Der rote Punkt liegt im Inneren der Menge weil ein Kreis um ihn ebenfalls in der Menge liegt. Mittleres und rechtes Bild Die Bedingung "sternfömig" bezüglich eines Punktes ist schwächer als "konvexe Menge". Bei Konvexität müssen alle Verbindungsstrecken zwischen Punkten der Menge in der Menge liegen. Eine konvexe Menge ist also sternförmig bezüglich jedes ihrer Punkte.

Wir betrachten wieder die Funktionen der ersten Beispiels (Abb. 1) ganz oben. $$ f(x,y) = x^2 + y^2 \qquad (x,y) \in G = [-2;2] \times [-2;2] $$ am Punkt $(x,y) =(0,0) $ der im Inneren von $G$ (blaues Quadrat) liegt, ist $ \nabla f(0,0) = 0 $. Dieser Punkt ist tatsächlich eine lokale Minimalstelle von $f$ auf G wie man an Abbildung 1 bzw. mit Hilfe weiterer Kriterien (unten) sieht. Da der Gradient von $f$ keine weiteren Nullstellen hat (auch nicht auf dem ganzen Raum $I\!\!R^2 $) ist $(0,0)$ auch globale Minimalstelle.
Das Bild des Graphen von $f$ oben (Abb. 1) legt nahe, dass die Maximalstellen von $f$ genau in den Ecken von $G$ liegen, Sie sind also keine inneren Punkte. Tatsächlich ist dort die notwendige Optimalitätsbedingung (c) erfüllt.

Man kann diese am Bild rechts in der (x,y) Ebene graphisch veranschaulichen: Die Niveaulinie zu $ f(x,y) = 8 $ , ist ein Kreis mit Radius $\sqrt{8} $, so gewählt, dass er die Menge $G$ (das innenliegende Quadrat) genau am Eckpunkt berührt. Das Skalarprodukt des Gradienten von $f$ an der Stelle $(2,2) $ mit allen Vektoren $ (u,v) - (2,2) , (u,v) \in G $ ist kleiner oder gleich Null wie im Kriterium (c) beschrieben. (Skalarprodukt: Produkt der Beträge mal Kosinus des Winkels zwischen den Vektoren).

Rechnerischer Nachweis:
$ \nabla f (2,2) = (4,4) $ $$ \nabla f (2,2) \bullet (u-2, v-2) = 4(u-2) + 4 (v-2) \le 0 \quad \mbox{ für alle } (u,v) \in G $$ denn $(u,v) \in G $ bedeutet $ u\le 2 $ und $ v \le 2 $. Für die anderen drei Eckpunkte von G $(-2,-2), (-2,2) , (2,-2) $ geht der Nachweis ganz analog.



Wir betrachten nun die zweite Beispielfunktion (Abb.2) $$ f(x,y) = x^2 - y^2 \qquad (x,y) \in G = [-2;2] \times [-2;2] $$ Im Punkt $(x,y) =(0,0) $, der im Inneren von $G$ liegt, ist auch hier $$ \nabla f(x,y) = ( 2x, -2y) , \qquad \nabla f(0,0) = 0 $$. Dieser Punkt ist keine Minimalstelle oder Maximalstelle wie man am Bild sieht. Geht man auf der $x$ Achse den Graphen entlang, kommt man zu größeren Werten, auf der $y$ Achse zu kleineren. $f(0,y) = - y^2 \lt 0 $ für $y \ne 0. $ Nicht jede Nullstelle eines Gradienten ist somit eine Extremalstelle.

Wie bei Funktionen einer Variablen, muss auch hier separat das Verhalten an den Rändern von $G$ beachtet werden. Abb. 2 legt nahe, dass sich dort relative Extremalstellen von $f$ befinden.
Da $G$ ein Quadrat ist, kann man die Ränder einfach parametrisieren und einsetzen, erhält dann ein Optimierungsproblem in einer Variablen, wie aus der Schulmathematik bekannt.
Zum Beispiel Rand bei $x=2, y \in [-2;2 ] $: Parametrisierung $ x(t) = 2, y(t) = t ; t \in [-2;2 ] $ ,
Löse das Minimierungsproblem in einer Variablen: $$ \min_{t \in [-2;2] } f(x(t), y(t) = 2^2 - t^2 $$ Lösung: $ t=0$.

Mit Hilfe von Niveaulinien kann man sich die Situation noch einmal verdeutlichen.

Hinreichende Kriterien für Extremalstellen

Hierzu benötigen wir die zweiten partiellen Ableitungen. Diese erhält man durch partielle Differentiation der ersten. Also: $$ {\partial \over \partial x } {\partial f \over \partial x } = {\partial^2 f \over \partial x^2 } \qquad {\partial \over \partial y } {\partial f \over \partial x } = {\partial^2 f \over \partial y \partial x } $$ usw. $f$ sei hier also nun zweimal stetig differenzierbar. Die zweiten Ableitungen speichert man in der sogenannten Hessematrix der Funktion $f$. $$ H_f(x,y) = \left( \begin{array}{cc} { \partial^2 f \over \partial x^2 \partial x } (x,y) & { \partial^2 f \over \partial x \partial y } (x,y) \\ { \partial^2 f \over \partial y \partial x } (x,y) & { \partial^2 f \over \partial y^2 } (x,y) \end{array} \right) \quad \mbox{ in Kurzform: } H_f (x,y) = \left( \begin{array}{cc} f_{xx} (x,y) & f_{xy} (x,y) \\ f_{yx} (x,y) & f_{yy} (x,y) \end{array} \right) $$ Bei zweimal stetig differenzierbaren Funktionen sind die Ableitungen nach unterschiedlichen Variablen vertauschbar, somit $$ {\partial^2 f \over \partial y \partial x } = {\partial^2 f \over \partial x \partial y } $$ und $H_f$ ist symmetrisch. Für unser einfaches Eingangsbeispiel $f(x,y) = x^2 + y^2 $ erhalten wir nun die Diagonalmatrix $$ f(x) = x^2 + y^2 \quad \Rightarrow \quad H_f (0,0) = \left( \begin{array}{cc} 2 & 0 \\ 0 & 2 \end{array} \right) $$ Die Einträge auf der Diagonalen sind einerseits positiv, andererseits sind das bei einer Diagonalmatrix auch genau die Eigenwerte der Matrix. Sie ist also hier positiv definit. Auch die Hauptminoren 2 und 4 (Determinanten der Hauptuntermatrizen entlang der Diagonalen) sind positiv. Wir hatten schon anhand des Plots gesehen dass $(0,0$ die Minimalstelle der Funktion ist.

Tatsächlich lassen sich die Beobachtungen an diesem Beispiel auch zu allgemeinen hinreichenden Kriterien verallgemeinern. Eine Taylorentwicklung wie im eindimensionalen Fall zeigt uns, dass positive Definitheit der Hessematrix zusammen mit der Nullstelle des Gradienten eine Mininimalstelle hinreichend beschreibt. $$ f(u,v) = f(x,y) + \nabla f (x,y) \bullet (u-x, v-y) + (u-x, v-y) \bullet H \bullet (u-x, v-y)^T + O(|u-x|^3 , |v-y|^3 ) $$ Wenn nun $ \nabla f (x,y) = 0 $ und $H_f $ positiv definit ist, also $$ (u-x, v-y) \cdot H (u-x, v-y)^T \ge c \lambda_{min} ( |u-x|^2 + |v-y|2^) $$ dann ergibt das für alle Punkte $(u,v) $ hinreichend nahe an $x,y$ gerade $$ f(u,v) \gt f(x,y) $$ somit ist $(x,y) $ lokale Minimalstelle.
Wie haben also folgende Aussage begründet, die sinngemäß auch für Funktionen mit mehr als zwei Variablen gilt.

Satz (allgemeines hinreichendes Optimalitätskriterium).
Wenn $ \nabla f (x,y) = 0 $ und wenn $H_f(x,y) $ positiv definit ist, dann ist $(x,y) $ eine lokale Minimalstelle von $f$ auf $ I\!\!R^2 $.
Wenn $ \nabla f (x,y) = 0 $ und wenn $H_f(x,y) $ negativ definit ist, dann ist $(x,y) $ eine lokale Maximalstelle von $f$ auf $ I\!\!R^2 $.
Dies gilt sinngemäß auch, wenn $(x,y) $ ein innerer Punkt von $G$ ist.

Es ist die Verallgemeinerung des schon bekannten hinreichenden $f'(x) = 0 $ und $f''(x) \gt 0 0 $ bzw $f''(x) \lt 0 $ Kriteriums (vgl. Mathematik/Schule) vom ein- auf auf den mehrdimensionalen Fall.
Für positive bzw negative Definitheit stellt die lineare Algebra Kriterien bereit, zum Beispiel das Determinantenkriterium.

Satz (Positive Definitheit über Minoren ) Wenn alle Hauptminoren positiv sind, dann ist $H$ auch positiv definit.

Bei negativer Definitheit muss man achtgeben, hier müssen die Hauptminoren bestimmte alternierende Vorzeichen haben! Der Grund: $H$ ist negativ definit genau dann, wenn $-H$ positiv definit ist.
Für die Determinanten gilt beim Vorzeichenwechsel einer Matrix ganz allgemein $ Det(-H) = (-1)^n Det(H) $ wobei $n$ die Dimension der Matrix ist.
Für eine negativ definite Matrix muss also der erste Hauptminor (Stufe 1, das erste Element von $H$ hier also $f_{xx} $ ) negativ sein, der zweite wieder positiv usw.
Da wir hier nur zwei Variable haben, gibt es also nur zwei Hauptminoren, der erste ist $f_{xx} $ und der zweite gerade $Det(H)$. Also ist $H$ negativ definit wenn $ f_{xx} \lt 0 $ und $ Det(H_f) \gt 0 $.

Damit erhalten wir nun speziell für Funktionen von zwei Variablen ein sehr einfach zu handhabendes hinreichendes Kriterium für Minimal- bzw . Maximalstellen.

Satz (hinreichendes Optimalitätskriterium für eine Funktion von 2 Variablen) :
Es sei $ f : G \to I\!\! R $, $(x,y) $ ein Punkt aus dem Inneren von $G$ mit der Eigenschaft $ \nabla f (x,y) = 0 $ (Nullstelle des Gradienten) und $Det(H_f(x,y)) \gt 0 . $
(a) Wenn $f_{xx}(x,y) \gt 0 $ dann ist $(x,y) $ eine Minimalstelle von $f$ auf $G$.
(b) Wenn $f_{xx}(x,y) \lt 0 $ dann ist $(x,y) $ eine Maximalstelle von $f$ auf $G$.

Wenn $Det(H_f(x,y)) \lt 0 $ dann ist die Matrix indefinit (ein positiver und ein negativer Eigenwert ) und es liegt ein Sattelpunkt vor. Das ist z.B. bei $ f(x,y) = x^2 - y^2 $ der Fall, unserem zweiten quadratischen Beispiel. Eigenwerte von $H$ hier 2 und -2.
Wenn $Det(H) = 0$ vorliegt, kann mit diesem Kriterium keine Aussage getroffen werden.
Da $H$ eine 2x2 Matrix ist, kann man über das Determinantenvorzeichen weiteres erschließen. $f$ sei zweimal stetig differenzierbar, damit $ f_{xy} = f_{yx} . $ $$ H_f (x,y) = \left( \begin{array}{cc} f_{xx} (x,y) & f_{xy} (x,y) \\ f_{yx} (x,y) & f_{yy} (x,y) \end{array} \right) $$ $$ Det H \gt 0 \Leftrightarrow f_{xx} f_{yy} - f_{xy}^2 \gt 0. $$ Wenn also $ Det H > 0 $ ist, dann müssen $ f_{xx} $ und $ f_{yy} $ zwangsläufig dasselbe Vorzeichen besitzen, und ungleich Null sein, damit $ Det H = f_{xx} f_{yy} - f_{xy}^2 \gt 0$ gilt, denn vom Produkt wird etwas Nichtnegatives subtrahiert. $ f_{xx} $ und $ f_{yy} $ sind also entweder beide positiv( Minimalstelle) oder beide negativ (Maximalstelle) wenn $Det H \gt 0 $ ist. Man könnte damit im Satz auch die Bedingung (a) für eine Minimalstelle auch durch die Bedingung $f_{yy} \gt 0 $ ersetzen usw.


Beispiel 1. $$ f(x,y) = x^2 + y^2 + xy + 4x, \qquad G = I \!\! R $$ $$ \nabla f (x,y) = ( 2x + y + 4 , 2y + x ) = (0,0) \Rightarrow y = { 4 \over 3 } , x = - { 8 \over 3 } $$ $$ H_f (x,y) = \left( \begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right) $$ $$ 2 \gt 0 , \quad Det( H_f) = 3 \gt 0 \Rightarrow (x,y)= (-8/3 , 4/3) \mbox{ ist Minimalstelle von f auf G } $$ Beispiel 2.
Berechnen Sie für die Funktion $$ f(x,y) = x^4 + y^2 -2x^2 , \quad (x,y) \in I\!\!R^2 $$ zunächst den Gradienten und dessen Nullstellen. Untersuchen Sie dann, welche dieser Nullstellen eine lokale Minimal- bzw lokale Maximalstelle ist. (Begründung über passendes Kriterium!)
Lösung Beispiel 2
$$ \nabla f (x,y) = (4x^3 - 4x; 2y ) = 0 \qquad 4x(x^2 - 1) = 0 \Rightarrow x_1=0,\ x_{2,3} =\pm 1 \quad 2y= 0, y=0 $$ Nullstellen des Gradienten sind Kandidaten für Extremalstellen: $ P_1 = (0;0),\ P_2=(-1;0),\ P_3 = (1;0 ) .$
Klassifizierung der mögl. Extremalstellen über die Determinante der Hessematrix $$ H_f (x,y) = \left(\begin{array}{rr} 12x^2 - 4 & 0 \\ 0 & 2 \end{array} \right) $$ $P_1: det(H_f(P_1)) = - 8\lt 0 $ Sattelpunkt.
$P_2: det(H_f(P_2) ) = 16 \gt 0 , f_{xx}(P_2)=8 \gt 0 $: Lokale Minimalstelle
$P_3: det(H_f(P_3) ) = 16 \gt 0 , f_{xx} (P_3)=8 \gt 0 $: Lokale Minimalstelle


Bilder zur Veranschaulichung dieses Beispiels: Betrachte das Niveaulinienbild (contour plot): Kreisförmig geschachtelte Niveaulinien: Minimal- oder Maximalstellen, sich kreuzende Niveaulinien: Sattelpunkt.

Zur Anwendbarkeit des hinreichenden Optimalitätskriteriums.
Wie schon Fall einer Funktion einer Variablen ( z.B. $ f(x) = x^4 , f'(0)= 0, f''(0) =0, 0 $ ist jedoch Minimalstelle,) zu sehen war, gibt es Fälle, in denen das hinreichende Kriterium über die zweiten Ableitungen nicht greift, obwohl Extremalstellen vorliegen.
Beispiel $$ f(x,y) = x^2 + y^4, \quad D(f) = I\!\! R^2 , \quad \nabla f (x,y) = (2x, 4y^3) \quad $$ $$ H_f(x,y) = \left( \begin{array}{cc} 2 & 0 \\ 0 & 12y^2 \end{array} \right) $$ An der Stelle $ (x,y) = (0,0) $ wird der Gradient Null, die Determinante der Hessematrix leider auch. Insofern macht das Kriterium hier keine Aussage. Ein Plot der Funktion (rechts) zeigt jedoch, was man sofort vermutet hätte. $(0,0) $ ist hier (lokale und globale) Minimalstelle, in jeder Umgebung dieser Stelle sind nur größere Funktionswerte zu finden.
Daher hat man in der Optimierungstheorie weitreichendere und allgemeinere Konzepte entwickelt, um solche Fälle auch zu erfassen, etwa (strikte) Konvexität einer Funktion ( dies ist hier der Fall)
Hier nur kurz am Beispiel angedeutet (vgl. auch Schulmathematik, Differentialrechnung 1) :

Die Funktion $f=x^2 + y^4 $ ist, wie man direkt etwas mühsam nachweisen kann, strikt konvex auf dem gesamten $R^2 $ , d.h. sie erfüllt die Ungleichung $$ f( t (x,y) + (1-t) (u,v) ) \lt t f(x,y) + (1-t) f(u,v) \quad \mbox{ für alle } 0\lt t \lt 1 , (u,v) \in I\!\! R^2 \qquad (*) $$ sogar für jeden beliebigen Punkt $(x,y). $
Geometrisch bedeutet das: Die Verbindungsstrecke zwischen zwei Funktionswerten liegt stets oberhalb der Funktionswerte der Verbindungsstrecke der beiden Punkte $(x,y) $ und $(u,v)$, an denen wir die Funktionswerte nahmen. Wir brauchen diese Eigenschaft hier jedoch nur am Nullpunkt $ (x,y) = (0,0). $ In diesem Spezialfall (Nullpunkt, Funktionswert Null) reduziert sich die Bedingung $$ f( s (u,v) ) \lt s f(u,v) \quad \mbox{ für alle } 0\lt s \lt 1 , \ (u,v) \in I\!\! R^2 $$ Anschaulich: In welcher Richtung man auch immer aus dem Nullpunkt ein Stückchen herausläuft, es geht immer strikt bergauf. Dies ist hier erfüllt, wie durch kurze Abschätzung zu sehen. $$ f( s (u,v) ) = s^2 u^2 + s^4 v^4 \lt s( u^2 + v^4) = s f(u,v) \quad \mbox{ für alle } 0\lt s \lt 1 , \ (u,v) \in I\!\! R^2 $$ denn für $ 0\lt s \lt 1 , $ ist stets $ s^4 \lt s^2 \lt s .$

Damit greift hier ein allgemeineres Kriterium:

Satz Wenn $\nabla f (x,y) =0$ , $G$ sternförmig bezüglich $ (x,y) $ und $f$ strikt konvex an $(x,y) $ ist, dann ist $(x,y) $ auch lokale Minimalstelle von $f$ auf $G$.
Ist $f$ zusätzlich strikt konvex auf der gesamten Menge $G$ (also (*) erfüllt auch für alle $(x,y) \in G$ ) so ist $(x,y)$ auch globale Minimalstelle von $f$ auf $G. $

Beispiel für "Bergkämme" ohne strikte Extremalstellen $$ f(x,y) = \sin( \pi xy ), \qquad (x,y) \in G = [-2;2]\times [-2;2] $$

Über Höhenlinien $ \sin( \pi xy ) = \pm 1 $ (diese sind Hyperbeln in der (x,y) Ebene, $ \pi xy = \pi/2 \pm 2k\pi $ ) ist die Funktion konstant und es liegen Extremalstellen in einem schwächeren Sinne vor. In jeder Umgebung etwa eines Punktes $(x,y) $ mit $ \sin( \pi xy ) = 1 $ gibt es echt kleinere Funktionswerte aber auch gleich große. Geht man von dem Punkt in irgendeine Richtung, die nicht tangential zu den Höhenlinien ist, so steigt man ab. Tangential zur Höhenlinie ist die Steigung Null. Es liegt dort aber auch kein Sattelpunkt vor wie in Beispiel Abb. 2, denn es gibt keine größeren Funktionswerte in der Umgebung.
Tatsächlich erhält man alle diese schwächeren Extremalstellen auch als Nullstellenmenge des Gradienten : $$ \nabla f(x,y) = ( \pi y \cos( \pi xy)\ , \ \pi x \cos(xy) ) = 0 $$ falls
1. $ x=0 $ und $y=0$ , oder
2. $ \cos( \pi xy) = 0 $ also $ \pi xy = \pi/2 + k \pi $.

Kettenregeln

1. Ein einfacher Fall der Verkettung liegt vor, wenn die Variablen selber Funktionen nur einer Variablen sind (z.B. Bahnkurve, Änderung einer Funktion entlang einer Bahnkurve ) $$ x=x(t), y = y(t), t \in I \quad { d \over dt } f(x(t), y(t) ) = f_x\cdot x' + f_y\cdot y' = \nabla f (x(t), y(t)) \bullet (x'(t), y'(t) ) $$ 2. Wenn die Variablen $ x $ und $y$ jeweils Funktionen von zwei Variablen sind, zum Beispiel Koordinatentransformationen $R^2 \to R^2 $ differenziert man die Verkettung wie in 1. , nur komponentenweise. $$ x = x(u,v) , \ y = y(u,v) $$ $$ { \partial \over \partial u } f(x(u,v), y(u,v) ) = f_x\cdot x_u + f_y\cdot y_u = \nabla f (x(t), y(t)) \bullet (x_u, y_u ) $$ $$ { \partial \over \partial v } f(x(u,v), y(u,v) ) = f_x\cdot x_v + f_y\cdot y_v = \nabla f (x(t), y(t)) \bullet (x_v, y_v ) $$ In Matrizenschreibweise schreibt sich das zusammengefasst als Produkt des Gradienten bzw (x,y) und der sogenannten Jacobi-Matrix der partiellen Ableitungen von $x$ und $y$ so (Zeilenvektor mal Matrix): $$ \nabla_{u,v} f(x(u,v), y(u,v) ) = \nabla_{x,y} f(x(u,v), y(u,v) ) \cdot \left( \begin{array}{cc} x_u & x_v \\ y_u & y_v \end{array} \right) $$


Beispiel: Transfomation auf Polarkoordinaten. Umrechnung eines Gradienten in Polarkoordinaten
Kreisförmig berandete Gebiete beschreiben sich einfacher mit Polarkoordinaten, rotationsymmetrische Funktionen auch. (vgl. Integration $R^2$ ). $$ x(r , t ) = r \cos(t ) , \quad y(r,t) = r \sin(t) \quad 0 \lt r \lt \infty , 0 \le t \le 2\pi $$ (für die Variable $t$ sind auch andere Intervalle der Länge $2 \pi $ üblich, etwa $ [- \pi ; \pi ] $ ) $$ \nabla_{r,t } f(x(r,t), y(r,t) ) = \nabla_{x,y} f(x(r,t), y(r,t) ) \cdot \left( \begin{array}{cc} \cos(t) & - r \sin(t) \\ \sin(t) & r \cos(t) \end{array} \right) $$ Für zum Beispiel $f(x,y) = \exp( x^2 + y^2 ) $ ergibt sich damit $$ \nabla_{x.y} f (x,y) = (2x , 2y ) \exp(x^2 + y^2 ) $$ In Polarkoordinaten wegen $x(r,t) ^2 + y(r,t)^2 = r^2 $ $$ \nabla_{r,t } f(x(r,t), y(r,t) ) = e^{r^2 } ( 2 r \cos(t) , 2r \sin(t) ) \left( \begin{array}{cc} \cos(t) & - r \sin(t) \\ \sin(t) & r \cos(t) \end{array} \right) = ( e^{r^2 } 2r , 0 ) $$ Da Ergebnis mit der Null überrascht nur auf den ersten Blick. Der Graph von $f$ ist rotationssymmetrisch, der Graph entspricht der Rotation der $\exp(x) $ Funktion im die $z$ Achse. Somit ändern sich bei Winkeländerungen ( diese misst die zweite Komponente in $\nabla_{r,t } f $ ) auch keine Funktionswerte, man läuft genau auf der Höhenlinie $f(x,y) = c $ entlang.

Implizite Funktionen und Implizites Differenzieren

Anschaulich: Wir betrachten die Nullstellenmenge einer Funktion $f(x,y) $, also den Schnitt des Graphen von $f$ mit der $(x,y)$ Ebene. Mathematisch formuliert: $$ \{ (x,y)| \ f(x,y) = 0 \} $$ Dabei können wir verschiedene "Gebilde " erwarten: Die leere Menge, einen Punkt, eine Kurve oder auch eine Fläche. Uns interessiert hier die Kurve in der (x,y)-Ebene und die Frage wann dadurch eine Funktion $y(x), x\in D(y) $ gegeben ist. Die Kurven sind in der Physik zum Beispiel Potentiallinien.
Fragestellung: Unter welchen Voraussetzungen wird durch die Gleichung $$ f(x,y) = 0 $$ (implizit) eine Funktion $ y(x) $ definiert und wie lautet ihre Ableitung nach $x$ ?

Beispiel $$ f(x,y) = x^2 + y^2 -1 =0 $$ Durch die Gleichung wird die bekannte Kreislininie des Einheitskreises definiert.

Dieses Beispiel hat den Vorzug, dass wir explizit nach $y$ auflösen und damit genauer untersuchen können. $$ y= \pm \sqrt{ 1- x ^2 } \quad -1\lt x \lt 1 $$ Es stehen hier also zwei mögliche Funktionen zur Auswahl. Zugleich sehen wir $$ f_y (x,y) = 2y \gt 0 \mbox{ für } y \gt 0 \mbox{ (oberer Halbkreis ) und } f_y (x,y) = 2y \lt 0 \mbox{ (untere Halbkreis ) } $$ Nehmen wir also einen Punkt $(u,v) $ auf der Kreislinie, der also die Gleichung $f(u,v) = 0 $ erfüllt, und an dem $ f_y(u,v) \ne 0 $ ist, dann ist in der Umgebung der Stelle $u$ auch $y$ als Funktion von $x$ festgelegt. Etwa für $(u,v) = (0,5, \sqrt{ 1- 0,5^2} $ (Punkt A im oberen Halbkreis. ) , $ y(x) = \sqrt{ 1- x^2 }, $ Nehmen wir $(u,v) = (0,5, -(0,5, \sqrt{ 1- 0,5^2} $ (Punkt B im unteren Halbkreis) so erhalten wir auch dort eine lokal definierte Funktion $y$.
Es gibt nur zwei Stellen an denen das nicht geht: $ u=-1 und u=1 .$ In jedem Intervall um diese Stellen erhalten auf der Kreislinie wir zwei passende $y$ Werte, dort kann man also keine Funktion $y(x) $ definieren. Es ist dort auch $ f_y(u,v) = 0 $ denn $v=0$.
Beachte: Bei jedem Punkt, den wir auf der Kreislinie wählen, erhalten wir zunächst ein unterschiedlich großes Definitionsintervall (orange im Bild).
Dies motiviert den folgenden Satz über implizite Funktionen:

Die Funktion $f(x,y)$ sei nach beiden Variablen stetig differenzierbar und es gebe einen Punkt $(u,v) $ mit $$ f(u,v) = 0 \qquad f_y (u,v) \ne 0 $$ Dann gibt es ein Intervall $I $ um $u$, sodass dort eine Funktion $y(x), x\in I $ existiert mit $$ f(x,y(x) ) = 0 , \ x \in I $$ Deren Ableitung $y' $ können wir auch (implizit) angeben , indem wir die Funktion $ f(x,y(x)) , x \in I$ nach $x$ differenzieren. $$ 0= { d \over dx } f(x, y(x) ) ) = f_x + f_y y' = 0 \Rightarrow y' = - { f_x \over f_y } $$

Nochmal: Der Satz macht keinerlei Aussage über die Größe des Definitionsintervalls der implizit gegebenen Funktion $y$ . Das kann er auch gar nicht allgemein, siehe Beispiel oben, denn es hängt von der gefundenen Nullstelle $(u,v)$ ab. Um den Satz anwenden zu können, muss man also zunächst eine Lösung $(u,v) $ der Gleichung $$ f(x,y) =0$$ ermitteln und dann an diesem Punkt die Bedingung $ f_y(u,v) \ne 0 $ nachprüfen.
Beispiel: $$ f(x,y) = y + sin(xy) $$ Eine explizite Auflösung nach $y$ ist hier nicht möglich. Eine Nullstelle von $f$ ist offenbar $ (u,v) = (0,0) $. $$ f_y (x,y) = 1 + x \cos(xy) , \quad f_y (0,0) = 1 \gt 0 $$ Also wird implizit in einem Intervall um den Nullpunkt eine Funktion $ y(x) $ definiert. Die Ableitung dieser Funktion ist wieder implizit gegeben: $$ y' = { y \cos(xy) \over 1 + x \cos(xy) } $$ Bem: Wenn wir diese Differentialgleichung explizit lösen könnten, dann hätten wir $y$ auch explizit als Funktion von $x$.