|
|
|
@@ -0,0 +1,157 @@ |
|
|
|
\documentclass{lecture} |
|
|
|
|
|
|
|
\begin{document} |
|
|
|
|
|
|
|
\section{Extremalaufgaben mit Nebenbedingungen} |
|
|
|
|
|
|
|
Problemstellung: ,,Restringierte`` Optimierungsaufgabe mit Gleichungsnebenbedingungen. |
|
|
|
|
|
|
|
Sei $f\colon D \to \R$ und $g\colon D \to \R^{k}$, $D \subseteq \R^{n}$. |
|
|
|
Wir suchen einen Punkt $\hat{x} \in D$, s.d. $\hat{x} \in S \coloneqq \{ x \in D \mid g(x) = 0\} $ und |
|
|
|
$\exists U(\hat{x})$ s.d. $f(\hat{x}) \le f(x)$, $\forall x \in U(\hat{x}) \cap S$. \\ |
|
|
|
Dann heißt $\hat{x}$ lokales Minimum unter Nebenbedingung $g(x) = 0$. Analog: lokales Maximum unter |
|
|
|
Nebenbedingung $\hat{x} \in S$, s.d. $\exists U(\hat{x})$ mit $f(\hat{x}) \ge f(x)$ |
|
|
|
$\forall x \in U(\hat{x}) \cap S$. |
|
|
|
|
|
|
|
\begin{satz}[Multiplikatorregel von Lagrange: Notwendige Bed. 1. Ordnung für lokales Minimum unter |
|
|
|
Nebenbedingungen] |
|
|
|
\label{satz:lagrange-mult} |
|
|
|
Sei $D \subseteq \R^{n}$ offen, $f\colon D \to \R$ und $g\colon D \to \R^{k}$ partiell stetig |
|
|
|
differenzierbar. Sei $\hat{x} \in D$ ein Extremum unter der Nebenbedingung |
|
|
|
$g(x) = 0$ und die Gradienten $\nabla g_1(\hat{x}), \ldots, \nabla g_k(\hat{x})$ |
|
|
|
seien linear unabhängig in $\R^{n}$. Dann gilt |
|
|
|
\[ |
|
|
|
\exists \hat{\lambda} = \begin{pmatrix} \hat{\lambda}_1 \\ \vdots \\ \hat{\lambda}_k \end{pmatrix} |
|
|
|
\in \R^{k} \text{ mit } |
|
|
|
\sum_{i=1}^{k} \hat{\lambda}_i \nabla g_i(\hat{x}) = \nabla f(\hat{x}) |
|
|
|
(\iff \nabla g(\hat{x}) \hat{\lambda} = \nabla f(\hat{x})) |
|
|
|
.\] |
|
|
|
Die Zahlen $\hat{\lambda}_1, \ldots, \hat{\lambda}_k$ heißen \underline{Lagrange-Multiplikatoren}. |
|
|
|
\end{satz} |
|
|
|
|
|
|
|
\begin{proof} |
|
|
|
Nach Voraussetzungen gilt |
|
|
|
\[ |
|
|
|
\frac{\partial g_i(\hat{x})}{\partial x} = |
|
|
|
\underbrace{\left( \frac{\partial g_i(\hat{x})}{\partial x_1}\ldots \frac{\partial g_i(\hat{x})}{\partial x_n} \right)}_{i = 1\ldots k, \text{linear unabhängige Vektoren}} |
|
|
|
.\] Also hat $\frac{\partial g}{\partial x}(\hat{x}) \in \R^{k \times n}$ Rang $k$. |
|
|
|
O.B.d.A. die ersten $k$ Spalten von $\frac{\partial g}{\partial x}(\hat{x})$ bilden |
|
|
|
eine quadratische invertierbare Matrix. |
|
|
|
Dann lassen sich $x$ und $\frac{\partial g}{\partial x}(\hat{x})$ aufspalten: |
|
|
|
\[ |
|
|
|
x = \begin{pmatrix} y \\ z \end{pmatrix} |
|
|
|
\quad |
|
|
|
\underbrace{\frac{\partial g}{\partial x}(\hat{x})}_{\in \R^{k \times n}} |
|
|
|
= |
|
|
|
\Big( \underbrace{\frac{\partial g}{\partial y}(\hat{x})}_{\in \R^{k \times k}} ; |
|
|
|
\underbrace{\frac{\partial g}{\partial z}(\hat{x})}_{\in \R^{k \times (n-k)}} \Big) |
|
|
|
.\] mit $y \in \R^{k}$, $z \in \R^{n-k}$ und |
|
|
|
$\frac{\partial g}{\partial y}(\hat{x}) \in \R^{k \times k}$ regulär. |
|
|
|
|
|
|
|
Setze $\hat{x} = \begin{pmatrix} \hat{y} \\ \hat{z} \end{pmatrix}$. |
|
|
|
Wende nun Satz \ref{satz:sif} auf $g(x) = g(y,z) = 0$ an. Dann existieren |
|
|
|
Umgebungen $U(\hat{z}) \subseteq \R^{n-k} $, $U(\hat{y}) \subseteq \R^{k}$ und |
|
|
|
eine eindeutige Abbildung |
|
|
|
\begin{align*} |
|
|
|
\varphi\colon U(\hat{z}) &\to U(\hat{y}) \\ |
|
|
|
z &\mapsto \varphi(z) = y |
|
|
|
, \end{align*} s.d. $\varphi$ folgende Eigenschaften erfüllt sind |
|
|
|
\begin{enumerate}[(1)] |
|
|
|
\item $g(\varphi(z), z) = 0$ $\forall z \in U(\hat{z})$ |
|
|
|
\item $\hat{y} = \varphi(\hat{z})$ |
|
|
|
\item $\varphi \in C^{1}\left( U(\hat{z}), \R^{k} \right) $ stetig differenzierbar. |
|
|
|
\item $\underbrace{\varphi'(\hat{x})}_{D_x\varphi(\hat{x})} = |
|
|
|
- \left(\frac{\partial g}{\partial y}(\hat{x})\right)^{-1} \cdot |
|
|
|
\left( \frac{\partial g}{\partial z}(\hat{x}) \right)$ |
|
|
|
\end{enumerate} |
|
|
|
Betrachte $\tilde{f}(z) = f(\varphi(z), z)$, $\tilde{f}(z) \colon U(\hat{z}) \to \R$. Da |
|
|
|
$\hat{x}$ Extremum von $f(x)$ unter $g(x) = 0$, ist $\hat{z}$ lokales Extremum von $\tilde{f}(z)$ in |
|
|
|
$U(\hat{z})$. Mit \ref{satz:notwendig-extremum} folgt also $\forall i = 1 \ldots n-l$: |
|
|
|
\begin{salign*} |
|
|
|
0 &= \frac{\partial \tilde{f}(\hat{z})}{\partial z_i} \\ |
|
|
|
&\stackrel[\tilde{f} = f(\varphi(z), z)]{\text{Kettenregel}}{=} \frac{\partial f(\hat{x})}{\partial y} |
|
|
|
\cdot \frac{\partial \varphi(\hat{z})}{z_i} + \frac{\partial f(\hat{x}) }{z_i} |
|
|
|
\intertext{Damit folgt} |
|
|
|
0 &= \frac{\partial f(\hat{x})}{\partial y} \cdot \frac{\partial \varphi(\hat{z})}{\partial z} |
|
|
|
+ \frac{\partial f(\hat{x})}{\partial z} \qquad (*) |
|
|
|
\intertext{Definiere} |
|
|
|
\hat{\lambda}^{T} &= \underbrace{\frac{\partial f(\hat{x})}{\partial y}}_{\left(\frac{\partial f}{\partial y_1} \ldots \frac{\partial f}{\partial y_k}\right)} |
|
|
|
\cdot \left( \frac{\partial g}{\partial y}(\hat{x}) \right)^{-1} |
|
|
|
\intertext{Damit folgt} |
|
|
|
\frac{\partial f(\hat{x})}{\partial y} &= \hat{\lambda}^{T} \left( \frac{\partial g}{\partial y}(\hat{x}) \right) |
|
|
|
.\end{salign*} |
|
|
|
Mit $(*)$ folgt |
|
|
|
\begin{salign*} |
|
|
|
\frac{\partial f(\hat{x})}{\partial y} \left( - |
|
|
|
\left( \frac{\partial g(\hat{x})}{\partial y} \right)^{-1} |
|
|
|
\frac{\partial g(\hat{x})}{\partial z}\right) |
|
|
|
+ \frac{\partial f(\hat{x})}{\partial z} |
|
|
|
= - \hat{\lambda}^{T} \frac{\partial g(\hat{x})}{\partial z} + \frac{\partial f(\hat{x})}{\partial z} = 0 |
|
|
|
.\end{salign*} |
|
|
|
Insgesamt folgt |
|
|
|
\begin{align*} |
|
|
|
\begin{rcases} |
|
|
|
\frac{\partial f(\hat{x})}{\partial y} = \hat{\lambda}^{T} \frac{\partial g}{\partial y}(\hat{x}) \\ |
|
|
|
\frac{\partial f(\hat{x})}{\partial z} = \hat{\lambda}^{T} \frac{\partial g}{\partial z}(\hat{x}) |
|
|
|
\end{rcases} |
|
|
|
\implies |
|
|
|
\frac{\partial f(\hat{x})}{\partial x} = \hat{\lambda}^{T} \frac{\partial g(\hat{x})}{\partial x} |
|
|
|
.\end{align*} |
|
|
|
\end{proof} |
|
|
|
|
|
|
|
\begin{bem}[Interpretation von Satz \ref{satz:lagrange-mult}] |
|
|
|
Definiere Lagrange-Funktion |
|
|
|
\[ |
|
|
|
\mathcal{L}(x, \lambda) \coloneqq f(x) - \lambda^{T}g(x), \quad (x, \lambda) \in D \times \R^{k} |
|
|
|
.\] Falls $\hat{x}$ lokales Minimum von $f$ unter Nebenbedingung $g(x) = 0$ und |
|
|
|
$\text{Rg}\left( \frac{\partial g(\hat{x})}{\partial x}\right) = k$. Dann ex. |
|
|
|
genau ein $\hat{\lambda} \in \R^{k}$ s.d. $(\hat{x}, \hat{\lambda})$ ein stationärer Punkt |
|
|
|
der Lagrange Funktion ist: |
|
|
|
\begin{align*} |
|
|
|
\nabla_x \mathcal{L}(\hat{x}, \hat{\lambda}) &= \nabla f(\hat{x}) - \nabla g(\hat{x}) \hat{\lambda} = 0 \\ |
|
|
|
\nabla_\lambda \mathcal{L}(\hat{x}, \hat{\lambda}) &= g(\hat{x}) = 0 |
|
|
|
.\end{align*} |
|
|
|
\end{bem} |
|
|
|
|
|
|
|
\begin{bsp}[Anwendung von \ref{satz:lagrange-mult}] |
|
|
|
Sei $A = (a_{ij})_{i,j=1}^{n} \in \R^{n \times n}$ eine symmetrische Matrix. Dann betrachte |
|
|
|
\[ |
|
|
|
f(x) \coloneqq (x, Ax)_2 = \sum_{i,j=1}^{n} a_{ij}x_ix_j |
|
|
|
.\] Bestimme Extrema von $f(x)$ unter Nebenbedingungen $\Vert x \Vert = 1$. |
|
|
|
|
|
|
|
Definiere $g(x) = \Vert x \Vert_2^2 - 1$ und $S \coloneqq \{ x \in \R^{n} \mid g(x) = 0\} $. Dann |
|
|
|
gilt für $x \in S$: $\nabla g(x) = 2x \neq 0$, da $\Vert x \Vert_2^2 = 1$. Für |
|
|
|
$f(x) = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij}x_ix_j$ gilt für $k = 1 \ldots n$: |
|
|
|
\begin{salign*} |
|
|
|
\frac{\partial f}{\partial x_k} &= \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij}\delta_{ik}x_j |
|
|
|
+ \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij}x_i \delta_{jk} \\ |
|
|
|
&= \sum_{j=1}^{n} a_{kj} x_j + \sum_{i=1}^{n} a_{ik} x_i \\ |
|
|
|
&\stackrel{a_{ij} = a_{ji}}{=} 2 \sum_{i=1}^{n} a_{ki}x_i |
|
|
|
\intertext{Also folgt} |
|
|
|
\nabla f(x) &= 2 A x |
|
|
|
.\end{salign*} |
|
|
|
Existiert ein $\hat{x}$? Da $S$ kompakt und $f$ stetig, nimmt $f$ (auf $S$) ein |
|
|
|
Maximum und Minimum an. Nach Satz \ref{satz:lagrange-mult} ex. ein $\hat{\lambda} \in \R$, s.d. |
|
|
|
\begin{alignat*}{3} |
|
|
|
&&\quad \nabla f(\hat{x}) &= \hat{\lambda} \nabla g(\hat{x}) \\ |
|
|
|
&\implies& 2 A \hat{x} &= \hat{\lambda} 2 \hat{x} \\ |
|
|
|
&\implies& A \hat{x} &= \hat{\lambda} \hat{x} |
|
|
|
.\end{alignat*} |
|
|
|
Also ist $\hat{\lambda}$ Eigenwert von $A$ zum Eigenvektor $\hat{x}$. Damit folgt |
|
|
|
\[ |
|
|
|
f(\hat{x}) = (\hat{x}, A \hat{x})_2 = (\hat{x}, \hat{\lambda}\hat{x})_2 |
|
|
|
= \hat{\lambda} \underbrace{\Vert \hat{x} \Vert_2^2}_{= 1} = \hat{\lambda} |
|
|
|
.\] Das bedeutet, dass |
|
|
|
\[ |
|
|
|
\inf \{(x, Ax)_2 \mid \Vert x \Vert_2 = 1\} = f(\hat{x}) = \hat{\lambda} = \lambda_{\text{min}} |
|
|
|
.\] Also folgt |
|
|
|
\begin{align*} |
|
|
|
\lambda_{\text{min}} &= \min_{\Vert x \Vert_2 = 1} \underbrace{x^{T} Ax}_{(x,Ax)_2} |
|
|
|
= \min_{x \in \R^{n} \setminus \{0\} } \underbrace{\frac{x^{T}Ax}{\Vert x \Vert_{2}^2}} |
|
|
|
_{\text{Rayley-Quotient}} \\ |
|
|
|
\lambda_{\text{max}} &= \max_{x \in \R^{n} \setminus \{0\} } \frac{x^{T}Ax}{\Vert x \Vert_2^2} |
|
|
|
.\end{align*} |
|
|
|
$\lambda_{\text{min}}$ bzw. $\lambda_{\text{max}}$ sind der kleinste bzw. größte Eigenwert von $A$. |
|
|
|
\end{bsp} |
|
|
|
|
|
|
|
\end{document} |