christian
/
ana-lecture


			
				
					
						
						
							
							\documentclass{lecture}

\begin{document}

\section{Extremalaufgaben mit Nebenbedingungen}

Problemstellung: ,,Restringierte`` Optimierungsaufgabe mit Gleichungsnebenbedingungen.

Sei $f\colon D \to \R$ und $g\colon D \to \R^{k}$, $D \subseteq \R^{n}$.
Wir suchen einen Punkt $\hat{x} \in D$, s.d. $\hat{x} \in S \coloneqq \{ x \in D  \mid g(x) = 0\} $ und
$\exists U(\hat{x})$ s.d. $f(\hat{x}) \le f(x)$, $\forall x \in U(\hat{x}) \cap S$. \\
Dann heißt $\hat{x}$ lokales Minimum unter Nebenbedingung $g(x) = 0$. Analog: lokales Maximum unter
Nebenbedingung $\hat{x} \in S$, s.d. $\exists U(\hat{x})$ mit $f(\hat{x}) \ge f(x)$
$\forall x \in U(\hat{x}) \cap S$.

\begin{satz}[Multiplikatorregel von Lagrange: Notwendige Bed. 1. Ordnung für lokales Minimum unter
    Nebenbedingungen]
    \label{satz:lagrange-mult}
    Sei $D \subseteq \R^{n}$ offen, $f\colon D \to \R$ und $g\colon D \to \R^{k}$ partiell stetig
    differenzierbar. Sei $\hat{x} \in D$ ein Extremum unter der Nebenbedingung
    $g(x) = 0$ und die Gradienten $\nabla g_1(\hat{x}), \ldots, \nabla g_k(\hat{x})$
    seien linear unabhängig in $\R^{n}$. Dann gilt
    \[
    \exists \hat{\lambda} = \begin{pmatrix} \hat{\lambda}_1 \\ \vdots \\ \hat{\lambda}_k \end{pmatrix}
    \in \R^{k} \text{ mit }
    \sum_{i=1}^{k} \hat{\lambda}_i \nabla g_i(\hat{x}) = \nabla f(\hat{x})
    (\iff \nabla g(\hat{x}) \hat{\lambda} = \nabla f(\hat{x}))
    .\]
    Die Zahlen $\hat{\lambda}_1, \ldots, \hat{\lambda}_k$ heißen \underline{Lagrange-Multiplikatoren}.
\end{satz}

\begin{proof}
    Nach Voraussetzungen gilt
    \[
        \frac{\partial g_i(\hat{x})}{\partial x} =
        \underbrace{\left( \frac{\partial g_i(\hat{x})}{\partial x_1}\ldots \frac{\partial g_i(\hat{x})}{\partial x_n} \right)}_{i = 1\ldots k, \text{linear unabhängige Vektoren}}
    .\] Also hat $\frac{\partial g}{\partial x}(\hat{x}) \in \R^{k \times n}$ Rang $k$.
    O.B.d.A. die ersten $k$ Spalten von $\frac{\partial g}{\partial x}(\hat{x})$ bilden
    eine quadratische invertierbare Matrix.
    Dann lassen sich $x$ und $\frac{\partial g}{\partial x}(\hat{x})$ aufspalten:
    \[
        x = \begin{pmatrix} y \\ z \end{pmatrix} 
            \quad
            \underbrace{\frac{\partial g}{\partial x}(\hat{x})}_{\in \R^{k \times n}}
            =
            \Big( \underbrace{\frac{\partial g}{\partial y}(\hat{x})}_{\in \R^{k \times k}} ;
            \underbrace{\frac{\partial g}{\partial z}(\hat{x})}_{\in \R^{k \times (n-k)}} \Big)
    .\] mit $y \in \R^{k}$, $z \in \R^{n-k}$ und
    $\frac{\partial g}{\partial y}(\hat{x}) \in \R^{k \times k}$ regulär.

    Setze $\hat{x} = \begin{pmatrix} \hat{y} \\ \hat{z} \end{pmatrix}$.
    Wende nun Satz \ref{satz:sif} auf $g(x) = g(y,z) = 0$ an. Dann existieren
    Umgebungen $U(\hat{z}) \subseteq \R^{n-k} $, $U(\hat{y}) \subseteq \R^{k}$ und
    eine eindeutige Abbildung
    \begin{align*}
        \varphi\colon U(\hat{z}) &\to U(\hat{y}) \\
        z &\mapsto \varphi(z) = y
    , \end{align*} s.d. $\varphi$ folgende Eigenschaften erfüllt
    \begin{enumerate}[(1)]
        \item $g(\varphi(z), z) = 0$ $\forall z \in U(\hat{z})$
        \item $\hat{y} = \varphi(\hat{z})$
        \item $\varphi \in C^{1}\left( U(\hat{z}), \R^{k} \right) $ stetig differenzierbar.
        \item $\underbrace{\varphi'(\hat{x})}_{D_x\varphi(\hat{x})} =
            - \left(\frac{\partial g}{\partial y}(\hat{x})\right)^{-1} \cdot
            \left( \frac{\partial g}{\partial z}(\hat{x}) \right)$
    \end{enumerate}
    Betrachte $\tilde{f}(z) = f(\varphi(z), z)$, $\tilde{f}(z) \colon U(\hat{z}) \to \R$. Da
    $\hat{x}$ Extremum von $f(x)$ unter $g(x) = 0$, ist $\hat{z}$ lokales Extremum von $\tilde{f}(z)$ in
    $U(\hat{z})$. Mit \ref{satz:notwendig-extremum} folgt also $\forall i = 1 \ldots n-l$:
    \begin{salign*}
        0 &= \frac{\partial \tilde{f}(\hat{z})}{\partial z_i} \\
        &\stackrel[\tilde{f} = f(\varphi(z), z)]{\text{Kettenregel}}{=} \frac{\partial f(\hat{x})}{\partial y}
        \cdot \frac{\partial \varphi(\hat{z})}{z_i} + \frac{\partial f(\hat{x}) }{z_i}
        \intertext{Damit folgt}
        0 &= \frac{\partial f(\hat{x})}{\partial y} \cdot \frac{\partial \varphi(\hat{z})}{\partial z}
        + \frac{\partial f(\hat{x})}{\partial z} \qquad (*)
        \intertext{Definiere}
        \hat{\lambda}^{T} &= \underbrace{\frac{\partial f(\hat{x})}{\partial y}}_{\left(\frac{\partial f}{\partial y_1} \ldots \frac{\partial f}{\partial y_k}\right)}
        \cdot \left( \frac{\partial g}{\partial y}(\hat{x}) \right)^{-1}
        \intertext{Damit folgt}
        \frac{\partial f(\hat{x})}{\partial y} &= \hat{\lambda}^{T} \left( \frac{\partial g}{\partial y}(\hat{x}) \right) 
    .\end{salign*}
    Mit $(*)$ folgt
    \begin{salign*}
        \frac{\partial f(\hat{x})}{\partial y} \left( -
        \left( \frac{\partial g(\hat{x})}{\partial y} \right)^{-1}
        \frac{\partial g(\hat{x})}{\partial z}\right)
        + \frac{\partial f(\hat{x})}{\partial z}
        = - \hat{\lambda}^{T} \frac{\partial g(\hat{x})}{\partial z} + \frac{\partial f(\hat{x})}{\partial z} = 0
    .\end{salign*}
    Insgesamt folgt
    \begin{align*}
    \begin{rcases}
        \frac{\partial f(\hat{x})}{\partial y} = \hat{\lambda}^{T} \frac{\partial g}{\partial y}(\hat{x}) \\
        \frac{\partial f(\hat{x})}{\partial z} = \hat{\lambda}^{T} \frac{\partial g}{\partial z}(\hat{x})
    \end{rcases}
    \implies
    \frac{\partial f(\hat{x})}{\partial x} = \hat{\lambda}^{T} \frac{\partial g(\hat{x})}{\partial x}
    .\end{align*}
\end{proof}

\begin{bem}[Interpretation von Satz \ref{satz:lagrange-mult}]
    Definiere Lagrange-Funktion
    \[
        \mathcal{L}(x, \lambda) \coloneqq f(x) - \lambda^{T}g(x), \quad (x, \lambda) \in D \times \R^{k}
    .\] Falls $\hat{x}$ lokales Minimum von $f$ unter Nebenbedingung $g(x) = 0$ und
    $\text{Rg}\left( \frac{\partial g(\hat{x})}{\partial x}\right) = k$. Dann ex.
    genau ein $\hat{\lambda} \in \R^{k}$ s.d. $(\hat{x}, \hat{\lambda})$ ein stationärer Punkt
    der Lagrange Funktion ist:
    \begin{align*}
        \nabla_x \mathcal{L}(\hat{x}, \hat{\lambda}) &= \nabla f(\hat{x}) - \nabla g(\hat{x}) \hat{\lambda} = 0 \\
        \nabla_\lambda \mathcal{L}(\hat{x}, \hat{\lambda}) &= g(\hat{x}) = 0
    .\end{align*}
\end{bem}

\begin{bsp}[Anwendung von \ref{satz:lagrange-mult}]
    Sei $A = (a_{ij})_{i,j=1}^{n} \in \R^{n \times n}$ eine symmetrische Matrix. Dann betrachte
    \[
        f(x) \coloneqq  (x, Ax)_2 = \sum_{i,j=1}^{n} a_{ij}x_ix_j
    .\] Bestimme Extrema von $f(x)$ unter Nebenbedingungen $\Vert x \Vert = 1$.

    Definiere $g(x) = \Vert x \Vert_2^2 - 1$ und $S \coloneqq \{ x \in \R^{n}  \mid g(x) = 0\} $. Dann
    gilt für $x \in S$: $\nabla g(x) = 2x \neq 0$, da $\Vert x \Vert_2^2 = 1$. Für
    $f(x) = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij}x_ix_j$ gilt für $k = 1 \ldots n$:
    \begin{salign*}
        \frac{\partial f}{\partial x_k} &= \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij}\delta_{ik}x_j
        + \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij}x_i \delta_{jk} \\
        &= \sum_{j=1}^{n} a_{kj} x_j + \sum_{i=1}^{n} a_{ik} x_i \\
        &\stackrel{a_{ij} = a_{ji}}{=} 2 \sum_{i=1}^{n} a_{ki}x_i
        \intertext{Also folgt}
        \nabla f(x) &= 2 A x
    .\end{salign*}
    Existiert ein $\hat{x}$? Da $S$ kompakt und $f$ stetig, nimmt $f$ (auf $S$) ein
    Maximum und Minimum an. Nach Satz \ref{satz:lagrange-mult} ex. ein $\hat{\lambda} \in \R$, s.d.
    \begin{alignat*}{3}
        &&\quad \nabla f(\hat{x}) &= \hat{\lambda} \nabla g(\hat{x}) \\
        &\implies& 2 A \hat{x} &= \hat{\lambda} 2 \hat{x} \\
        &\implies& A \hat{x} &= \hat{\lambda} \hat{x}
    .\end{alignat*}
    Also ist $\hat{\lambda}$ Eigenwert von $A$ zum Eigenvektor $\hat{x}$. Damit folgt
    \[
        f(\hat{x}) = (\hat{x}, A \hat{x})_2 = (\hat{x}, \hat{\lambda}\hat{x})_2
        = \hat{\lambda} \underbrace{\Vert \hat{x} \Vert_2^2}_{= 1} = \hat{\lambda}
    .\] Das bedeutet, dass
    \[
        \inf \{(x, Ax)_2  \mid \Vert x \Vert_2 = 1\} = f(\hat{x}) = \hat{\lambda} = \lambda_{\text{min}}
    .\] Also folgt
    \begin{align*}
        \lambda_{\text{min}} &= \min_{\Vert x \Vert_2 = 1} \underbrace{x^{T} Ax}_{(x,Ax)_2}
        = \min_{x \in \R^{n} \setminus \{0\} } \underbrace{\frac{x^{T}Ax}{\Vert x \Vert_{2}^2}}
        _{\text{Rayley-Quotient}} \\
        \lambda_{\text{max}} &= \max_{x \in \R^{n} \setminus \{0\} } \frac{x^{T}Ax}{\Vert x \Vert_2^2}
    .\end{align*}
    $\lambda_{\text{min}}$ bzw. $\lambda_{\text{max}}$ sind der kleinste bzw. größte Eigenwert von $A$.
\end{bsp}

\end{document}