Skip to main content

Section 4 Extrema liés par plusieurs contraintes

Dans les épisodes précédents d'optimisation sous contrainte, on s'est intéressés à des problèmes du type

\begin{equation*} (\mathcal P_\Gamma) \begin{cases} \text{Minimiser (ou maximiser) } f(x)\\ x\in \Gamma = g^{-1}{(0)} \end{cases} \end{equation*}

\(f,g:U\subset \R^n\mapsto \R\) sont deux fonctions \(\mathcal C^1\) à valeurs réelles.

\(\leadsto\) La fonction \(g\text{,}\) qui limite l'ensemble des points admissibles n'a qu'une seule composante, c'est pourquoi on parle de problème d'optimisation à une seule contrainte.

On a vu que le Théorème des Fonctions Implicites nous permet en fait de nous libérer de cette contrainte et de transformer le problème \((\mathcal P_\Gamma)\) en un problème d'optimisation sans contrainte portant sur une fonction \(F\) dépendant de \(n-1\) variables.

L'étude des points critiques de \(F\text{,}\) une fois reformulée en termes de \(f\) et \(g\text{,}\) nous donne alors une condition nécessaire d'ordre 1 pour les problème de ce type: l'existence d'un multiplicateur de Lagrange \(\lambda\) tel que, si \(a\) est solution de \((\mathcal P_\Gamma)\) alors

\begin{equation*} \nabla f(a)=\lambda \nabla g(a)\text{.} \end{equation*}

Mais ne serait-il pas plus héroïque de se libérer, non pas d'une seule, mais de deux, trois... \(p\) contraintes ?

On considère maintenant une contrainte décrite par \(p\) fonctions réelles \(g_1,g_2,....,g_p:U\subset \R^n \rightarrow \R :\)

\begin{equation*} \Gamma=\{x\in U, g_1(x)=0,g_2(x)=0,...,g_p(x)=0\} \end{equation*}

Et on note \(g:x\in U\subset \R^n \mapsto (g_1(x),\ldots,g_p(x)) \in \R^p\text{,}\) de façon à ce que \(\Gamma = g^{-1}(\{0_{\R^p}\})\text{.}\)

``Quand l'imbécile voit une fonction \(\mathcal C^1\text{,}\) le sage voit une application linéaire.''

Tao du Calcul Différentiel

Regardons ce qui se passe dans le cas où la fonction \(g\) est déjà linéaire (enfin, affine), jeune padawan.

Subsection 4.1 Contraintes affines

Supposons que l'ensemble des points admissibles \(\Gamma\) est un espace affine: alors, pour tout \(j=1,\ldots, p\text{,}\) \(g_j\) est de la forme

\begin{equation*} g_j(x)=m_{1,j}x_1+\ldots+m_{n,j}x_n -b_j \end{equation*}

Autrement dit

\begin{equation*} g(x)=Mx-b,\,M=(m_{i,j})\in \mathcal M_{p,n}(\R), b \in \R^p \end{equation*}

Quel est le lien entre le gradient des contraintes \(g_j\) et la matrice \(M\) ?

Spoiler.

Pour chaque \(j=1,\ldots, p\) (et pour tout \(a\in U\)), \(\nabla g_j(a)\) est donné par la \(j\)-ième ligne de \(M\text{.}\)

Le problème qui nous intéresse est donc

\begin{equation*} (\mathcal P_\Gamma) \begin{cases} \text{Minimiser } f(x)\\ Mx =b\\ x\in U \end{cases} \end{equation*}

\(\leadsto\) A nouveau, on va faire disparaître la contrainte pour se ramener à une recherche de points critiques.

Pour ça, on va exprimer une partie des \(n\) variables en fonction des autres, en utilisant les liens entre elles qui sont décrits par \(g\text{.}\)

Combien de variables ? Autant que possible ! Disons \(p\text{.}\)

Pour pouvoir faire ça, on va inverser une sous-matrice de taille \(p\times p\) dans \(M\text{.}\) Il nous faut donc supposer que \(\rg(M)=p\text{.}\)

Exercice Quelques considérations sur le nombre de contraintes.

1.

Peut-on en déduire une comparaison entre \(p\) et \(n\) ?

Si on est d'accord que le problème \((\mathcal P_\Gamma)\) n'est pas très intéressant si \(\Gamma\) est un singleton, renforcer cette comparaison d'un cran.

Spoiler.

La matrice \(M\in \mathcal M_{p,n}(\R)\) représente une application linéaire \(\Phi_M:\R^n\rightarrow \R^p\text{,}\) et le rang de \(M\) est le rang de cette application.

Puisque \(\Image(\Phi_M)\) est un s.e.v. de \(\R^p\text{,}\) on a nécessairement \(\rg(M)=\dim \Image(\Phi_M)\leq p\text{,}\) et d'autre part par le théorème du rang,

\begin{equation*} \rg(M)=\rg(\Phi_M)=\dim \R^n - \dim \Ker \Phi_M \leq \dim \R^n =n \end{equation*}

Donc, si \(\rg(M)=p\text{,}\) on a forcément \(\boxed{p\leq n}\text{.}\)

D'un autre côté, si \(p=n=\rg(M)\text{,}\)alors \(M\) est une matrice carrée inversible 1  donc

\begin{equation*} \Gamma= \{x\in\R^n, g(x)=0_{\R^n}\}=\{x\in\R^n,Mx=b\} =\{x\in\R^n,x=M^{-1}b\}=\{M^{-1}b\} \end{equation*}

\(\leadsto\) \(\Gamma\) est un singleton, donc \(f_{|\Gamma}\) est constante.

Ce qui simplifie le problème d'optimisation, mais ce n'est pas un problème franchement passionnant !

Au final, on suppose donc généralement que \(p\lt n\text{.}\)

2.

Justifier que, si \(\rg(M) \lt p\text{,}\) alors il existe un entier \(p'\lt p\text{,}\) une matrice \(M'\in \mathcal M_{p',n}(\R)\) de rang \(p'\) et \(b'\in \R^{p'}\) tels que

\begin{equation*} (\mathcal P_\Gamma) \iff \begin{cases} \text{Minimiser } f(x)\\ M'x =b'\\ x\in U \end{cases} \end{equation*}
Spoiler.

C'est le moment de refaire de l'algèbre linéaire.

Notons \(p'=\rg(M) \lt p\text{.}\) Autrement dit, si on note \(\Phi_M:\R^n\rightarrow \R^p\) l'application linéaire représentée par \(M\text{,}\) alors on a \(\dim \Image(\Phi_M)=p'\text{.}\)

\(\leadsto\) Puisque \(p' \lt p\text{,}\) \(\Phi_M\) n'est pas surjective et son image est un s.e.v. de \(\R^p\text{.}\) Choisissons une base \(\mathcal B=\{u_1,...,u_{p'}\}\) de \(\Image(\Phi_M)\text{.}\)

Si \(b\notin \Image(\Phi_M)\text{,}\) alors il n'existe aucun \(x\in\R^n\) qui vérifie la contrainte \(Mx=b\text{,}\) donc le problème d'optimisation n'est pas franchement passionnant.

Supposons donc que \(b\in \Image(\Phi(M))\text{:}\) alors il existe des réels \(b'_1,...,b'_{p'}\) tels que \(b=b'_1u_1+....+b'_{p'}u_{p'}\) (les coordonnées de \(b\) dans la base \(\mathcal B\)). Notons \(b'=(b'_1,...,b'_p)\) le vecteur de \(\R^{p'}\) qui les contient.

Quel que soit \(x\in \R^n\text{,}\) on aura \(Mx=b\) ssi les coordonnées de \(\Phi_M(x)\) dans la base \(\mathcal B\) sont \((b'_1,...,b'_{p'})\text{.}\) Du coup, si on note

\begin{equation*} \Psi_M:x\in\R^n \mapsto \underbrace{(y'_1,...,y'_{p'})}_{\text{coord. de } \Phi_M(x) \text{ dans } \mathcal B}\in\R^{p'} \end{equation*}

Alors \(\Psi_M\) est une application linéaire \(\R^n \rightarrow \R^{p'}\text{,}\) surjective 2  donc de rang \(p'\text{,}\) et si on note \(M'\in \mathcal M_{p',n}(\R)\) sa matrice, on a

\begin{equation*} Mx = b \iff \Phi_M(x)=b \iff \Psi_M(x)=b' \iff M'xb' \end{equation*}

Donc on tombe bien sur

\begin{equation*} \begin{cases} \text{Minimiser } f(x)\\ Mx =b\\ x\in U \end{cases} \iff \begin{cases} \text{Minimiser } f(x)\\ M'x =b'\\ x\in U \end{cases} \end{equation*}

sauf que maintenant, \(M'\) est de rang maximal.

3.

Supposons donc \(\rg(M)=p\) et notons \(C_1,\ldots,C_n\) les colonnes de \(M\text{.}\)

Qui est \(\vect(C_1,\ldots,C_n)\) ?

Spoiler.

Toujours plus d'algèbre linéaire !

Notons encore une fois \(\Phi_M:\R^n\rightarrow \R^p\) l'application linéaire représentée par \(M\text{.}\) Dans ce cas, les colonnes de \(M\) sont données par

\begin{equation*} C_1=\Phi_M(e_1)\in\R^p ,C_2=\Phi_M(e_2) \in \R^p,...,C_n=\Phi_M(e_n)\in\R^p \end{equation*}

\(\{e_1,...,e_n\}\) est la base canonique de \(\R^n\text{.}\)

Et donc, un vecteur \(y\in \R^p\) appartient à \(\vect(C_1,\ldots,C_n)\) ssi il existe \(\lambda_1,...,\lambda_n\) tels que

\begin{align*} y \amp = \lambda_1 C_1 + ... +\lambda_n C_n\\ \amp= \lambda_1 \Phi_M(e_1)+...+ \lambda_n \Phi_M(e_n)\\ \amp= \Phi_M(\lambda_1 e_1+...+ \lambda_n e_n) \end{align*}

Donc, \(y\in \vect(C_1,\ldots,C_n)\) ssi \(y=\Phi_M(x)\) avec \(x\in \R^n\) combinaison linéaire de \(e_1,...,e_n\text{.}\)

Mais tous les vecteurs de \(\R^n\) sont une combinaison linéaire des vecteurs de la base canonique !

Donc \(y\in \vect(C_1,\ldots,C_n)\) ssi \(y=\Phi_M(x)\) avec \(x\in \R^n\text{,}\) point. Autrement dit,

\begin{equation*} \boxed{\vect(C_1,\ldots,C_n)=\Image \Phi_M \subset \R^p} \end{equation*}

Ici, on a en plus supposé que \(\rg(M)=p\text{,}\) donc \(\dim \Image(\Phi_M)=p\text{,}\) autrement dit \(\Image(\Phi_M)=\R^p\text{,}\) et donc dans ce cas,

\begin{equation*} \boxed{\vect(C_1,\ldots,C_n)= \R^p} \end{equation*}

On peut supposer que \(\{C_{n-p+1},...,C_n\}\) est une base de \(\R^p\) 3  et on note

\begin{align*} M=\begin{pmatrix}\amp A\amp|\amp B \amp\end{pmatrix} \text{ avec } \amp A=\begin{pmatrix} C_{1}\amp| \amp \dots \amp|\amp C_{n-p}\end{pmatrix}\in\mathcal M_{p,n-p}(\R),\\ \amp B= \begin{pmatrix}C_{n-p+1}\amp |\amp \dots\amp |\amp C_n\end{pmatrix}\in\mathcal M_{p,p}(\R) \end{align*}

et ,pour tout \(x\in \R^n\text{,}\)

\begin{equation*} x=\begin{pmatrix} x_A \\x_B \end{pmatrix},\ x_A \in \R^{n-p},\ x_B \in \R^p \end{equation*}

Dans le même ordre d'idées, on note

\begin{equation*} \nabla f(x)=\begin{pmatrix}\nabla f_A(x)\\\nabla f_B(x)\end{pmatrix}, \quad \nabla f_A(x)\in\R^{n-p},\nabla f_B(x)\in \R^p. \end{equation*}

et, en transposant,

\begin{align*} \Jac f(x)= \begin{pmatrix} \Jac f_A(x) \amp \Jac f_B(x) \end{pmatrix} \in \mathcal M_{1,n}(\R),\\ \text{ avec } \Jac f_A(x) \in \mathcal M_{1,n-p}(\R), \Jac f_B(x)\in \mathcal M_{1,p}(\R) \end{align*}

Exercice Disparition de la contrainte

1.

Trouver une fonction \(\tilde f: \R^{n-p} \rightarrow \R\) telle que

\begin{equation*} (\mathcal P_\Gamma) \iff \begin{cases} \text{Minimiser } \tilde f(u)\\ u\in \R^{n-p} \end{cases} \end{equation*}
Indice.

Pour \(x=(x_A,x_B)\in \Gamma\text{,}\) exprimer \(x_B\) en fonction de \(x_A\text{.}\)

En déduire \(\tilde f\) de façon à ce que \(\tilde f(x_A)=f(x_A,x_B)\text{.}\)

Spoiler.
2.

C'est un problème sans contrainte ! Plus qu'à résoudre \(\nabla \tilde f(u)=0_{\R^{n-p}}\) et à exprimer les solutions en fonction de \(f\text{.}\)

...

Allez-y !

Indice.

Utiliser une généreuse ration de composée des jacobiennes.

Spoiler.
3.

En déduire que si \(x\) est solution du problème, il existe une matrice-ligne \(\Lambda=\begin{pmatrix}\lambda_1 \amp\ldots\amp \lambda_p\end{pmatrix}\) telle que

\begin{equation*} \Jac f(x) = \Lambda \cdot M \end{equation*}
Indice.

Plus précisément, montrer que

\begin{equation*} \Jac f(x) = \Jac f_B(x) \cdot B^{-1}\cdot M \end{equation*}
Spoiler.
4.

Conclusion conclusive

En déduire que si \(x\) est solution de \((\mathcal P_\Gamma)\text{,}\) alors il existe \(\lambda_1,\ldots,\lambda_p\) tels que

\begin{equation*} \nabla f(x) = \lambda_1 \nabla g_1(x) + \ldots + \lambda_p \nabla g_p(x) \end{equation*}

Morale: Lorsqu'il y a \(p\) contraintes linéaires,

  • il ne suffit pas que la différentielle/le gradient de la contrainte soit non nul cette fois: il faut que \(Dg(x)\) soit de rang \(p\) (ce qui revient à dire que les gradients \(\nabla g_j(x)\) sont linéairement indépendants);

  • On obtient \(p\) multiplicateurs de Lagrange;

  • On obtient ça en transformant le problème en un problème d'optimisation sans contrainte sur une fonction à \(n-p\) variables.

Armé de ces enseignements, vous êtes maintenant équipés pour le cas général d'une contrainte \(g:U\subset\R^n \rightarrow \R^p\) \(\mathcal C^1\text{.}\)

Subsection 4.2 Contrainte \(C^1\)

On pose donc

\begin{equation*} f:U\rightarrow \R \end{equation*}

une fonction objectif et

\begin{equation*} g:x\in U\mapsto (g_1(x),\ldots, g_p(x))\in\R^p \end{equation*}

une application "contrainte", avec \(p\lt n\text{,}\) toutes deux \(\C^1\) sur \(U\text{,}\) et on note

\begin{equation*} \Gamma=g^{-1}(\{0\})=\{x\in U, g_1(x)=\ldots=g_p(x)=0\} \end{equation*}

l'ensemble des points admissibles.

On veut caractériser les extrema de \(f_{|\Gamma}\text{,}\) on va donc commencer par fixer un point \(a\in \Gamma\) qui soit un extremum local de \(f_{|\Gamma}\text{.}\)

Pour faire marcher le cas linéaire, il fallait de plus supposer que \(M=\Jac g(x)\) était de rang \(p\text{.}\)

Aucune chance, donc, de faire marcher le cas général sans cette supposition. La question est: est-ce que ça suffit ? 4 .

On suppose donc que \(\rg \Jac g(a)=p\text{,}\) autrement dit que l'application linéaire \(Dg(a):\R^n \rightarrow \R^p\) est surjective.

Et on va montrer que dans ce cas, il existe\(\lambda_1,\ldots,\lambda_p\in\R\) tels que

\begin{equation*} \boxed{\nabla f(a)=\lambda_1 \nabla g_1(a)+\ldots+\lambda_p \nabla g_p(a)} \end{equation*}

Exercice Une cuillère à café d'algèbre linéaire, une cuillère à soupe de fonctions implicites

1.

Justifier que

\begin{equation*} \dim \vect\left(\frac{\del g}{\del x_i}(a)\right)_{1\leq i \leq n} = p \end{equation*}

et en déduire que, quitte à renuméroter les variables \(x_1,\ldots, x_n\text{,}\) on peut supposer que

\begin{equation*} \left(\begin{array}{ccc} \frac{\partial g_1}{\partial x_1}(a)\amp\dots\amp\frac{\partial g_1}{\partial x_{n-p}}(a)\\ \vdots\amp\ddots\amp\vdots\\ \frac{\partial g_p}{\partial x_1}(a)\amp\dots\amp\frac{\partial g_p}{\partial x_{n-p}}(a) \end{array} \,\, \underbrace{\begin{array}{ccc} \frac{\partial g_1}{\partial x_{n-p+1}}(a)\amp\dots\amp\frac{\partial g_1}{\partial x_n}(a)\\ \vdots\amp\ddots\amp\vdots\\ \frac{\partial g_p}{\partial x_{n-p+1}}(a)\amp\dots\amp\frac{\partial g_p}{\partial x_n}(a) \end{array}}_{\text{inversible}}\right) \end{equation*}
Spoiler.

Puisque \(Dg(a)\) est surjective, on a \(\rg(Dg(a))=\dim \Image (Dg(a))=p\text{.}\)

Or, si on considère la matrice jacobienne de \(g\text{,}\) c'est-à-dire la matrice de \(Dg(a)\) dans la base canonique,

\begin{equation*} \left(\begin{array}{c|c|c|c} \amp \amp \amp \\ \frac{\del g}{\del x_1}(a) \amp \frac{\del g}{\del x_2}(a) \amp \dots \amp \frac{\del g}{\del x_n}(a) \\ \amp \amp \amp \end{array}\right) \end{equation*}

on a \(\Image Dg(a)=\vect\left(\frac{\del g}{\del x_1}(a), \ldots, \frac{\del g}{\del x_2}(a) , \ldots , \frac{\del g}{\del x_n}(a)\right)=\R^p\text{:}\) les dérivées partielles de \(g\) en \(a\) sont une famille génératrice de \(\R^p.\text{.}\)

Or, de toute famille génératrice, on peut extraire une base: parmi les \(n\) dérivées partielles de \(g\text{,}\) il y en a \(p\) qui forment une base de \(\R^p\text{.}\) Quitte à renuméroter les variables, on peut supposer que ce sont les \(p\) dernières. Mais alors, on a

\begin{equation*} \det\left(\begin{array}{ccc} \frac{\partial g_1}{\partial x_{n-p+1}}(a)\amp\dots\amp\frac{\partial g_1}{\partial x_n}(a)\\ \vdots\amp\ddots\amp\vdots\\ \frac{\partial g_p}{\partial x_{n-p+1}}(a)\amp\dots\amp\frac{\partial g_p}{\partial x_n}(a) \end{array}\right)\neq 0 \end{equation*}

autrement dit, la sous matrice des \(p\) dernières colonnes de \(\Jac g(a)\) est inversible.

2.

On note, pour \(x\in \R^n\text{,}\)

\begin{equation*} x=(y,z)\in\R^{n-p}\times \R^p, a=(b,c) \end{equation*}

Montrer qu'il existe

  • \(V\) voisinage de \(b\) dans \(\R^{n-p}\)

  • \(W\) voisinage de \(c\) dans \(\R^p\)

  • \(\varphi:V\rightarrow W\) une application \(\C^1\)

tels que

\begin{equation*} x=(y,z)\in \Gamma \cap (V\times W) \iff z=\varphi(y) \end{equation*}
Indice.

Théorème des Flocons Incendiaires ? Thérapie des Fruits Incompétents ? Thèse Fractale en Ichtyologie ?

Spoiler.

On applique le théorème des fonctions implicites à \(g\) en \(a=(b,c)\in\R^n=\R^{n-p}\times \R^p\text{.}\) On a bien

  • \(g(a)=0_{\R^p}\) puisque \(a\in\Gamma=\{x\in\R^n, g(x)=0_{\R^p }\}\text{.}\)

  • la jacobienne de \(g\) en \(a\) est de la forme

    avec \(D_zg(a)\) inversible.

\(\leadsto\) les hypothèses du TFI sont vérifiées, on l'applique donc avec allégresse.

Ce qui nous donne

  • \(V\) voisinage de \(b\) dans \(\R^{n-p}\)

  • \(W\) voisinage de \(c\) dans \(\R^p\)

  • \(\varphi:V\rightarrow W\) une application \(\C^1\)

tels que

\begin{equation*} (x=(y,z)\in (V\times W), g(x)=0_{\R^p}) \iff (y\in V, z=\varphi(y)) \end{equation*}

Or, \(g(x)=0_{\R^p})\) ssi \(x\in \Gamma\text{,}\) ce qui nous donne la conclusion souhaitée.

3.

Trouver une fonction \(F\) définie et \(\C^1\) sur un ouvert de \(\R^{n-p}\text{,}\) à valeurs dans \(\R\text{,}\) telle que \(b\) est un extremum local de \(F\text{.}\)

Spoiler.

Posons

\begin{equation*} F: V \rightarrow \R,\ y\mapsto f(y,\varphi(y)) \end{equation*}

Alors, puisque \(a\) est un extremum local de \(f_{|\Gamma}\text{,}\) disons un minimum local, il existe \(r\gt 0\) tel que

\begin{equation*} \forall x \in B(a,r)\cap \Gamma, f(a) \leq f(y) \end{equation*}

Notons \(V_1=\{y\in V,(y,\varphi(y))\in B(a,r)\}\text{.}\) Alors \(V_1\) est un voisinage de \(b\) (pourquoi ?) et, comme \(a=(b,c)=(b,\varphi(b))\text{,}\)

\begin{equation*} \forall y \in V_1,(y,\varphi(y))\in \Gamma\cap B(a,r) \text{ et } F(b)=f(b,\varphi(b))=f(a) \leq f(y,\varphi(y))=F(y) \end{equation*}

Donc \(b\) est un minimum de \(F\) sur \(V_1\text{,}\) donc un minimum local de \(F.\)

4.

Montrer que

\begin{equation*} D_yf(a)+ D_zf(a)\circ D\varphi (b) = 0_{\L(\R^{n-p},R)} \end{equation*}
Indice.

Calculer \(DF(b)\) et utiliser le fait que \(b\) est un extremum local de \(F\text{,}\) donc c'est un point critique de \(F\text{.}\)

Spoiler.

Un peu comme pour la preuve du TEL à une contrainte, on remarque que \(F=f\circ \Psi\) avec \(\Psi: y\in V \mapsto (y,\varphi(y)) \in \R^n\text{.}\)

Les composantes de \(\Psi\) sont

\begin{equation*} \Psi_1(y)=y_1, \Psi_2(y)=y_2,\ldots,\Psi_p(y)=y_p,\ \Psi_{p+1}(y)=\varphi_1(y), \ldots,\Psi_n(y)=\varphi_{n-p}(y) \end{equation*}

et donc, ses dérivées partielles sont

\begin{align*} \frac{\del \Psi_1}{\del y_1}(y)= 1,\amp \forall j\neq 1,\ \frac{\del \Psi_1}{\del y_j}(y)= 0 \\ \amp\vdots\\ \forall j\neq p,\ \frac{\del \Psi_p}{\del y_j}(y)= 0 , \amp \frac{\del \Psi_p}{\del y_p}(y)=1 \end{align*}

et

\begin{align*} \frac{\del \Psi_{p+1}}{\del y_j}(y)= \frac{\del \varphi_{1}}{\del y_j}(y)= 0,\ \amp \forall j=1,\ldots p\\ \amp\vdots\\ \frac{\del \Psi_{n}}{\del y_j}(y)= \frac{\del \varphi_{n-p}}{\del y_j}(y)= 0,\ \amp \forall j=1,\ldots p \end{align*}

Et du coup, la jacobienne de \(\Psi\) en un point \(y\in V\) est:

Par la formule de composition des jacobiennes, on a donc, en \(b\text{:}\)

\begin{align*} \Jac F(b) \amp = \Jac f(\Psi(b))\cdot \Jac \Psi(b)\\ \amp = \Jac f(\underbrace{(b,\varphi(b))}_{=a}) \cdot \Jac \Psi(b) \end{align*}

ce qui donne

et, en repassant des matrices aux applications linéaires,

\begin{equation*} DF(b)=D_yf(a)+ D_zf(a)\circ D\varphi (b) \end{equation*}

Or, \(b\) est un extremum local de \(F\text{,}\) donc c'est un point critique de \(F\) : \(DF(b)\) est l'application linéaire nulle \(0_{\mathcal L(\R^{n-p},\R)}\text{.}\)

Ce qui nous donne la formule qu'on cherchait.

5.

En déduire que

\begin{equation*} Df(a)=\left(D_zf(a) \circ D_zg(a)^{-1}\right) \circ Dg(a) \end{equation*}
Indice.

Utiliser la fin du TFI, qui nous donne la différentielle de \(D\varphi(b)\text{,}\) pour calculer \(D_yf(a)\text{.}\)

Peut-on obtenir quelque chose de similaire sur l'autre morceau de \(Df(a)\text{,}\) \(D_zf(a)\) ?

Spoiler.

On a, d'après de TFI,

\begin{equation*} D\varphi(b)= - (D_zg((b,\varphi(b))))^{-1}\circ D_yg((b,\varphi(b))) \end{equation*}

et on a obtenu

\begin{equation*} D_yf(a)=- D_zf(a)\circ D\varphi (b) \end{equation*}

donc

\begin{align*} D_yf(a) \amp= - D_zf(a)\circ \left(- (D_zg(a))^{-1}\circ D_yg(a)\right)\\ \amp =\left(D_zf(a) \circ D_zg(a)^{-1}\right) \circ D_yg(a) \end{align*}

et d'un autre côté, on a

\begin{equation*} D_zf(a)= \left(D_zf(a) \circ D_zg(a)^{-1}\right) \circ D_zg(a) \end{equation*}

donc, en notant \(h=(h_1,h_2)\in\R^{n-p}\times \R^p\text{,}\)

\begin{align*} Df(a)(h)\amp=D_yf(a)(h_1)+D_zf(a)(h_2)\\ \amp = \left(D_zf(a) \circ D_zg(a)^{-1}\right) (D_yg(a)(h_1)) + \left(D_zf(a) \circ D_zg(a)^{-1}\right) (D_zg(a)(h_2))\\ \amp= \left(D_zf(a) \circ D_zg(a)^{-1}\right)(D_yg(a)(h_1)+D_zg(a)(h_2))\\ \amp= \left(D_zf(a) \circ D_zg(a)^{-1}\right)(Dg(a)(h)) \end{align*}

On a donc bien

\begin{equation*} Df(a)= \left(D_zf(a) \circ D_zg(a)^{-1}\right)\circ Dg(a) \end{equation*}

comme souhaité.

6.

On va pouvoir conclure !

En déduire qu'il existe \(\lambda_1,\ldots,\lambda_p\) tels que

\begin{equation*} \nabla f(a)= \lambda_1 \nabla g_1(a) +... + \lambda_p \nabla g_p(a) \end{equation*}
Indice.

Quelle est la taille de la matrice de l'application linéaire \(>D_zf(a) \circ D_zg(a)^{-1}\) ?

Aussi, comment s'exprime \(\Jac g(a)\) en fonction des gradients des composantes \(g_j\) ?

Spoiler.

\(D_zf(a)\in \L(\R^{p},\R), D_zg(a)^{-1}\in\mathcal L(\R^p)\) donc

\begin{equation*} D_zf(a) \circ D_zg(a)^{-1} \end{equation*}

est une forme linéaire sur \(\R^p\text{,}\) et sa matrice représentative est donc une matrice ligne: notons la

\begin{equation*} \Lambda \begin{pmatrix} \lambda_1\amp \ldots \amp \lambda_p\end{pmatrix} \end{equation*}

On a donc obtenu

\begin{equation*} \Jac f(a) = \Lambda \Jac g(a) = \begin{pmatrix}\lambda_1\amp \ldots\amp \lambda_p\end{pmatrix}\cdot \begin{pmatrix} \Jac g_1(a)(k)\\\vdots\\\Jac g_p(a) \end{pmatrix} \end{equation*}

et de là

\begin{align*} \nabla f(a)\amp = \left(\begin{array}{c|c|c} \nabla g_1(a) \amp \dots \amp \nabla g_p(a) \end{array}\right) \cdot \begin{pmatrix} \lambda_1 \\ \vdots \\\lambda_p\end{pmatrix}\\ \amp= \lambda_1 \nabla g_1(a) +... + \lambda_p \nabla g_p(a) \end{align*}

et c'est exactement ce qu'il nous fallait.

Terminons sur un petit exemple pour tester la technique:

Exercice Extrema à deux contraintes

Cherchons les extrema de

\begin{equation*} f:(x,y,z)\in\R^3 \rightarrow x+z \end{equation*}

sur \(\Gamma=g^{-1}(\{0\})\text{,}\) avec

\begin{equation*} g:(x,y,z)\in\R^3\mapsto (x^2+y^2+z^2-1, z-y)\in \R^2 \end{equation*}
1.

Montrer que quel que soit \(u\in\Gamma\text{,}\) \(\rg Dg(u)=2\text{.}\)

Spoiler.

On a, pour tout \(u=(x,y,z)\in \Gamma\text{,}\)

\begin{equation*} \Jac g(u)= \begin{pmatrix} 2x\amp 2y\amp 2z\\0\amp -1\amp 1 \end{pmatrix} \end{equation*}

\(\leadsto\) Les deux lignes de \(\Jac g(u)\) sont colinéaires ssi il existe \(\alpha\in\R\) tq

\begin{equation*} 2x=0, 2y = -\alpha, 2y = \alpha \iff x=0,y=-z \end{equation*}

Or, quel que soit \(z\in\R\text{,}\)

\begin{equation*} g(0,-z,z)=(2z^2-1,2z)\neq (0,0) \end{equation*}

 5 

Donc les points tels que \(\rg Dg(u)\lt 2\) ne sont pas sur \(\Gamma\text{.}\)

2.

En déduire que tout extremum \((x,y,z)\) de \(f_{|\Gamma}\) vérifie

\begin{equation*} \begin{cases} 1\amp =2 \lambda_1 x\\0\amp =-\lambda_2+2 \lambda_1y\\1\amp =\lambda_2+2 \lambda_1 z \\ 1\amp =x^2+y^2+z^2\\ 0\amp=z-y \end{cases} \end{equation*}
Indice.

Théorie des Echidnés Lavables ? Traversée des Epaves Lumineuses ? Transmission des Epouvantails Lacrymogènes ?

Spoiler.

Soit \(u=(x,y,z)\) un extremum de \(f_{|\Gamma}\text{.}\)

Alors, en particulier, \(u\in \Gamma\text{,}\) donc \(\rg Dg(u)=2\text{:}\) on peut donc lui appliquer le théorème des extrema liés. Il doit donc exister \(\lambda_1\) et \(\lambda_2\) tels que

\begin{equation*} \nabla f(u)=\lambda_1 \nabla g_1(u)+\lambda_2 \nabla g_2(u) \end{equation*}

autrement dit

\begin{equation*} \begin{pmatrix}1\\0\\1\end{pmatrix} = \lambda_1 \begin{pmatrix}2x\\2y\\2z\end{pmatrix}+\lambda_2 \begin{pmatrix}0\\-1\\1\end{pmatrix} \end{equation*}

En ajoutant la condition que \(u\in \Gamma\text{,}\) on trouve le système ci-dessus.

3.

Montrer que ce système admet deux solutions:

\begin{align*} u_1 \amp=\left(-\frac{2\sqrt6}6,-\frac{\sqrt6}6,-\frac{\sqrt6}6\right), \\ u_2\amp =\left(\frac{2\sqrt6}6,\frac{\sqrt6}6,\frac{\sqrt6}6\right) \end{align*}
Indice.

En manipulant adroitement les trois premières lignes, montrer que \(x=y+z\text{,}\) puis utiliser les équations de \(\Gamma\) pour trouver \(y\) et \(z\text{.}\)

Spoiler.

D'après la première ligne, \(\lambda_1 \neq 0\text{,}\) et en ajoutant les lignes 2 et 3 on trouve

\begin{equation*} 2 \lambda_1 (y+z) = 1 = 2 \lambda_1 x \end{equation*}

donc, en divisant par \(\lambda_1\neq 0\text{,}\) \(x=y+z\text{.}\)

D'un autre côté,

\begin{equation*} u\in \Gamma \iff \begin{cases} y=z\\x^2+y^2+z^2=1 \end{cases} \text{ donc } \begin{cases} y=z,\ x=y+z=2z\\6z^2=1 \end{cases} \end{equation*}

ce qui nous donne deux possibilités:

\begin{gather*} z= \frac{\sqrt6}6, y= \frac{\sqrt6}6, x= \frac{2\sqrt6}6\\ z=- \frac{\sqrt6}6, y= -\frac{\sqrt6}6, x= -\frac{2\sqrt6}6 \end{gather*}
4.

Donc, si \(f\) admet des extrema locaux sur \(\Gamma\text{,}\) c'est forcément parmi ces deux points. Mais en admet-elle, des extrema ?

Indice.

Montrer que \(\Gamma\) est compact.

Spoiler.

\(\Gamma=g^{-1}(\{(0,0)\})\) est l'image réciprique du fermé \(\{0_{\R^2}\}\) par la fonction continue \(g\text{:}\) c'est donc un fermé de \(\R^3\text{.}\)

D'autre part,

\begin{equation*} u=(x,y,z)\in \Gamma \Rightarrow x^2+y^2+z^2 =1 \Rightarrow u\in S(0_{\R^2},1) \end{equation*}

\(\leadsto\) \(\Gamma\) est inclus dans la sphère unité de \(\R^3\text{,}\) donc est borné 6 .

Puisque \(\R^3\) est un espace vectoriel de dimension finie, ceci montre que \(\Gamma\) est compact.

Donc \(f_{|\Gamma}\) est continue sur un compact, donc \(f_{|\Gamma}\) est bornée et atteint ses bornes: les deux candidats sont donc un minimum global et un maximum global.

Mais qui est qui ?

On calcule:

\begin{equation*} f(u_1)= -\frac{\sqrt6}2 \lt \frac{\sqrt6}2=f(u_2) \end{equation*}

donc \(u_1\) est le point où \(f_{\Gamma}\) atteint son minimum, et \(u_2\) celui où elle atteint son maximum.

Pourquoi, au fait ?
Pourquoi ?
De quel droit ?
Spoiler: oui
Il faudrait que \(z\) parvienne à être à la fois égal à 0 et à \(\pm\frac{1}{\sqrt 2}\text{,}\) ce qui ne va pas être facile !

C'est en fait l'intersection d'un plan avec la sphère unité: