Dérivée directionnelle

En analyse mathématique, la notion de dérivée directionnelle est fondamentale ; elle permet de quantifier la variation locale d'une fonction dépendant de plusieurs variables, en un point donné et le long d'une direction donnée dans l'espace de ces variables. Dans la version la plus simple, la dérivée directionnelle généralise la notion de dérivées partielles, dans le sens où l'on retrouve ces dernières en prenant comme directions de dérivation les axes de coordonnées.

Le concept de dérivée directionnelle est parfois le point de départ pour définir la dérivée d'une fonction, qui décrit comment sa valeur est modifiée lorsque ses arguments varient de manière infinitésimale et arbitraire (et non plus le long d'une direction préfixée) : la dérivée au sens de Gateaux est définie de cette manière, mais aussi le sous-différentiel d'une fonction convexe et le sous-différentiel de Clarke d'une fonction lipschitzienne. C'est aussi un concept précieux en optimisation, pour obtenir des conditions nécessaires d'optimalité.

On comprend alors pourquoi l'on a introduit de multiples notions de dérivée directionnelle, qui sont plus ou moins bien adaptées à la régularité (c.-à-d. au caractère lisse) de la fonction étudiée, et dont l'utilité et le domaine d'application dépendent de leurs propriétés. Les développements sont très raffinés et se poursuivent ; l'étude des liens entre eux mériterait une monographie. Nous nous contenterons ici de donner les principales définitions, en commençant par les plus familières et les plus simples.

Fonction définie sur un espace vectoriel

Dérivée directionnelle suivant un vecteur

Définition

Soient E un espace vectoriel normé, U un ouvert de E, f une fonction définie sur U et à valeurs dans un espace vectoriel normé F (ou plus généralement, un espace vectoriel topologique séparé). On qualifie de points les éléments de U, et de vecteurs les éléments de E ; les raisons en seront détaillées plus loin. Soient également a un point de U et h un vecteur de E.

La dérivée directionnelle de f au point a suivant le vecteur h est, si elle existe, la dérivée en 0 de la fonction d'une seule variable réelle g(t) = f(a+th) :

D h f ( a ) = g   ( 0 ) = lim t 0 f ( a + t h ) f ( a ) t . {\displaystyle D_{h}f(a)=g\ \!'\!(0)=\lim _{t\to 0}{\frac {f(a+th)-f(a)}{t}}.}

« Intuitivement », la dérivée directionnelle de f au point a suivant le vecteur h est la vitesse verticale en parcourant la surface représentative de f, en passant par le point de composante horizontale a, avec le vecteur vitesse horizontal(e) h.

Si h est le vecteur nul, cette limite existe toujours et sa valeur est toujours zéro. Dans ce qui suit, on pourra donc supposer que h n'est pas le vecteur nul.

Si l'espace E est de dimension finie n et muni d'une base, alors la fonction f peut être vue comme une fonction de n variables réelles, et le calcul des dérivées directionnelles de f suivant les vecteurs de base correspond au calcul des dérivées partielles de f :

D e i f ( a ) = f x i ( a ) . {\displaystyle D_{e_{i}}f(a)={\frac {\partial f}{\partial x_{i}}}(a).}

En multipliant le vecteur h par un scalaire 𝛼, le calcul de dérivée directionnelle suivant le vecteur 𝛼h est le même que suivant h, à la multiplication par le facteur 𝛼 près :

D α h f ( a ) = α D h f ( a ) . {\displaystyle D_{\alpha h}f(a)=\alpha D_{h}f(a).}

Ainsi, en un point, s'il existe une dérivée directionnelle suivant un vecteur, alors il en existe une suivant tout vecteur de même direction, mais la valeur de cette dérivée dépend du vecteur suivi. On parle de dérivée directionnelle de f au point a dans la direction du vecteur h si h est unitaire[1].

En revanche, il n'y a pas de raison a priori d'observer un résultat particulier en additionnant deux vecteurs h et h'.

Définition alternative

La définition ci-dessus définit la dérivée directionnelle dans la direction du vecteur h si h est unitaire.

Certains auteurs définissent[réf. souhaitée] la dérivée directionnelle de f au point a dans la direction d'un vecteur quelconque v 0 {\displaystyle v\neq 0} par :

v f ( a ) := lim s 0 f ( a + s v ) f ( a ) s v , {\displaystyle \nabla _{v}f(a):=\lim _{s\to 0}{\frac {f(a+sv)-f(a)}{s\|v\|}},} si cette limite existe.

Le lien avec la définition précédente est donc : v f ( a ) = D h f ( a ) {\displaystyle \nabla _{v}f(a)=D_{h}f(a)} pour h = v v . {\displaystyle h={\frac {v}{\|v\|}}.}

« Intuitivement », la dérivée directionnelle de f au point a dans la direction du vecteur unitaire h est la vitesse verticale en parcourant la surface représentative de f, en passant par le point de composante horizontale a, avec le vecteur vitesse horizontal(e) h, de norme 1.

Cas d'une fonction différentiable

Si la fonction f est différentiable au point a, alors elle admet une dérivée directionnelle en a dans la direction de tout vecteur. Cette dérivée se calcule avec l'application différentielle df(a) de f en a, en appliquant la formule :

D h f ( a ) = ( d f ( a ) ) ( h ) . {\displaystyle D_{h}f(a)=({\rm {d}}f(a))(h).}

Ainsi, cette fois, le résultat est linéaire en h. Notamment,

D h + h f ( a ) = D h f ( a ) + D h f ( a ) . {\displaystyle D_{h+h'}f(a)=D_{h}f(a)+D_{h'}f(a).}

Enfin, si E est un espace vectoriel de dimension finie n muni d'une base, alors on peut exprimer toutes les dérivées directionnelles en termes de dérivées partielles :

D h f ( a ) = i = 1 n h i f x i ( a ) . {\displaystyle D_{h}f(a)=\sum _{i=1}^{n}h_{i}{\frac {\partial f}{\partial x_{i}}}(a).}

En général, la réciproque est fausse : le fait qu'une application présente des dérivées directionnelles en a dans toutes les directions n'assure pas sa différentiabilité, ni même sa continuité, en a. Cependant, la réciproque est vraie si la fonction est définie sur un espace vectoriel de dimension finie n, est à valeurs réelles, et est convexe : il suffit alors qu'elle ait des dérivées directionnelles suivant n vecteurs linéairement indépendants pour qu'elle soit différentiable (au sens de Fréchet).

Si E est un espace vectoriel euclidien, f une application différentiable en a et à valeurs réelles, alors il est possible d'utiliser le gradient de f en a pour exprimer les dérivées directionnelles de f en a :

D h f ( a ) = f ( a ) | h . {\displaystyle D_{h}f(a)=\langle \nabla f(a)|h\rangle .}

Si f présente un extremum local en un point a d'un ouvert, alors son gradient en a est le vecteur nul, et toutes ses dérivées directionnelles en a sont nulles (pour une étude plus détaillée, voir point critique).

Interprétation géométrique

La dérivée directionnelle de la fonction f au point a dans la direction du vecteur h se calcule comme la dérivée en 0 de la fonction d'une seule variable réelle g(t) = f(a+th). Cette fonction s'interprète comme la restriction de f à la droite affine passant par A et dirigée par h.

L'angle 𝛼 entre la tangente en A' et l'horizontale est maximal si le plan de coupe contient la direction du gradient en A.

En associant à la fonction f : U R 2 R {\displaystyle f:U\subset \mathbb {R} ^{2}\to \mathbb {R} } la surface (S) d'équation cartésienne réduite z = f(x,y), la notion de dérivée directionnelle dans la direction d'un vecteur unitaire h = ( h 1 , h 2 ) {\displaystyle h=(h_{1},h_{2})} en un point A = ( a 1 , a 2 ) {\displaystyle A=(a_{1},a_{2})} de U peut être interprétée ainsi : le plan vertical contenant la droite passant par A et dirigée par h coupe la surface (S) selon la courbe paramétrée (C) :

t M ( t ) = { a 1 + t h 1 a 2 + t h 2 f ( a 1 + t h 1 , a 2 + t h 2 ) . {\displaystyle t\mapsto M(t)={\begin{cases}a_{1}+th_{1}\\a_{2}+th_{2}\\f(a_{1}+th_{1},a_{2}+th_{2}).\end{cases}}}

La fonction M est dérivable en 0 si et seulement si f admet en A une dérivée directionnelle dans la direction de h. Dans ce cas : il existe une tangente (T) à la courbe (C) au point A' = M(0) — qui est le point de (S) à la verticale de A —, et D h f ( A ) {\displaystyle D_{h}f(A)} est la composante verticale du vecteur directeur de composante horizontale h, unitaire, de (T) ; ainsi, D h f ( A ) {\displaystyle D_{h}f(A)} est la pente de (T).

Si f est différentiable en A et h est unitaire, alors l'inégalité de Cauchy-Schwarz permet d'écrire :

f ( A ) D h f ( A ) = f ( A ) | h f ( A ) , {\displaystyle -\|\nabla f(A)\|\leqslant D_{h}f(A)=\langle \nabla f(A)|h\rangle \leqslant \|\nabla f(A)\|,}

avec égalité si et seulement si h est colinéaire au gradient de f en A.

La pente de la tangente est donc maximale en choisissant la direction du gradient, ce qui est à la base des méthodes de descente dans les problèmes de minimisation[2].

Dérivée directionnelle au sens de Dini

Définition

Soient E un espace vectoriel, F un espace vectoriel normé et f : E F {\displaystyle f:E\to F} une fonction. On dit que f est directionnellement dérivable au sens de Dini en x E {\displaystyle x\in E} dans la direction d E {\displaystyle d\in E} si la limite dans la définition de f D ( x ; d ) {\displaystyle f'_{_{D}}(x;d)} ci-dessous existe dans F :

f D ( x ; d ) := lim t 0 , t > 0 f ( x + t d ) f ( x ) t . {\displaystyle f'_{D}(x;d):=\lim _{t\to 0,t>0}\,{\frac {f(x+td)-f(x)}{t}}.}

Gateaux-différentiabilité

Soient E et F deux espaces vectoriels normés. Une fonction f : E F {\displaystyle f:E\to F} est dite Gateaux-différentiable[3] en x E {\displaystyle x\in E} si

  1. la dérivée directionnelle f D ( x ; d ) {\displaystyle f'_{D}(x;d)} existe quel que soit d E {\displaystyle d\in E} ,
  2. l'application D G f ( x ) : d E f D ( x ; d ) F {\displaystyle D_{G}f(x):d\in E\mapsto f'_{_{D}}(x;d)\in F} est linéaire continue.

On dit que f est continûment Gateaux-différentiable en x E {\displaystyle x\in E} si f est Gateaux-différentiable dans un voisinage V de x et D G f : V L ( E , F ) {\displaystyle D_{G}f:V\to {\mathcal {L}}(E,F)} est continue en x ; on a noté L ( E , F ) {\displaystyle {\mathcal {L}}(E,F)} l'ensemble des opérateurs linéaires continus de E dans F, muni de sa norme canonique.

Fonction ayant des valeurs infinies

En analyse convexe ou non lisse, on utilise une notion de dérivée directionnelle, qui est essentiellement celle de Dini, mais qui accepte que les fonctions prennent leurs valeurs dans la droite réelle achevée R ¯ := R { , + } {\displaystyle {\overline {\mathbb {R} }}:=\mathbb {R} \cup \{-\infty ,+\infty \}} . Les dérivées directionnelles peuvent elles-mêmes prendre leurs valeurs dans R ¯ {\displaystyle {\overline {\mathbb {R} }}} . Voici cette définition.

Soient E un espace vectoriel et f : E R ¯ {\displaystyle f:E\to {\overline {\mathbb {R} }}} une fonction. On dit que f {\displaystyle f} est directionnellement dérivable en x E {\displaystyle x\in E} dans la direction d E {\displaystyle d\in E} si la limite dans la définition de f ( x ; d ) {\displaystyle f'(x;d)} ci-dessous existe dans R ¯ {\displaystyle {\overline {\mathbb {R} }}}  :

f ( x ; d ) := lim t 0 , t > 0 f ( x + t d ) f ( x ) t . {\displaystyle f'(x;d):=\lim _{t\to 0,t>0}\,{\frac {f(x+td)-f(x)}{t}}.}

Cette définition est motivée par le résultat suivant qui assure la dérivabilité directionnelle des fonctions convexes, dans toutes les directions. On y a noté

  • dom f := { x E f ( x ) < + } {\displaystyle \operatorname {dom} \,f:=\{x\in E\mid f(x)<+\infty \}} le domaine effectif de f {\displaystyle f}  ;
  • aff ( C ) {\displaystyle \operatorname {aff} {(C)}} l'enveloppe affine d'une partie C E {\displaystyle C\subset E}  ;
  • ir ( C ) {\displaystyle \operatorname {ir} {(C)}} l'intérieur relatif d'un convexe C E {\displaystyle C\subset E} .

Dérivée directionnelle d'une fonction convexe — Soient E un espace vectoriel, f : E R ¯ {\displaystyle f:E\to {\overline {\mathbb {R} }}} une fonction convexe, x E {\displaystyle x\in E} un point tel que f ( x ) {\displaystyle f(x)} est fini et d E {\displaystyle d\in E} . Alors

  1. la fonction
    t R + f ( x + t d ) f ( x ) t R ¯ {\displaystyle t\in \mathbb {R} _{+}^{*}\mapsto {\frac {f(x+td)-f(x)}{t}}\in {\overline {\mathbb {R} }}}
    est croissante ;
  2. f ( x ; d ) {\displaystyle f'(x;d)} existe dans R ¯ {\displaystyle {\overline {\mathbb {R} }}} (elle vaut éventuellement {\displaystyle -\infty } ou + {\displaystyle +\infty } ) ;
  3. f ( x ; d ) {\displaystyle f'(x;d)} vaut + {\displaystyle +\infty } si et seulement si x + t d dom f {\displaystyle x+td\not \in \operatorname {dom} \,f} pour tout t > 0 {\displaystyle t>0}  ;
  4. f ( x ; d ) f ( x ; d ) {\displaystyle f'(x;d)\geqslant -f'(x;-d)}  ; en particulier, si l'une des deux dérivées directionnelles f ( x ; d ) {\displaystyle f'(x;d)} ou f ( x ; d ) {\displaystyle f'(x;-d)} vaut {\displaystyle -\infty } l'autre vaut + {\displaystyle +\infty }  ;
  5. la fonction δ x : d E f ( x ; d ) R ¯ {\displaystyle \delta _{x}:d\in E\mapsto f'(x;d)\in {\overline {\mathbb {R} }}} est sous-linéaire (en particulier convexe) ;
  6. si x ir ( dom f ) {\displaystyle x\in \operatorname {ir} \,(\operatorname {dom} \,f)} , alors
    • le domaine de δ x {\displaystyle \delta _{x}} est le sous-espace vectoriel E 0 {\displaystyle E_{0}} de E parallèle à aff ( dom f ) {\displaystyle \operatorname {aff} (\operatorname {dom} \,f)} ,
    • si, de plus, E est un espace vectoriel normé, la fonction δ x {\displaystyle \delta _{x}} est lipschitzienne sur E 0 {\displaystyle E_{0}} .

Ce résultat est utilisé pour définir le sous-différentiel d'une fonction convexe.

Dérivée directionnelle au sens de Hadamard

Soient E un espace vectoriel, F un espace vectoriel normé et f : E F {\displaystyle f:E\to F} une fonction. On dit que f est directionnellement dérivable au sens de Hadamard en x E {\displaystyle x\in E} dans la direction d E {\displaystyle d\in E} si la limite dans la définition de f H ( x ; d ) {\displaystyle f'_{H}(x;d)} ci-dessous existe dans F :

f H ( x ; d ) := lim t 0 , t > 0 d d f ( x + t d ) f ( x ) t . {\displaystyle f'_{H}(x;d):=\lim _{\scriptstyle t\to 0,t>0 \atop \scriptstyle d'\to d}\,{\frac {f(x+td')-f(x)}{t}}.}

Dérivée directionnelle au sens de Clarke

La présentation ci-dessous se fonde sur l'ouvrage de Clarke (1983)[4].

Définition

Soient E un espace de Banach et f : E R {\displaystyle f:E\to \mathbb {R} } une fonction. La dérivée directionnelle de Clarke de f en x dans la direction d E {\displaystyle d\in E} est notée f ( x ; d ) {\displaystyle f^{\circ }(x;d)} et définie par

f ( x ; d ) := lim sup x x t 0 , t > 0 f ( x + t d ) f ( x ) t . {\displaystyle f^{\circ }(x;d):=\limsup _{\scriptstyle x'\to x \atop \scriptstyle t\to 0,t>0}\,{\frac {f(x'+td)-f(x')}{t}}.}

Cette dérivée ne présuppose pas l'existence d'une limite ; elle existe toujours, mais elle peut cependant prendre une valeur infinie. L'utilité de cette dérivée directionnelle repose sur les propriétés suivantes.

Propriétés élémentaires — Si f {\displaystyle f} est lipschitzienne de module L {\displaystyle L} dans un voisinage de x {\displaystyle x} , alors

  1. la fonction d E f ( x ; d ) {\displaystyle d\in E\mapsto f^{\circ }(x;d)} prend des valeurs finies, est positivement homogène, sous-additive, lipschitzienne de module L {\displaystyle L} et on a
    d E : | f ( x ; d ) | L d ; {\displaystyle \forall \,d\in E:\quad |f^{\circ }(x;d)|\leqslant L\|d\|;}
  2. la fonction ( x , d ) E 2 f ( x ; d ) {\displaystyle (x,d)\in E^{2}\mapsto f^{\circ }(x;d)} est semi-continue supérieurement ;
  3. pour tout d E {\displaystyle d\in E} , on a f ( x ; d ) = ( f ) ( x ; d ) {\displaystyle f^{\circ }(x;-d)=(-f)^{\circ }(x;d)} .

La dérivée directionnelle de Clarke est utilisée pour définir le sous-différentiel de Clarke d'une fonction localement lipschitzienne.

Différentiabilité stricte

Le concept de différentiabilité naturellement relié à la dérivée directionnelle de Clarke est celui de différentiabilité stricte, que l'on trouve chez Bourbaki. La fonction considérée peut ici être à valeurs dans un espace vectoriel, pas seulement dans R {\displaystyle \mathbb {R} }  ; nous avons marqué ce fait en la désignant par F, plutôt que f.

Soient E {\displaystyle \mathbb {E} } et F {\displaystyle \mathbb {F} } deux espaces de Banach. Une fonction F : E F {\displaystyle F:\mathbb {E} \to \mathbb {F} } est dite strictement différentiable en x E {\displaystyle x\in \mathbb {E} } si l'application

D s F ( x ) : d E lim x x t 0 , t > 0 F ( x + t d ) F ( x ) t F {\displaystyle D_{s}F(x):d\in \mathbb {E} \mapsto \lim _{\scriptstyle x'\to x \atop \scriptstyle t\to 0,t>0}\,{\frac {F(x'+td)-F(x')}{t}}\in \mathbb {F} }

est linéaire continue et la limite est uniforme pour d dans un compact arbitraire.

Le résultat suivant apporte deux informations : d'une part, une fonction strictement différentiable en un point est nécessairement lipschitzienne dans un voisinage de ce point et, d'autre part, pour une fonction lipschitzienne, la différentiabilité stricte en un point est assurée sans que l'on ait besoin de vérifier la condition d'uniforme convergence pour des directions dans un compact.

Différentiabilité stricte et lipschitzianité — Soit F : E F {\displaystyle F:\mathbb {E} \to \mathbb {F} } une fonction définie dans le voisinage d'un point x E {\displaystyle x\in \mathbb {E} } et δ {\displaystyle \delta } un opérateur linéaire continu de E {\displaystyle \mathbb {E} } dans F {\displaystyle \mathbb {F} } . Alors les deux propriétés suivantes sont équivalentes :

  1. F {\displaystyle F} est strictement différentiable en x {\displaystyle x} et D s F ( x ) = δ {\displaystyle D_{s}F(x)=\delta }  ;
  2. F {\displaystyle F} est lipschitzienne dans un voisinage de x {\displaystyle x} et

d E : lim x x t 0 , t > 0 F ( x + t d ) F ( x ) t = δ ( d ) . {\displaystyle \forall \,d\in \mathbb {E} :\quad \lim _{\scriptstyle x'\to x \atop \scriptstyle t\to 0,t>0}\,{\frac {F(x'+td)-F(x')}{t}}=\delta (d).}

Une fonction continûment Gateaux-différentiable est strictement différentiable.

Gateaux et stricte différentiabilité — Une fonction F continûment Gateaux-différentiable en x est strictement différentiable en x (donc lipschitzienne dans un voisinage de x) et D G F ( x ) = D s F ( x ) {\displaystyle D_{G}F(x)=D_{s}F(x)} .

Fonction définie sur une variété

Définition

Soit f une fonction numérique sur une variété différentielle M. Avec une définition analogue à la précédente, il est loisible d'introduire la dérivée de f en un point m de M et dans la direction d'un vecteur tangent h en m à la variété. Comme la notion de droite dirigée par h n'a plus de sens, il faut la remplacer par une courbe passant par m et de vecteur tangent h en ce point.

Soit γ une courbe tracée sur M, continûment dérivable, vérifiant γ(0) = m et γ'(0) = h. Si la dérivée en 0 de f∘γ existe, elle est appelée dérivée de f au point m dans la direction de h. On montre en effet que cette définition ne dépend pas de la courbe γ convenable choisie.

Extension : dérivée de Lie

Si X est un champ de vecteurs C {\displaystyle {\mathcal {C}}^{\infty }} sur la variété M et si f est une fonction numérique C {\displaystyle {\mathcal {C}}^{\infty }} sur M, il est possible de calculer les dérivées partielles de f en chaque point p selon le vecteur X(p). La fonction obtenue en considérant toutes ces dérivées est notée X f = L X f {\displaystyle X\cdot f={\mathcal {L}}_{X}f} et est appelée dérivée de Lie de f par X.

Pour calculer la dérivée de Lie de f, il est notamment possible de prendre pour courbes tangentes aux vecteurs X(p) les courbes intégrales du champ de vecteurs. La généralisation de ce point de vue à la dérivation des champs de vecteurs, formes différentielles et tenseurs est décrite à l'article « Dérivée de Lie ».

Notes et références

  1. F. Reinhardt et H. Soeder (trad. de l'allemand), Atlas des mathématiques, Paris, Librairie générale française, coll. « La Pochothèque », , 502 p. (ISBN 2-253-13013-3), « Calcul différentiel », p. 321.
  2. Michel Berliaire, « Introduction à l'optimisation différentiable », PPUR, , p. 35 et suiv.
  3. René Gateaux utilise ce concept sans vraiment l'approfondir dans Sur les fonctionnelles continues et les fonctionnelles analytiques, CRAS, vol. 157, 1913, p. 325-327 et Sur diverses questions de calcul fonctionnel, Bull. S.M.F, 50, 1-37, 1922.
  4. (en) F. H. Clarke, Optimization and Nonsmooth Analysis, New York, John Wiley & Sons, .

Voir aussi

Michel Delfour, Introduction à l'optimisation et au calcul semi-différentiel, Dunod, (lire en ligne), p. 88-92 : Exemples et contre-exemples

  • icône décorative Portail de l'analyse