Julian Tugaut

Maître de Conférences HDR
Hors Classe
Université Jean Monnet

Résultats principaux

Étude des états stables pour l'équation des milieux granulaires

Convergence en temps long des diffusions auto-stabilisantes

Grandes déviations pour les diffusions non homogènes en temps

Problème de sortie de diffusions non linéaires

Problème de collision entre diffusions indépendantes

Problème de sortie de diffusions non markoviennes

Ensembles de Kalman

Étude des états stables pour l'équation des milieux granulaires

Mon premier article, « Non uniqueness of stationary measures for self-stabilizing diffusions », co-écrit avec Samuel Herrmann (mon directeur de thèse de l'époque) et publié dans Stochastic Processes and their Applications, contredit l'intuition puisqu'il montre que l'équation des milieux granulaires peut admettre plusieurs états stables de masse totale égale à \(1\) et même qu'il peut y en avoir exactement trois. Il est essentiel de préciser que l'ensemble des probabilités invariantes en question n'a aucune raison d'être un ensemble convexe. Conséquemment, mon étude porte sur les probabilités invariantes et non pas sur les probabilités invariantes extrêmales ; cette dernière notion n'ayant aucun sens dans le cas présent.

Décrivons précisément le résultat. On se donne deux potentiels sur \(\mathbb{R}\), \(V\) aussi appelé le potentiel de confinement et \(F\) qui porte le nom de potentiel d'interaction. On suppose également une condition d'ellipticité uniforme à savoir que l'on dispose d'un paramètre \(\sigma>0\) en guise de coefficient de diffusion. Alors, l'équation des milieux granulaires est \[ \tag{I} \frac{\partial}{\partial t}\mu_t=\frac{\sigma^2}{2}\Delta\mu_t+{\rm div}\left\{\mu_t\left(\nabla V+\nabla F\ast\mu_t\right)\right\}\,, \] où \(\ast\) désigne le produit de convolution. Cette équation aux dérivées partielles est non linéaire. Il y avait beaucoup de résultats dans le cas où les deux potentiels étaient convexes voire uniformément convexes. Un résultat en particulier : l'unicité de la mesure invariante de masse totale égale à \(1\). Cette condition d'unicité était un pré-requis pour retrouver des résultats qui sont classiques dans des équations aux dérivées partielles linéaires.

C'est en ce sens que l'article sus-cité, dont je suis l'auteur principal, est pionnier. Les techniques utilisées sont d'une grande simplicité et c'est ce qui en fait sa force puisqu'il est facile de les réutiliser. L'idée générale est qu'une probabilité invariante de l'équation des milieux granulaires a la forme implicite suivante : \[ \mu^\sigma({\rm d}x)=\frac{\exp\left\{-\frac{2}{\sigma^2}\Big[V(x)+F\ast\mu^\sigma(x)\Big]\right\}}{\int_{\mathbb{R}}\exp\left\{-\frac{2}{\sigma^2}\Big[V(y)+F\ast\mu^\sigma(y)\Big]\right\}{\rm d}y}{\rm d}x\,. \] Dès lors, si le potentiel \(F\) est quadratique et uniformément convexe c'est-à-dire si l'on a \(F(x)=\frac{\alpha}{2}x^2\) avec \(\alpha>0\), l'équation implicite devient \[ \mu^\sigma({\rm d}x)=\frac{\exp\left\{-\frac{2}{\sigma^2}\left[V(x)+\frac{\alpha}{2}x^2-\alpha m^\sigma x\right]\right\}}{\int_{\mathbb{R}}\exp\left\{-\frac{2}{\sigma^2}\left[V(y)+\frac{\alpha}{2}y^2-\alpha m^\sigma y\right]\right\}{\rm d}y}{\rm d}x\,, \] où \(m^\sigma:=\int_{\mathbb{R}}x\mu^\sigma(x){\rm d}x\). Ensuite, il suffit de trouver un zéro à la fonction suivante : \[ \chi_\sigma(m):=\frac{\int_{\mathbb{R}}x\exp\left\{-\frac{2}{\sigma^2}\left[V(x)+\frac{\alpha}{2}x^2-\alpha mx\right]\right\}dx}{\int_{\mathbb{R}}\exp\left\{-\frac{2}{\sigma^2}\left[V(x)+\frac{\alpha}{2}x^2-\alpha mx\right]\right\}dx}-m\,. \] L'étude de cette fonction à petit coefficient \(\sigma\) a été réalisée à l'aide de la méthode de Laplace. Je suis allé plus loin dans cet article en traitant aussi du cas où \(F'\) n'est pas linéaire. En particulier, sous des hypothèses simples, nous avons démontré qu'il y a exactement trois zéros à la fonction \(\chi_\sigma\) pour peu que \(\sigma\) soit assez petit. Les hypothèses principales sont la positivité uniforme de \(V^{(4)}\) et de même celle de \(F^{(4)}\). Ce travail a ouvert la voie à de nombreux chercheurs dont Carrillo, Duong et Pavliotis.

Par ailleurs, cet article a donné suite à d'autres travaux dont je fus auteur principal. En particulier, j'ai démontré dans l'article « Phase transitions of McKean-Vlasov processes in double-wells landscape » que si le potentiel d'interaction \(F\) est quadratique et uniformément convexe, alors pour peu que le potentiel de confinement \(V\) soit de la forme \[ V(x):=-\frac{\theta}{2}x^2+\sum_{k=2}^{n}\frac{\theta_{2k}}{(2k)!}x^{2k}\,, \] où tous les coefficients \(\theta_i\) sont strictement positifs pour tout \(i\in[\![1;n]\!]\) où \(n\geq2\), il existe une valeur critique \(\sigma_c(\alpha)\) à laquelle une bifurcation se produit. En d'autres termes, si \(\sigma\geq\sigma_c(\alpha)\), il y a une unique probabilité invariante. Au contraire, si \(\sigma<\sigma_c(\alpha)\), il y en a exactement trois. Cette valeur critique a été caractérisée au moyen de fonctions de Bessel à partir de l'énergie-libre de l'unique probabilité invariante symétrique (qui existe toujours si les potentiels sont pairs). Notons que ce papier contient également quelques simulations réalisées avec C++.

Il est intéressant, quoique déstabilisant, de noter que des collègues ont repris cet article en question, qui avait été publié dans Stochastics, afin d'en faire une publication dans Journal of Statistical Physics.

Dans un papier subséquent, intitulé « Self-stabilizing processes in multi-wells landscape in \(\mathbb{R}^d\)- Invariant probabilities » et publié dans Journal of Theoretical Probability, j'ai également démontré sous des hypothèses simples qu'à chaque argument du minimum local \(a\) du potentiel de confinement \(V\), correspond au moins une probabilité invariante \(\mu_a^\sigma\) qui est proche, dans un sens, de \(\delta_a\). Les deux hypothèses permettant d'aboutir à l'existence d'un tel état stable sont, d'une part, \(\sigma<\sigma_c(a)\) où \(\sigma_c(a)\) est un paramètre strictement positif et d'autre part une hypothèse intrinsèquement liée à la méthode de Laplace. En d'autres termes, pour tout \(x\in\mathbb{R}^d\) avec \(x\neq a\), on a \(W_a(x)>W_a(a)\). Ici, le potentiel \(W_a\), aussi appelé potentiel effectif, correspond à ce que voit le système quand le coefficient de diffusion \(\sigma\) est petit : \(W_a:=V+F\ast\delta_a\).

Notons également que pour le cas de la dimension \(1\), en collaboration avec Samuel Herrmann, puis en dimension \(d\), j'ai étudié la convergence de l'ensemble des probabilités invariantes quand \(\sigma\) tend vers \(0\). Ceci a donné lieu aux deux papiers « Stationary measures for self-stabilizing diffusions: asymptotic analysis in the small noise limit » et « Self-stabilizing processes: uniqueness problem for stationary measures and convergence rate in the small noise limit » publiés respectivement dans Electronic Journal of Probability et dans ESAIM: Probability and Statistics. J'ai également publié une note aux Comptes Rendus Mathématiques de l'Académie des Sciences concernant l'approximation entre le cas avec synchronisation et le cas sans synchronisation. Le titre est par ailleurs : « McKean-Vlasov diffusions: from the synchronization to the asynchronization » ce qui donne en français : « Diffusions de McKean-Vlasov : de la synchronisation à l'asynchronisation ».

Suite à cela, j'ai co-écrit un article avec Hong Duong dans Applied Mathematics Letters sur les états stables de l'équation aux dérivées partielles de Vlasov-Fokker-Planck, ce qui correspond au cas d'une diffusion de Langevin non linéaire. Plus précisément, nous avons obtenu une correspondance bijective entre les états stables du système suramorti et du système cinétique. Toujours avec Hong Duong, nous avons rédigé un papier publié dans Stochastics concernant en particulier les états stables pour les diffusions non linéaires couplées.

Il est important de comprendre que cette perte d'unicité pour les probabilités invariantes est des plus déplaisantes pour quiconque cherche à obtenir une convergence en temps long. En effet, aucune propriété d'ergodicité ne peut être prouvée étant entendu que les multiples mesures stationnaires ne sont pas étrangères entre elles. De la même manière, l'obtention d'une propagation du chaos uniforme en temps est impossible. En d'autres termes, on ne peut approximer une diffusion de McKean-Vlasov par un système de particules sur tout le demi-axe des réels positifs. Également, la fonctionnelle d'énergie-libre ne peut pas être convexe. Des questions de métastabilité émergent ainsi naturellement. Par exemple, quel est le temps (en fonction du nombre de particules) pour aller d'un état métastable à un autre état métastable ?

Un autre problème de métastabilité qui émerge est le suivant. Considérons un potentiel de confinement \(V\) qui admet deux puits, l'un situé en \(a_-<0\) et l'autre situé en \(a_+>0\) et tels que \(V(a_-)>V(a_+)\). Supposons aussi que le potentiel d'interaction \(F\) est uniformément convexe et quadratique mais tel que \(W_{a_-}\) ne soit pas minimal en \(a_-\). Alors, on peut montrer facilement en reprenant mon travail qu'il y a cette fois une unique probabilité invariante, laquelle converge à petit bruit vers \(\delta_{a_+}\). Pourtant, si l'on part de l'état initial \(\mu_0=\delta_{a_-}\), on s'attend à rester un long moment proche de \(\mu_0\). C'est donc bien un état métastable, mais pas un état stable. Cette question est l'objet d'un article que j'ai publié dans Communications on Stochastic Analysis.

Une dernière question intimement liée à ce premier résultat est le rétablissement de l'unicité des probabilités invariantes en utilisant des équations aux dérivées partielles stochastiques ; lesquelles apparaissent naturellement pour peu que l'on procède à l'ajout d'un bruit commun en plus du bruit idiosyncratique classique.

(Retourner au sommaire)

Convergence en temps long des diffusions auto-stabilisantes

La diffusion auto-stabilisante est une instance particulière des diffusions de McKean-Vlasov. Elle est naturellement reliée à l'équation des milieux granulaires. En effet, comme l'ont fait Cattiaux, Guillin et Malrieu dans le cadre convexe, l'équation aux dérivées partielles des milieux granulaires peut être interprétée d'un point de vue microscopique via une équation différentielle stochastique : \[ \tag{II} X_t=X_0+\sigma B_t-\int_0^t\nabla V(X_s){\rm d}s-\int_0^t\Big[\nabla F\ast\left(\mathcal{L}(X_s)\right)\Big](X_s){\rm d}s\,. \] Cette équation différentielle stochastique, dite auto-stabilisante, admet une unique solution forte \(X\) et pour tout \(t>0\), \(\mathcal{L}(X_t)=:\mu_t\) est absolument continue par rapport à la mesure de Lebesgue (avec une densité que je note \(\mu_t\) pour simplifier) et elle satisfait l'Équation (I).

Une question énormément étudiée (notamment par Carrillo, McCann, Villani, Benedetto, Pulvirenti, Guillin, Bolley, Malrieu, Gentil...) est la convergence en temps long de la loi de \(X_t\) vers l'unique probabilité invariante. Néanmoins, comme dit dans le paragraphe précédent, j'ai démontré que l'unicité de la probabilité invariante n'était pas vraie en général. La question de la convergence se pose alors. Dispose-t-on d'une convergence en temps long ? Si oui, a-t-on une vitesse de convergence ? Et quels sont les bassins d'attraction ? En d'autres termes, peut-on déterminer - avec des hypothèses simples portant sur la mesure initiale - la probabilité invariante qui est la limite en temps long de la solution à l'équation des milieux granulaires ?

J'ai répondu à la question de la convergence dans l'article « Convergence to the equilibria for self-stabilizing processes in double-well landscape » publié dans The Annals of Probability ainsi que dans l'article « Self-stabilizing processes in multi-wells landscape in \(\mathbb{R}^d\) - Convergence » publié dans Stochastic Processes and their Applications dans le cas où la dimension \(d\) est générale.

En effet, en adaptant le remarquable travail de Benedetto, Caglioti, Carrillo et Pulvirenti de 1998, je suis parvenu à montrer que \(\mu_t\) converge faiblement vers une des trois probabilités invariantes ; si l'on se restreint au cas où il y en a exactement trois.

L'idée, pour ce faire est de considérer l'énergie-libre de Helmholtz : \[ \Upsilon_\sigma(\mu):=\frac{\sigma^2}{2}\int_{\mathbb{R}^d}\mu(x)\log(\mu(x)){\rm d}x+\int_{\mathbb{R}^d}V(x)\mu(x){\rm d}x+\frac{1}{2}\int_{\mathbb{R}^d}F\ast\mu(x)\mu(x){\rm d}x\,. \] Cette fonctionnelle de Lyapunov est décroissante puisque l'on a \[ \frac{{\rm d}}{{\rm d}t}\Upsilon_\sigma(\mu_t)\leq-\int_{\mathbb{R}^d}\left|\frac{\sigma^2}{2}\frac{\nabla\mu_t(x)}{\mu_t(x)}+\nabla V(x)+\nabla F\ast\mu_t(x)\right|^2\mu_t(x){\rm d}x\,. \] Il convient de noter que dans le cas où \(V\) comme \(F\) sont convexes, on dispose d'une inégalité de Sobolev logarithmique si bien que l'on a une convergence entropique exponentielle. Mais dès que l'on a plusieurs probabilités invariantes, on ne dispose pas d'une telle inégalité. C'est ce qui rend la question si compliquée et, in fine, si intéressante. De la même manière, Cattiaux, Guillin et Malrieu ont obtenu une convergence en utilisant la propagation du chaos uniforme conférée par la convexité des potentiels. Néanmoins, dès qu'il y a plusieurs probabilités invariantes, il ne peut y avoir de propagation du chaos uniforme. À vrai dire, il existe un cas et un seul où l'on peut simplement caractériser le bassin d'attraction ainsi qu'obtenir la convergence : lorsque le potentiel de confinement \(V\) est constant. Dans ce cas, il y a une infinité de probabilités invariantes et de plus, le premier moment de \(\mu_t\) est constant par rapport à \(t\). De fait, tout se passe comme dans le cas où il y a une unique probabilité invariante, voir l'article de Benachour, Roynette, Talay et Vallois puis celui de Benachour, Roynette et Vallois. Également, en supposant que le premier moment est un invariant par rapport au temps, Carrillo, McCann et Villani ont pu étendre le travail de Benedetto, Caglioti, Carrillo et Pulvirenti au cas où le potentiel \(V\) est non convexe pour peu que la convexité de \(F\) soit assez forte pour contrebalancer. Toutefois, je ne connais absolument aucun exemple autre que celui mentionné précédemment où cette invariance du moment est vérifiée ; lorsque l'espace des phases est \(\mathbb{R}^d\).

Ce résultat de convergence que j'ai obtenu ouvre plus de questions qu'il n'en ferme. En effet, même dans le cas où il y a une unique probabilité invariante, c'est-à-dire lorsque \(\sigma\geq\sigma_c\), l'obtention d'une vitesse de convergence est hautement non triviale. Malgré cela, Pierre del Moral et moi-même sommes parvenus à établir une vitesse de convergence exponentielle. Toutefois, le coefficient qui gère cette vitesse n'est absolument pas palpable. Ce travail, publié dans Stochastic Analysis and its Applications a ensuite permis d'établir une propagation du chaos uniforme en utilisant la vitesse exponentielle via une inégalité \(WJ\), voir les travaux de Bolley, Gentil et Guillin. Dans la même veine, Bartłomiej Dyda et moi-même avons établi une vitesse de convergence exponentielle indépendante du nombre de particules si \(\sigma\) est assez grand dans un article publié dans Probability and Mathematical Physics.

Contrairement à ce que pourrait faire croire ce qui est écrit juste au-dessus, l'une des conséquences immédiates de la non-unicité des probabilités invariantes (ce qui correspond donc au cas où \(\sigma\) est assez petit tandis que je parlais précédemment du cas où le coefficient de diffusion est assez grand) est la dépendance, en fonction du nombre de particules, du temps que passe le système à champ moyen associé à la diffusion auto-stabilisante dans un état métastable.

D'ailleurs, pour revenir sur la métastabilité, je suis parvenu à établir que le temps que la diffusion auto-stabilisante passait dans un minimum local non associé à une probabilité invariante est au plus exponentiel de la forme \(\exp\left\{\frac{2\Delta}{\sigma^2}\right\}\) où \(\Delta\) correspond grosso modo au coût de sortie (dans le régime des grandes déviations) de la diffusion de McKean-Vlasov. Ce résultat a été publié dans Communications On Stochastic Analysis.

Concernant la vitesse de convergence, j'ai publié une première note aux Comptes Rendus Mathématiques de l'Académie des Sciences. Puis, j'ai soumis un travail pour publication en juillet 2023 dans lequel j'établi une stabilité locale des probabilités invariantes, mais en dimension \(1\). De plus, je suis parvenu à établir une vitesse de convergence en \(O\left({\rm e}^{-C\sqrt{t}}\right)\) ; ce qui, je me dois de le confesser, est assez décevant. Il est en effet assez naturel d'imaginer que, localement, il y a une vitesse exponentielle. J'en veux pour preuve la prépublication récente de Quentin Cormier sur le sujet. De même, le travail de Guillin, Le Bris et Monmarché semble le confirmer puisqu'ils obtiennent à la fois une propagation du chaos uniforme (avec couplage asynchrone) et une vitesse de convergence exponentielle ; dans le cas où il y a une unique probabilité invariante cela dit.

Pour ma part, c'est le cas où le bruit est petit qui m'intéresse. Une question m'avait un jour été posée à ce sujet à savoir : « si la mesure initiale est à support compact inclus dans un bassin d'attraction du système non bruité, ne peut-on pas établir, à petit bruit, que le système bruité va converger vers la probabilité invariante associée au minimum local en question ? » Bien que cette question semble triviale, elle ne l'est pas. Ainsi, pour y répondre, j'ai dû procéder à certaines circonvolutions via la théorie de Freidlin et Wentzell. Je suis effectivement arrivé à répondre par l'affirmative à la question. Ceci fit l'objet d'un article dans Kinetic and Related Models. À propos de la caractérisation de la probabilité invariante limite, j'ai obtenu un résultat dans le cas de la dimension \(1\).

Mentionnons aussi que la convergence dans le cas cinétique, c'est-à-dire celui de la diffusion de Vlasov-Fokker-Planck a également été résolu par Hong Duong et moi-même, dans un travail publié dans Electronic Communications in Probability. Bien que cette extension au cas dit sous-amorti semble trivial, elle ne l'était pas et il nous a fallu nous intéresser à divers travaux de Carrillo sur les équations aux dérivées partielles non linéaires.

Enfin, il est essentiel de bien comprendre que la connaissance des bassins d'attraction est d'un intérêt crucial pour l'obtention de la bonne fonction de taux dans les principes de grandes déviations des diffusions auto-stabilisantes. En effet, la connaissance de la limite de \(\mu_t\) quand \(t\to+\infty\) permettrait de déterminer la forme de la limite de la fonction de taux. C'est grosso modo ce qu'ont fait Herrmann, Imkeller et Peithmann dans leur remarquable article concernant l'obtention d'une loi de type Kramers pour le premier temps de sortie d'une diffusion auto-stabilisante lorsque les potentiels sont uniformément convexes. Dès que la convexité fait défaut, de tels résultats ne sont pas immédiats. À noter que la limite seule ne suffit pas : il faut aussi une vitesse de convergence telle que le temps de stabilisation vers la limite soit au plus \(\exp\left\{\frac{2H}{\sigma^2}\right\}\) où \(H\) est le coût de sortie dudit domaine.

(Retourner au sommaire)

Grandes déviations pour les diffusions non homogènes en temps

Dans leur remarquable article publié dans The Annals of Applied Probability, Herrmann, Imkeller et Peithmann ont établi un principe de grandes déviations pour la diffusion de McKean-Vlasov sans que les coefficients soient Lipschitz ou bornés. La norme pour laquelle ce principe de grandes déviations a été établi est la norme usuelle à savoir la norme uniforme.

En collaboration avec William Salkeld et Gonçalo dos Reis, nous avons étendu ce résultat au cas de la norme Hölder. Ainsi, l'on peut en déduire des temps de sortie pour une norme différente. Il convient de noter que notre méthode est robuste et peut s'appliquer à toute norme un tant soit peu raisonnable. Ce résultat a été publié dans The Annals of Applied Probability. Par ailleurs, il nous a aussi conduits à prouver une loi du logarithme itéré.

Suite à cela et en collaboration avec Daniel Adams, William Salkeld, Gonçalo dos Reis et Romain Ravaille, nous avons publié un papier dans Stochastic Processes and their Applications concernant les principes de grandes déviations de diffusions de McKean-Vlasov réfléchies générales de la forme \[ {\rm d}X_t=b(X_t,\mathcal{L}(X_t),t){\rm d}t+\sigma(X_t,\mathcal{L}(X_t),t){\rm d}W_t+{\rm d}k_t\,, \] où \(k\) est un processus à variation bornée qui fait office de réflexion au bord d'un domaine \(\mathcal{D}\). Il convient de noter que le domaine en question n'est supposé ni borné ni convexe. Toutefois, une hypothèse simplificatrice a été prise : le domaine à l'intérieur duquel vit notre diffusion est positivement invariant par la dérive \(b\). Ce travail nous a notamment permis d'établir une loi de type Kramers concernant le premier temps de sortie pour peu que la dérive provienne du gradient de deux potentiels convexes et que le domaine dont on cherche à sortir soit inclus dans l'intérieur de l'espace des phases.

Également, dans un article publié dans Electronic Journal of Probability, je suis parvenu à montrer un résultat de commutativité des limites des bonnes fonctions de taux dans les principes de grandes déviations. Ceci n'était pas le cœur de l'article mais plutôt un corollaire. Il est crucial de noter que pour obtenir ce résultat, il fallait que le coefficient de diffusion soit constant et que la dérive soit de la forme \(b(x,\mu,t):=-\nabla V(x)-\nabla F\ast\mu(x)\) où \(V\) et \(F\) sont deux potentiels convexes. Toutefois, suite à ce travail et en collaboration avec Samuel Herrmann, nous sommes allés plus loin. On considère le système de particules en interaction de type champ moyen associé à la diffusion de McKean-Vlasov. On note \(\mathcal{I}^N\) la bonne fonction de taux associée à la première particule. De même, on note \(\mathcal{I}^\infty\) celle de la diffusion de McKean-Vlasov. Alors, sans hypothèse de réversibilité ou de contractivité, nous sommes parvenus à démontrer que \(\mathcal{I}^N\) tend vers \(\mathcal{I}^\infty\) quand \(N\) tend vers l'infini. Le type d'interaction est par ailleurs général puisque dans cet article publié dans Communications on Stochastic Analysis, nous pouvons aussi traiter les diffusions entrant en jeu dans la modélisation des batteries de lithium, c'est-à-dire lorsque la non-linéarité est de type scalaire. Il convient de noter que dans ce travail, nous avons plus que la simple convergence puisque nous avons également le chemin optimal (par rapport aux \(N-1\) autres particules). Ceci est d'autant plus intéressant et important qu'on en déduit que le comportement à petit bruit de la première particule est proche de celui de la diffusion de McKean-Vlasov. On a ainsi établi une commutativité entre les limites \(N\longrightarrow+\infty\) et \(\sigma\longrightarrow0\). Ceci va donc plus loin que la propagation du chaos. Néanmoins, il va de soi que l'uniformité en temps fait défaut.

Dans un travail en cours de rédaction, Ashot Aleksian a établi sous ma direction un principe de grandes déviations en supposant que la loi initiale n'est pas une mesure de Dirac. En effet, dans le cas d'une diffusion de McKean-Vlasov de la forme \[ {\rm d}X_t=-\nabla V(X_t){\rm d}t-\nabla F\ast\mu_t(X_t){\rm d}t+\sigma{\rm d}W_t\,, \] où \(\mu_t:=\mathcal{L}(X_t)\) est la densité de probabilité de la variable aléatoire \(X_t\), si \(\mu_0=\delta_{x_0}\), il est bien connu que la bonne fonction de taux associée à ladite diffusion est issue de la dynamique sans bruit \[ \frac{{\rm d}}{{\rm d}t}\gamma_t(x_0)=-\nabla V\left(\gamma_t(x_0)\right)-\nabla F\ast\delta_{\gamma_t(x_0)}(\gamma_t(x_0))\,. \] Or, une hypothèse assez souvent utilisée est l'invariance rotationnelle de \(F\). De fait, \(-\nabla F\ast\delta_{\gamma_t(x_0)}(\gamma_t(x_0))=-\nabla F(0)=0\). Il s'ensuit que le potentiel d'interaction n'a pas d'action à proprement parler sur la bonne fonction de taux. Néanmoins, Ashot Aleksian et moi-même nous intéressons de près au cas où il n'y a pas d'invariance rotationnelle et où la loi initiale \(\mu_0\) n'est pas une mesure de Dirac.

Dans le cas de diffusions non markoviennes de la forme auto-interagissantes (c'est-à-dire des diffusions non linéaires où la convolution dans la dérive est avec la mesure d'occupation du processus), Ashot Aleksian, Aline Kurtzmann et moi-même avons également établi des principes de grandes déviations. Ceci est l'objet d'un article soumis pour publication.

(Retourner au sommaire)

Problème de sortie de diffusions non linéaires

Une question que je me suis posée depuis un certain nombre d'années concerne l'obtention d'une loi d'Arrhenius ou d'une loi de type Kramers sur les temps de sortie de diffusions non linéaires. Jusqu'à présent, je me suis focalisé sur une instance particulière de diffusion non linéaire : la diffusion auto-stabilisante, solution d'une équation différentielle stochastique de la forme : \[ \tag{III} {\rm d}X_t=\sigma {\rm d}B_t-\nabla V(X_t){\rm d}t-\alpha(X_t-\mathbb{E}(X_t)){\rm d}t\,, \] où \(\alpha,\sigma>0\) et \(V\) est un potentiel sur \(\mathbb{R}^d\).

L'objet d'étude est le premier temps de sortie d'une telle diffusion à petit bruit à savoir \(\tau(\sigma):=\inf\left\{t\geq0\,\,:\,\,X_t\notin\mathcal{D}\right\}\) où \(\mathcal{D}\) est un domaine ouvert satisfaisant des propriétés simples pour lesquelles les asymptotiques de \(\tau(\sigma)\) à petit \(\sigma\) ne sont pas triviales. Obtenir la loi d'Arrhenius signifie ici obtenir la limite \(\lim_{\sigma\to0}\frac{\sigma^2}{2}\log\left(\mathbb{E}\left[\tau(\sigma)\right]\right)=H\) où \(H>0\) est alors appelé le coût de sortie. La loi de Kramers va plus loin puisqu'elle fournit le préfacteur : \(\mathbb{E}\left[\tau(\sigma)\right]=C(\sigma)\exp\left\{\frac{2H}{\sigma^2}\right\}\left(1+o_\sigma(1)\right)\) où \(C(\sigma)\) est déterminé explicitement. Ce que l'on appelle une loi de type Kramers est une limite de la forme : \[ \lim_{\sigma\to0}\mathbb{P}\left\{\exp\left(\frac{2}{\sigma^2}(H-\delta)\right)<\tau(\sigma)<\exp\left(\frac{2}{\sigma^2}(H+\delta)\right)\right\}=1\,, \] où \(\delta>0\) est arbitrairement petit.

Il convient de noter que dans le cas présent, le potentiel \(F\) qui modélise les interactions non locales est quadratique (\(F(x):=\frac{\alpha}{2}x^2\)). Néanmoins, cette hypothèse n'est ici prise que pour présenter plus simplement les résultats. Ainsi, dans leur remarquable article intitulé « Large deviations and a Kramers'type law for self-stabilizing diffusions » publié dans The Annals of Applied Probability, Herrmann, Imkeller et Peithmann ont établi une loi de type Kramers dans un cas plus général où la dérive n'est pas nécessairement de la forme gradient : \[ {\rm d}X_t=\sigma{\rm d}B_t+b(X_t){\rm d}t+c\ast\mu_t(X_t){\rm d}t\,, \] où \(b\) comme \(c\) sont des champs de vecteurs sur \(\mathbb{R}^d\). Toutefois, leur travail est réduit au cadre contractif : ainsi les jacobiennes de \(b\) et de \(c\) sont des matrices définies négatives, uniformément par rapport à la variable d'espace. En d'autres termes, dans le cas gradient (c'est-à-dire quand \(b:=-\nabla V\) et \(c:=-\nabla F\)), les potentiels en jeu sont supposés uniformément convexes.

L'objectif principal de mon travail sur ces dix dernières années consiste à étendre ce travail au cas non convexe. En effet, l'intérêt même de la métastabilité (car il s'agit ici de métastabilité) est d'étudier le cas des potentiels multi-modaux.

Dans un premier temps, j'ai redémontré un résultat de Herrmann, Imkeller et Peithmann sur le temps de sortie dans le cas convexe. Ceci correspond aux papiers « Exit problem of McKean-Vlasov diffusions in convex landscape » publié dans Eletronic Journal of Probability et « A simple proof of a Kramers'type law for self-stabilizing diffusions » publié dans Electronic Communications in Probability. Dans ce cadre, \(V\) est uniformément convexe : \(\nabla^2V\geq\theta{\rm Id}\) avec \(\theta>0\). On note \(a\) l'argument du minimum global du potentiel de confinement \(V\) et on prend un domaine ouvert \(\mathcal{D}\subset\mathbb{R}^d\) qui contient \(a\) et est positivement invariant par la dynamique \(x\mapsto-\nabla V(x)-\alpha(x-a)\).

On souhaite connaître les asymptotiques à petit bruit du temps d'arrêt \(\tau(\sigma):=\inf\left\{t\geq0\,\,:\,\,X_t\notin\mathcal{D}\right\}\). Alors, on retrouve la loi de type Kramers avec le coût de sortie \(H:=\inf_{\partial\mathcal{D}}(V+F\ast\delta_a-V(a))\). Afin d'obtenir ce résultat, j'ai mis au point deux méthodes qui diffèrent fortement de celle de Herrmann, Imkeller et Peithmann. En effet, cette dernière consiste principalement à reconstruire la théorie de Freidlin et Wentzell (avec un point de vue grandes déviations de type Dembo et Zeitouni). Dans mon premier papier sur le sujet, je passe par le système de particules en interaction qui est l'interprétation microscopique de l'équation auto-stabilisante. Bien que ce système corresponde à une diffusion en grande dimension (\(Nd\) si \(N\) est le nombre de telles particules), il s'agit d'une diffusion d'Itô très classique. De fait, en adaptant la théorie de Freidlin et Wentzell et en s'en servant comme d'une boîte noire, je suis parvenu à obtenir les asymptotiques classiques, quand les potentiels sont uniformément convexes, sur le premier temps de sortie de la première particule. Puis, en adaptant le couplage classique pour qu'il soit uniforme sur un intervalle de temps de la forme \(\left[t_0;t_0+\exp\left\{\frac{2K}{\sigma^2}\right\}\right]\) où \(K>H\) est arbitrairement grand, j'ai pu restaurer ce résultat sur la diffusion auto-stabilisante en paysage convexe.

Dans mon deuxième article sur le sujet, je suis passé par une diffusion auxiliaire : \[ Y_t=X_{T_0}+\sigma\left(B_t-B_{T_0}\right)-\int_{T_0}^t\nabla V(Y_s){\rm d}s-\int_{T_0}^t\alpha(Y_s-a){\rm d}s\,, \] le temps \(T_0\) étant déterministe et adapté au degré de précision que l'on souhaite obtenir dans le couplage entre les diffusions \(X\) et \(Y\). En prenant avantage de la convexité, je suis parvenu à établir un couplage uniforme en temps. Puis, la diffusion \(Y\) étant une diffusion de Kolmogorov classique, son temps de sortie est bien connu. Enfin, en adaptant le domaine dont sort la diffusion \(Y\), il est possible de retrouver le temps de sortie de la diffusion \(X\) du domaine \(\mathcal{D}\). Également, j'ai retrouvé (par une méthode totalement nouvelle) \[ \lim_{\sigma\to0}\mathbb{P}\left\{X_{\tau(\sigma)}\in\mathcal{N}\right\}=0\,, \] si \(\mathcal{N}\subset\partial\mathcal{D}\) est tel que \(\inf_{\mathcal{N}}(V+F\ast\delta_a-V(a))>H\). Il convient de noter que ce dernier résultat n'a pas besoin de convexité pour être valide. Plus exactement, la seule chose dont on ait besoin pour connaître le lieu de sortie \(X_{\tau(\sigma)}\) est l'asymptotique à petit bruit du temps de sortie \(\tau(\sigma)\). Il s'ensuit que la seule chose que l'on ait à faire dans le cas non-convexe est d'établir la loi de type Kramers.

Dans un deuxième temps, je me suis intéressé au cas où \(V\) n'est pas convexe et j'ai obtenu des résultats partiels. Ainsi, lorsque l'on est en dimension un, le problème est résolu, voir « A simple proof of a Kramers'type law for self-stabilizing diffusions in double-wells landscape » publié dans Alea. De même, en dimension générale, si l'on est dans le cas de la synchronisation c'est-à-dire si \(F(x)=\frac{\alpha}{2}|x|^2\) avec \(\alpha>\sup_{\mathbb{R}^d}-\nabla^2V\), alors le problème est également résolu : voir « Exit problem of McKean-Vlasov diffusion in double-wells landscape » publié dans Journal of Theoretical Probability.

L'idée pour obtenir un tel résultat est de contrôler \(\mathcal{L}(X_t)\) en fonction du temps de sortie \(\tau(\sigma)\). Plus précisément, la clef qui a débloqué le problème est l'inégalité suivante : \[ \frac{d}{dt}\mathbb{E}\left[|X_t-a|^2\right]\leq-2\rho\mathbb{E}\left[|X_t-a|^2\right]+K\sqrt{\mathbb{P}\left(\tau(\sigma)\leq t\right)}+C\sigma^2\,, \] où \(K\) et \(C\) sont des constantes. Puis, l'idée est de coupler la diffusion inhomogène (III) avec la diffusion \(Y\) dont l'équation d'évolution est écrite plus haut.

Il est intéressant de mentionner que, jusqu'à présent, le potentiel d'interaction \(F\) est convexe. Et, l'on peut constater facilement que le coût de sortie est donc plus élevé pour la diffusion de McKean-Vlasov que pour la diffusion linéaire sans interaction. Une question naturelle se pose : si \(F\) est une répulsion, le coût de sortie sera-t-il réduit ? La réponse est oui, pour peu que la partie linéaire de la dérive soit une contraction. Ceci correspond à l'article « Reducing exit-times of diffusions with repulsive interactions » avec Paul-Eric Chaudru de Raynal, Hong Duong, Pierre Monmarché et Milica Tomašević ; lequel fut publié dans ESAIM Probability and Statistics.

Dans ce travail, nous montrons, dans un cas simple qui ouvre une véritable avenue, que si \(V\) est convexe on peut réduire le temps pour s'éloigner de son minimiseur. Il convient aussi de noter que nous ne nous restreignons ni au cas gradient ni au cas des diffusions sur-amorties. De plus, les techniques que nous utilisons sont robustes par rapport à tous les paramètres.

Avec Daniel Adams, Gonçalo dos Reis, Romain Ravaille et William Salkeld, nous avons établi un résultat de type Kramers dans le cas où l'espace des phases n'est pas \(\mathbb{R}^d\) mais un sous-domaine à l'intérieur duquel on met une réflexion au bord. Pour parvenir à ce résultat, nous avons toutefois dû supposer que la dérive est de type gradient et que les deux potentiels (confinement et interaction) sont uniformément convexes. En effet, la méthode utilisée repose en grande partie sur des techniques similaires à celles que j'ai montées précédemment. Cet article intitulé « Large Deviations and Exit-times for reflected McKean-Vlasov equations with self-stabilizing terms and superlinear drifts » a été publié dans Stochastic Processes and their Applications.

J'ai écrit précédemment avoir utilisé le système de particules pour appréhender les asymptotiques du temps de sortie de la diffusion auto-stabilisante, dans le cadre convexe. Néanmoins, on peut se demander ce qu'il advient du système de particules quand \(V\) n'est pas convexe. Ceci correspond à un article publié dans ESAIM Probability and Statistics : « Exit-time of mean-field particles system ».

Ashot Aleksian et moi-même avons écrit un article sur le premier temps de sortie pour la diffusion auto-stabilisante lorsque \(V\) n'est pas convexe, lorsque \(F\) n'est pas supposé convexe, lorsque la dimension \(d\) est générale et ceci sans supposer l'hypothèse usuelle qui a guidé mon travail ces dernières années. Cet article est publié dans Electronic Journal of Probability.

In fine, le problème est quasiment résolu, même dans le cas non gradient. Ceci correspond à une succession de résultats majeurs dont les applications en apprentissage machine, en dynamique moléculaire, en éconophysique sont indéniables. Il convient de mentionner que ces différents travaux ont aussi un impact certain sur le comportement en temps long de diffusions non linéaires, au sens de McKean. Et, les derniers travaux sont le fruit du projet ANR METANOLIN.

(Retourner au sommaire)

Problème de collision entre diffusions indépendantes

Le problème de collision correspond à une question que Jean-François Jabir et moi-même nous sommes posée il y a quelques temps. Cette question est totalement nouvelle. Il s'agit d'estimer le premier temps où deux processus se touchent. On se place dans le cadre des diffusions d'Itô, des diffusions auto-stabilisantes, des diffusions auto-interagissantes (modélisant les polymères) ou même des systèmes de particules. Présentons le cas le plus simple possible ; lequel contient en soi la difficulté intrinsèque au problème de collision.

Soient deux potentiels \(\Psi_1\) et \(\Psi_2\) sur \(\mathbb{R}\). On les suppose uniformément convexes et de minimiseurs respectifs \(\lambda_1\) et \(\lambda_2\) avec \(\lambda_1\neq\lambda_2\). Sans rien changer à la généralité, on suppose \(\lambda_1<\lambda_2\). On se donne également \(\sigma>0\). On considère alors les deux diffusions suivantes sur \(\mathbb{R}\) : \[ x^1_t=x^1_0+\sigma B_t-\int_0^t\Psi_1'\left(x^1_s\right){\rm d}s\quad\mbox{et}\quad x^2_t=x^2_0+\sigma\widetilde{B_t}-\int_0^t\Psi_2'\left(x^2_s\right){\rm d}s\,, \] où \(x^1_0\neq x^2_0\) sont deux réels et où \(B\) et \(\widetilde{B}\) sont deux mouvements browniens indépendants. On s'intéresse aux asymptotiques à petit bruit du premier temps de collision : \[ c(\sigma):=\inf\left\{t\geq0\,\,:\,\,x^1_t=x^2_t\right\}\,. \] Le problème de collision est bien posé vu que les diffusions sont récurrentes dans \(\mathbb{R}\). Le temps de collision n'est pas non plus dégénéré puisque \(x^1_0\neq x^2_0\). Toutefois, il faut de plus supposer que la distance entre les trajectoires déterministes est strictement positive. Dit autrement, on pose \(\varphi^1(t):=x^1_0-\int_0^t\Psi_1'\left(\varphi^1(s)\right){\rm d}s\) et \(\varphi^2(t):=x^2_0-\int_0^t\Psi_2'\left(\varphi^2(s)\right){\rm d}s\) et l'on suppose la stricte positivité de la quantité \(\inf_{t\geq0}\left|\varphi^1(t)-\varphi^2(t)\right|\). En utilisant les grandes déviations pour les processus stochastiques, il n'est alors pas difficile de montrer la limite suivante : \[ \lim_{\sigma\to0}\mathbb{P}\left\{c(\sigma)\leq T\right\}=0\,, \] pout tout \(T>0\). De fait, on peut tenter d'établir une loi de type Kramers : \(\mathbb{P}-\lim_{\sigma\to0}\frac{\sigma^2}{2}\log(c(\sigma))=\Delta>0\). En fait, c'est ce que l'on va faire par la suite.

Plutôt que de présenter le cas le plus général, restreignons-nous à un cas typique qui permettra de saisir l'idée sous-jacente à l'obtention d'une loi de type Kramers pour ce premier temps de collision. On suppose \(x^1_0<\lambda_1\) et \(x^2_0>\lambda_2\). D'abord, il est immédiat que la distance entre les trajectoires déterministes est strictement positive. Dans un premier temps, \(x^1_t\) va s'approcher de \(\lambda_1\) tandis que \(x^2_t\) va se stabiliser autour de \(\lambda_2\). Ensuite, pour qu'il y ait collision, il faudra à la fois que \(x^1\) aille à droite vers \(x^2\) et que \(x^2\) aille à gauche vers \(x^1\). En effet, la persistance du lieu de collision est ici totalement crucial pour appréhender le temps de collision. Supposons en effet que la collision ait lieu à gauche de \(x^1\). Alors, il faut au moins que le processus \(x^2\) touche \(\lambda_1\). Or, le coût pour aller de \(\lambda_2\) à \(\lambda_1\) est \(\Psi_2(\lambda_1)-\Psi_2(\lambda_2)\). On verra par la suite que ce coût en question dépasse \(\Delta\), le coût de collision. De la même manière, si le lieu de collision a lieu à droite de \(\lambda_2\), alors il faut au moins que le processus \(x^1\) touche \(\lambda_2\). Le coût pour parvenir à cet évènement est toutefois de \(\Psi_1(\lambda_2)-\Psi_1(\lambda_1)\). Néanmoins, on dispose de l'inégalité suivante : \[ \Delta:=\inf_{z\in\mathbb{R}}\left(\Psi_1(z)+\Psi_2(z)-\Psi_1(\lambda_1)-\Psi_2(\lambda_2)\right)<\min\left\{\Psi_2(\lambda_1)-\Psi_2(\lambda_2);\Psi_1(\lambda_2)-\Psi_1(\lambda_1)\right\}\,, \] cette inégalité étant immédiate de par la convexité du potentiel \(\Psi_1+\Psi_2\), vu que \(\Psi_1\) et \(\Psi_2\) sont tous les deux convexes, par hypothèse. L'idée qui guide notre intuition est de considérer les temps suivants pour tout \(z\in\mathbb{R}\) : \[ c_z(\sigma):=\inf\left\{t\geq0\,\,:\,\,x^1_t=x^2_t=z\right\}\,. \] On remarque en effet \(c(\sigma)=\inf_{z\in\mathbb{R}}c_z(\sigma)\). On va désormais établir la loi de type Kramers pour chaque \(c_z(\sigma)\).

La question de l'obtention d'une loi de type Kramers pour \(c_z(\sigma)\) avec \(z\in[\lambda_1;\lambda_2]\) est assez immédiate. On aboutit directement à \(\mathbb{P}-\lim_{\sigma\to0}\frac{\sigma^2}{2}\log\left(c_z(\sigma)\right)=\Delta(z):=\Psi_1(z)+\Psi_2(z)-\Psi_1(\lambda_1)-\Psi_2(\lambda_2)\). De fait, il est simple de prouver que la probabilité que \(c(\sigma)\) soit plus petit que \({\rm e}^{\frac{2}{\sigma^2}\left(\Delta-\delta\right)}\) tend vers \(0\) quand \(\sigma\) tend vers \(0\), pour \(\delta>0\) arbitrairement petit. Puis, le lieu de collision est de fait nécessairement situé proche de l'unique \(\lambda_0\) qui minimise le potentiel \(\Psi_1+\Psi_2\). Enfin, on peut alors prouver que le temps de collision ne sera pas plus grand que \({\rm e}^{\frac{2}{\sigma^2}\left(\Delta+\delta\right)}\) quand \(\sigma\) tend vers \(0\), pour \(\delta>0\) arbitrairement petit.

L'extension au cas de la dimension supérieure pose problème, même dans le cas de gradients de potentiels uniformément convexes. En effet, les diffusions ne sont plus récurrentes et le problème de collision est donc mal posé. On a ainsi établi un résultat similaire mais pour le temps de collision suivant : \[ c_\epsilon(\sigma):=\inf\left\{t\geq0\,\,:\,\,|x^1_t-x^2_t|<\epsilon\right\}\,, \] où \(\epsilon>0\) a pour vocation a tendre vers \(0\) ; après avoir pris la limite à petit bruit. Ainsi posé, le problème ne souffre plus de défaut. On procède ensuite à une généralisation très technique de l'intuition établie dans le cas unidimensionnel. En effet, bien que les diffusions soient indépendantes et bien que l'on puisse s'imaginer utiliser le résultat de Day sur le comportement exponentiel du temps de sortie, certaines hypothèses doivent être imposées aux domaines dont on cherche le temps de sortie pour satisfaire aux principes de grandes déviations pour les processus. Toute l'idée est alors la construction de domaines de \(\mathbb{R}^d\times\mathbb{R}^d\) qui satisfont à la théorie classique de Freidlin et Wentzell. Notamment, ces domaines doivent être positivement invariants par rapport à la dynamique sans bruit.

Par conséquent, on obtient un résultat similaire au précédent. En d'autres termes, pour tout \(\delta>0\), on a : \[ \lim_{\epsilon\to0}\lim_{\sigma\to0}\mathbb{P}\left\{\frac{\sigma^2}{2}\log\left(c_\epsilon(\sigma)\right)\in\left[\Delta-\delta;\Delta+\delta\right]\right\}=1\,, \] où \(\Delta:=\inf_{z\in\mathbb{R}^d}\left(\Psi_1(z)+\Psi_2(z)-\Psi_1(\lambda_1)-\Psi_2(\lambda_2)\right)\).

La convexité du potentiel \(\Psi_1+\Psi_2\) implique immédiatement que la collision a lieu en \(\lambda_0\), l'unique minimiseur dudit potentiel. Suite à ces résultats, nous avons utilisé les techniques que j'avais développées concernant le temps de sortie de la diffusion auto-stabilisante et nous sommes parvenus à montrer des résultats similaires sur les diffusions de McKean-Vlasov (de type auto-stabilisant) et pour les systèmes de particules. Nous n'avons pas traité du cas des diffusions auto-interagissantes. Néanmoins, celles-ci ne présenteront aucune difficulté supplémentaire.

Il est important de noter que dans le cas des diffusions de McKean-Vlasov, nous ne supposons pas la convexité des potentiels. Typiquement, voici les équations que l'on étudie : \[ {\rm d}X_t^1=\sigma {\rm d}B_t^1-\nabla V(X_t^1){\rm d}t-\alpha(X_t^1-\mathbb{E}(X_t^1)){\rm d}t\,, \] et \[ {\rm d}X_t^2=\sigma {\rm d}B_t^2-\nabla V(X_t^2){\rm d}t-\alpha(X_t^2-\mathbb{E}(X_t^2)){\rm d}t\,, \] où le potentiel de confinement \(V\) possède deux puits et donc n'est pas convexe. Cela dit, pour appliquer nos résultats sur le problème de collision de diffusions d'Itô indépendantes, nous supposons que l'on a \(\alpha{\rm Id}+\nabla^2V\geq\rho{\rm Id}\) où \(\rho>0\). En d'autres termes, on suppose que l'on est dans le cas dit de la synchronisation stricte. \(B^1\) et \(B^2\) sont deux mouvements browniens indépendants. On suppose également que \(X_0^1\) et \(X_0^2\) sont deux points de \(\mathbb{R}^d\) qui appartiennent à deux bassins d'attraction différents. Puis, les techniques de couplage que j'ai mises au point permettent d'obtenir une loi de type Kramers sur le temps de collision. Et, bien sûr, le lieu de collision est également établi.

Ce travail a ensuite été étendu au cas où ni le confinement ni l'interaction ne dérivent d'un gradient. Ceci correspond à une prépublication d'une quarantaine de pages.

Ce premier papier ouvre la voie à une série de travaux où l'on étendra au cas de diffusions de Langevin et au cas où la synchronisation fait défaut. Enlever la synchronisation consiste en fait à établir les résultats sur le temps de collision de diffusions homogènes en temps lorsque les dérives ne sont pas contractantes. Ceci implique d'étudier plus en profondeur la théorie de Freidlin et Wentzell et les résultats de métastabilité ; comme la hiérarchie des cycles stables ce qui nécessite une compréhension fine du quasi-potentiel.

Afin de mener à bien ce travail, Jean-François Jabir et moi-même avons recruté un très bon doctorant, Hetranso AHNI, lequel travaillera sur le problème de collision dans le cas Langevin à partir de novembre 2023. Suite à cela, nous étendrons à des cas où il n'y a pas d'indépendance. Par ailleurs, des applications de ces travaux concernent la dynamique des populations via le modèle de Cucker-Smale stochastique. Une autre application naturelle est celle des modèles à plusieurs espèces.

(Retourner au sommaire)

Problème de sortie de diffusions non markoviennes

La théorie de Freidlin et Wentzell sur les systèmes dynamiques faiblement bruités (notamment par un processus de Wiener quand on s'intéresse au cas des diffusions à petite température) est très populaire et très utilisée. Toutefois, la version classique de celle-ci s'intéresse à des diffusions linéaires et markoviennes. Comme mentionné précédemment, le cas non linéaire a été étudié intensivement ces dernières années. Toutefois, le cas non markovien est plus récent. Établir une théorie générale sur les systèmes qui ne satisfont pas la propriété de Markov est évidemment exclu. En effet, cette propriété de Markov est au cœur de la preuve telle que présentée dans le livre de Dembo et Zeitouni. Ainsi, on traite au cas par cas.

Dans ce paragraphe, on présente les résultats obtenus pour un cas particulier de diffusions qui ne satisfont pas la propriété de Markov : les diffusions dites auto-interagissantes, lesquelles ressemblent de près aux diffusions de McKean-Vlasov de type auto-stabilisant. Le choix de cette diffusion n'est pas anodin : elle correspond à un modèle étudié par Aline Kurtzmann et de plus, elle présente des similitudes avec la diffusion auto-stabilisante. Tandis que la diffusion auto-stabilisante \(X\) présente une non-linéarité dans sa dérive via un produit de convolution entre le gradient du potentiel d'interaction \(F\) et la loi dudit processus au temps \(t\), \(\mathcal{L}(X_t)\), la diffusion auto-interagissante \(Y\) contient dans sa dérive une convolution entre le gradient du potentiel d'interaction et sa mesure empirique au temps \(t\) à savoir \(\nu_t:=\frac{1}{t}\int_0^t\delta_{Y_s}{\rm d}s\) : \[ Y_t=Y_0+\sigma B_t-\int_0^t\nabla V(Y_s){\rm d}s-\int_0^t\frac{1}{s}\int_0^s\nabla F\left(Y_s-Y_r\right){\rm d}r{\rm d}s\,, \] où le coefficient de diffusion \(\sigma\) a, comme souvent dans mes travaux, vocation à être de faible amplitude. Il convient de noter que cette équation est difficile et surtout coûteuse à simuler vu qu'elle n'admet pas d'interprétation en termes de système de particules en interaction. Il faut ainsi garder en mémoire tout le passé de la trajectoire ce qui rend les calculs difficiles et longs et de plus demande beaucoup de mémoire.

Bien que cela puisse sembler surprenant au vu de ce qui est écrit juste au-dessus, cette diffusion est communément utilisée dans la méthode du gradient stochastique et dans celle du recuit simulé. Il est crucial de bien comprendre que son comportement en temps long ne diffère pas tant que cela de la diffusion auto-stabilisante (avec mêmes potentiels de confinement et d'interaction). En effet, on peut montrer que toute mesure de probabilité invariante \(\nu_\infty^\sigma\) de la diffusion auto-interagissante vérifie l'équation implicite suivante : \[ \nu_\infty^\sigma({\rm d}x)=\frac{\exp\left\{-\frac{2}{\sigma^2}\Big[V(x)+F\ast\nu_\infty^\sigma(x)\Big]\right\}}{\int_{\mathbb{R}^d}\exp\left\{-\frac{2}{\sigma^2}\Big[V(y)+F\ast\nu_\infty^\sigma(y)\Big]\right\}{\rm d}y}\,{\rm d}x\,. \] En vertu de ce qui précède, les états stationnaires de la diffusion auto-interagissante sont exactement les mêmes que pour la diffusion auto-stabilisante. Ces derniers ont été étudiés précisément par moi-même puisqu'ils correspondent aux états stables de l'équation des milieux granulaires. La convergence en temps long fut établie par Aline Kurtzmann.

Ces diffusions auto-interagissantes appartiennent à la classe des diffusions renforcées qui est utilisée pour l'étude des polymères. Ainsi, si \(F\) est convexe, le polymère a tendance à se conformer à son passé tandis qu'il a tendance à s'en éloigner si le potentiel d'interaction est concave. Ce type de diffusions a été étudié par Durrett, Rogers, Benaïm, Raimond... Dans tous les cas, ces diffusions ne satisfont pas la propriété de Markov ; que ce soit car la mesure d'occupation \(\int_0^t\delta_{Y_s}{\rm d}s\) intervient dans la dérive ou car c'est la mesure empirique décrite plus haut ou même car on a une dérive de la forme \(f\left(Y_t-\frac{1}{t}\int_0^tY_s{\rm d}s\right)\)... Les résultats que nous avons obtenus le sont pour la mesure empirique mais nous imaginons aisément pouvoir les étendre pour la mesure d'occupation et pour beaucoup d'autres situations plus générales.

Le premier résultat sur le sujet que nous avons obtenu concerne les asymptotiques à petit bruit du premier temps de sortie \(\tau(\sigma):=\inf\left\{t\geq0\,\,:\,\,Y_t\notin\mathcal{D}\right\}\) où \(\mathcal{D}\) satisfait des hypothèses classiques en théorie de Freidlin et Wentzell. Dans ce papier en révision mineure pour ESAIM Probability and Statistics, nous avons supposé que \(V\) comme \(F\) sont uniformément convexes. En faisant ces hypothèses, Ashot Aleksian, Pierre Del Moral, Aline Kurtzmann et moi-même sommes parvenus à obtenir une loi de type Kramers à savoir : \(\mathbb{P}-\lim_{\sigma\to0}\frac{\sigma^2}{2}\log\left(\tau(\sigma)\right)=H\) où le coût de sortie \(H\) est défini comme étant \(H:=\inf_{z\in\partial\mathcal{D}}\left(V+F\ast\delta_a-V(a)-F(0)\right)\), le point \(a\) étant l'unique minimiseur du potentiel \(V\). Pour parvenir à ce résultat, l'idée est similaire à celle que j'avais développée pour la diffusion auto-stabilisante dans le papier intitulé « A simple proof of a Kramers'type law for self-stabilizing diffusions ». D'abord, on utilise les résultats d'Aline Kurtzmann sur la convergence en temps long dans le cadre convexe. On dispose de plus d'une vitesse de convergence qui ne dépend pas du coefficient de diffusion. Puis, on couple cette diffusion avec la diffusion homogène et markovienne : \[ Z_t=Y_{T_0}+\sigma\left(B_t-B_{T_0}\right)-\int_{T_0}^t\nabla V\left(Z_s\right){\rm d}s-\int_{T_0}^t\nabla F\left(Z_s-a\right){\rm d}s\,, \] où \(T_0\) est choisi de telle sorte que \(\nu_{T_0+s}\) est proche de \(\delta_a\) pour tout \(s\geq0\). Des asymptotiques classiques sur le temps de sortie de la diffusion \(Z\), les mêmes asymptotiques sur le temps \(\tau(\sigma)\) s'ensuivent.

Le second résultat consiste principalement en l'obtention des mêmes asymptotiques sans hypothèse de convexité sur \(V\) ou sur \(F\). La difficulté principale est que l'on ne connait pas bien la mesure empirique \(\nu_t\). Notamment, elle ne satisfait pas d'équation aux dérivées partielles simple puisque cette mesure est non déterministe. L'idée que nous avons eue fut alors d'établir des principes de grandes déviations plus généraux qui contrôlent ladite mesure empirique. Ce résultat est peu ou prou l'un des deux objectifs principaux du projet ANR METANOLIN par lequel nous (Aline Kurtzmann et moi-même) avons pu recruter Ashot Aleksian comme doctorant. Nous sommes allés plus loin que ce qui était prévu et la robustesse de nos méthodes permettra à Ashot Aleksian d'étendre à des cas non gradients et à des cas non markoviens plus généraux. La technicité requise pour appréhender ce problème de sortie est telle que je ne vais pas détailler la méthode. L'idée principale consiste à contrôler précisément le temps que la diffusion passe au voisinage de \(a\), l'un des minimiseurs de \(V\) et le temps passé loin de \(a\). Ainsi, si l'on parvient (et l'on y est parvenu) à montrer que le temps passé loin de \(a\) est négligeable devant celui passé proche de \(a\) alors \(\nu_t\) est proche de \(\delta_a\), du moins avant le temps \(\tau(\sigma)\). Ces contrôles extrêmement délicats furent l'œuvre d'Ashot. Ceci nous (Ashot Aleksian, Aline Kurtzmann et moi-même) a permis d'aboutir à un papier soumis.

L'étape suivante sera d'étudier la convergence de \(\nu_t\) vers une des probabilités invariantes, d'établir des échelles de temps caractéristiques pour lesquelles \(\nu_{t(\sigma)}\) sera, à petit coefficient de diffusion \(\sigma\), proche de \(\delta_a\). Une autre étape sera de généraliser notre méthode à d'autres cas non markoviens. Il convient de noter que les applications en apprentissage machine via la méthode du gradient stochastique et de celle du recuit simulé ne sont pas anodines. Enfin, bien que ce ne fut pas l'objet des premières discussions que nous avons menées dans ce projet, les diffusions auto-interagissantes sont en tant que telles une interprétation en termes de système de particules de diffusions de McKean-Vlasov à mémoire. Un exemple de telles diffusions à mémoire est l'interprétation probabiliste du système d'équations aux dérivées partielles parabolique-parabolique de Keller-Segel. Conséquemment, régulariser les noyaux de cette équation et regarder le système de particules revient à étudier une équation auto-interagissante en grande dimension. Par conséquent, nous tenons là une piste aussi prometteuse que porteuse et passionnante.

(Retourner au sommaire)

Ensembles de Kalman

Bien que les Ensembles de Kalman ne soient pas mon cœur de métier, je m'y suis intéressé par un temps avec Pierre Del Moral et Aline Kurtzmann. Ceci a donné lieu à trois publications : « Uniform propagation of chaos properties of Ensemble Kalman-Bucy particle filters » dans The Annals of Applied Probability, « On the stability and the uniform propagation of chaos of a class of extended ensemble Kalman-Bucy filters » dans SIAM Journal on Control and Optimization et « On the stability and the concentration of extended Kalman-Bucy filters » dans Electronic Journal of Probability.

Il convient de souligner que ces modèles correspondent eux aussi à des diffusions non linéaires et à des systèmes de particules en interaction. On considère l'équation linéaire suivante : \[ {\rm d}X_t=\left(AX_t+a\right){\rm d}t\,, \] où \(X_0\) est une variable aléatoire gaussienne évoluant dans \(\mathbb{R}^{r_1}\). Dans des applications concrètes comme les sciences de l'océan et de l'athmosphère, \(r_1\) peut être égal à \(10~000\). Ici, \(A\) est une matrice carrée de taille \(r_1\) et \(a\) est un vecteur de \(\mathbb{R}^{r_1}\). Le problème est que l'on n'a pas accès à \(X_t\) bien qu'il s'agisse du signal d'intérêt. Néanmoins, on a accès au signal \(Y\) défini comme suit : \[ {\rm d}Y_t=\left(CX_t+c\right){\rm d}t\,, \] où \(Y_0=0\). Ici, \(Y_t\) est une variable aléatoire évoluant dans \(\mathbb{R}^{r_2}\). En pratique, \(r_2\) est strictement plus petit que \(r_1\). Comment trouver \(X\) en connaissant \(Y\) ?

On introduit la matrice \(M\in\mathcal{M}_{r_1\times r_2,r_1}\) définie par \[ M:=\left( \begin{array}{c} C\\ CA\\ \vdots\\ CA^{r_1-1} \end{array}\right)\,. \] On suppose que le rang de la matrice \(M\) est \(r_1\). Alors, la connaissance de \(Y\) (et de ses incréments donc) est suffisante pour décrire le processus \(X\). Cette condition d'observabilité est par ailleurs nécessaire.

Dans les cas pratiques, des perturbations apparaissent dans l'équation de la variable d'état et dans celle de la variable d'observation. In fine, le système d'équations est : \[ \left\{ \begin{array}{l} {\rm d}X_t=(Ax_t+a){\rm d}t+R_1^{\frac{1}{2}}{\rm d}W_t\,,\\ {\rm d}Y_t=(CX_t+c){\rm d}t+R_2^{\frac{1}{2}}{\rm d}V_t\,. \end{array}\right. \] On pose \(\mathcal{F}_t:=\sigma\left(Y_s\,\,:\,\,0\leq s\leq t\right)\). Et, \(\eta_t\) dénote la loi de \(X_t\) sachant \(\mathcal{F}_t\). Il est connu que la loi conditionnelle \(\eta_t\) est gaussienne donc elle est caractérisée par son espérance et par sa variance. On pose donc \(\widehat{X}_t:=\mathbb{E}\left[X_t\,\left|\right.\,\mathcal{F}_t\right]\) et \(P_t:=\mathbb{E}\left\{\left(X_t-\widehat{X}_t\right)\left(X_t-\widehat{X}_t\right)^T\right\}\). De plus, on dispose de l'équation (filtre de Kalman-Bucy) suivante : \[ {\rm d}\widehat{X}_t=\left(A\widehat{X}_t+a\right){\rm d}t+P_tC^TR_2^{-1}\left({\rm d}Y_t-\left(C\widehat{X}_t+c\right){\rm d}t\right)\,, \] ainsi que de l'équation de Riccati sur \(P_t\) : \[ \frac{{\rm d}}{{\rm d}t}P_t=AP_t+P_tA^T-P_tC^TR_2^{-1}CP_t+R_1\,. \] L'équation de Riccati est très coûteuse à simuler si \(r_1=10~000\) puisque multiplier deux matrices carrées de cette taille nécessite \(3\times10^{12}\) calculs élémentaires. On considère donc la diffusion suivante : \[ {\rm d}\overline{X}_t=\left(A\overline{X}_t+a\right){\rm d}t+R_1^{\frac{1}{2}}{\rm d}\overline{W}_t+\mathcal{P}_{\eta_t}C^TR_2^{-1}\left[{\rm d}Y_t-\left(C\overline{X}_t+c\right){\rm d}t+R_2^{\frac{1}{2}}{\rm d}\overline{V}_t\right]\,. \] Ici, \(\mathcal{P}_{\eta_t}:=\mathbb{E}\left\{\left(\overline{X}_t-\mathbb{E}\left[\overline{X}_t\,\left|\right.\,\mathcal{F}_t\right]\right)\left(\overline{X}_t-\mathbb{E}\left[\overline{X}_t\,\left|\right.\,\mathcal{F}_t\right]\right)^T\right\}\). C'est une équation de type McKean-Vlasov avec une loi conditionnelle au lieu de la loi du processus. On peut alors utiliser l'approximation classique suivante : \[ {\rm d}\xi_t^i=\left(A\xi_t^i+a\right){\rm d}t+R_1^{\frac{1}{2}}{\rm d}\overline{W}_t^i+\mathcal{P}_t^NC^TR_2^{-1}\left[{\rm d}Y_t-\left(C\xi_t^i+c\right){\rm d}t+R_2^{\frac{1}{2}}{\rm d}\overline{V}_t^i\right]\,. \] Ici, \(\left(\overline{W}^i\right)_{i\in\mathbb{N}^*}\) est une famille de mouvements browniens indépendants dans \(\mathbb{R}^{r_1}\) et \(\left(\overline{V}^i\right)_{i\in\mathbb{N}^*}\) en est une dans \(\mathbb{R}^{r_2}\).

Nous nous sommes également intéressés au cas de l'équation de Kalman étendue. Ceci correspond à un filtre non linéaire pour lequel une convergence en temps long et une propagation du chaos ont aussi été prouvés.

Je tiens à souligner que je ne pratique plus la recherche dans cette direction.