Skip to main content

Section 1.3 Vocabulaire mesuré

Subsection 1.3.1 Changement de point de vue et tribus d'évènements

Jusqu'ici, on a considéré des cas assez simples où l'ensemble univers \(\Omega\) a pour éléments les résultats possibles d'une seule expérience:

  • Lancer de deux dés \(\leadsto\) \(\Omega=\{1,2,3,4,5,6\}\times \{1,2,3,4,5,6\}\text{;}\)

  • Pile ou face répété \(\leadsto\) \(\Omega=\{P,F\}^{\N^*}\text{;}\)

  • Moment d'arrivée du Nantes-Bordeaux 1  \(\leadsto\) \(\Omega= \rbb 0,\infty \rbb\)

Mais dans beaucoup de cas intéressants, on peut avoir envie de réaliser plusieurs expériences un peu différentes sur un même ensemble:

  • Dans un composé radioactif, la probabilité de décomposition de deux atomes différents;

  • A la gare de Bordeaux, l'arrivée du TGV Paris-Bordeaux d'une part et le départ du TER Bordeaux-Condat-le-Lardin;

  • Aux fléchettes, la probabilité que Stephen Hawking marque et celle que Natasha Romanoff marque.

Mais dans ce cas, si on essaie d'attribuer un élément d'un ensemble à ces différentes situations, qui tienne compte de toutes les conditions pertinentes, l'ensemble des possibles \(\Omega\) devient absolument monstrueux. Chaque réalisation correspond à un cas particuliers de circonstances (températures, pression, météo, chute d'un arbre sur les voies à St-Médard-de-Guizière, hauteur des talons de Hawking et de Romanoff).

Pas grave: on va changer de point de vue. on ne va surtout pas chercher à définir \(\Omega\) ou à le comprendre. On va simplement supposer qu'on sait attribuer une plausibilité à certains sous-ensembles de \(\Omega\text{,}\) contenus dans un sous-ensemble \(\T \subset \mathcal P(\Omega)\text{:}\) par exemple, dans le cas de la gare de Bordeaux,

\begin{equation*} \Proba(\text{"arrivée à l'heure du train à destination de Macau"})=0.01256 \end{equation*}

 2 

On veut tout de même que ce sous ensemble \(\T\) des sous-ensembles qu'on souhaite mesurer soit assez riche pour qu'on puisse y faire des probabilités. Au minimum, on doit avoir:

\(\leadsto\) Un ensemble de sous ensembles \(\T\subset \P(\Omega)\) qui vérifie ces trois axiomes est appelé une tribu: les tribus vérifient donc les propriétés indispensables pour être l'ensemble de définition d'une probabilité \(\P:\T\rightarrow \rbb 0,1\lbb\text{.}\)

Remarque 1.3.2. Question.

Pourquoi ne pas simplement prendre \(\T=\P(\Omega)\) dans toutes les situations ?

\(\leadsto\) Si \(\Omega\) est trop gros et trop compliqué, certains sous-ensembles de \(\Omega\) seront tout simplement indescriptibles, et on ne pourra pas raisonnablement leur attribuer une probabilité: pas si on veut garantir que les axiomes des probabilités soient vérifiés.

Et en fait, comme on le verra un peu plus tard, il n'y a pas besoin que \(\Omega\) soit vraiment difforme pour que ça arrive: même sur \(\Omega=\R\text{,}\) il n'existe pas de mesure raisonnable de tous les sous-ensembles de \(\R\).

Subsection 1.3.2 Variables aléatoires

A la place de \(\Omega\text{,}\) on va s'intéresser à des fonctions \(X:\Omega \rightarrow \R\) (ou \(\R^2,\R^3...\)) qui mesurent les probabilités des résultats de diverses expériences qu'on peut faire dans \(\Omega\text{.}\)

Par exemple, plutôt que de s'intéresser à \(\Omega=\rbb 0,+\infty \lbb\) l'ensemble des temps possibles d'arrivée d'un seul train en gare de Bordeaux, on postule un ensemble \(\Omega\) décrivant toutes les circonstances locales possibles, muni d'une tribu \(\T\) d'évènements auxquels on peut attribuer une probabilité via une application

\begin{equation*} \Proba: A\in \T \mapsto \Proba(A) \in \rbb 0,1 \lbb \end{equation*}

qui vérifie les Axiomes 1.1.1.

On peut alors définir deux fonctions

\begin{gather*} X_{Paris}:\Omega \rightarrow \rbb 0,+\infty \lbb\\ N_{TER}:\Omega \rightarrow \N \end{gather*}

qui décrivent respectivement, pour des circonstances données \(\omega\in\Omega\) qu'on n'a pas besoin de comprendre, les temps d'attente avant l'arrivée du TGV Bordeaux-Paris et le nombre de TER arrivés à l'heure.

\(\leadsto\) On peut ainsi s'intéresser simultanément à plusieurs expériences de nature différente sur un même ensemble.

On a dit qu'on ne chercherait pas à comprendre \(\Omega\text{,}\) et on ne supposera donc pas qu'il a une structure particulière: on ne sait pas, notamment, si c'est un espace vectoriel (donc si on peut faire des sommes dedans), s'il y a une distance naturelle entre les éléments de \(\omega\) (ce qui nous permettrait de parler d'ouverts, de voisinage, de continuité...), etc...

Et du coup, on ne va pas s'intéresser aux propriétés des fonctions \(X:\Omega \rightarrow \R\) qui dépendent de ces structures: la continuité, la différentiabilité, etc.

Ce qui va nous occuper, c'est la distribution des valeurs de \(X\text{:}\)

  • Quelle est la probabilité que \(X=0\) ?

  • Quelle est la probabilité que \(X\leq 207\) ?

  • Et plus généralement, pour un sous-ensemble de \(A\subset \R\text{,}\) quelle est la probablité que \(X\in A\) ?

\(\leadsto\) C'est ce qu'on va appeler la loi de \(X\text{.}\)

Or, l'ensemble des réalisations du hasard \(\omega\) telles que \(X(\omega)\in A\text{,}\) c'est l'ensemble

\begin{equation*} \{\omega\in\Omega|X(\omega)\in A\}=X^{-1}(A) \end{equation*}

donc la probabilité que \(X\in A\) est la mesure de probabilité de cet ensemble, qu'on va noter \(P_X(A)\text{:}\)

\begin{equation*} P_X(A)=\Proba(\{\omega\in\Omega,X(\omega)\in A\})=\P(X^{-1}(A)) \end{equation*}

On a donc une nouvelle exigence: il faut qu'on puisse mesurer \(X^{-1}(A)\) pour les sous-ensembles de \(\R\) qui nous intéressent: on va noter \(\B(\R)\) la tribu de tous ces sous-ensembles 3 .

Une variable aléatoire réelle est une application

\begin{equation*} X:(\Omega,\T)\rightarrow (\R,\B(\R)) \end{equation*}

telle que, pour tout \(B\in\B(\R)\text{,}\)

\begin{equation*} X^{-1}(B)=\{\omega\in\Omega,X(\omega)\in A\} \end{equation*}

est un évènement de \(\T\) auquel on sait attribuer une probabilité. On note généralement \(\{X\in B\}\) l'évènement \(X^{-1}(B)\text{.}\)

On en déduit une application qui décrit ce qui nous intéresse:

\begin{equation*} P_X:B\in\B(\R)\mapsto \Proba(\{X\in B\}) \in \rbb 0,1\lbb \end{equation*}

\(\leadsto\) \(P_X\) vérifie les axiomes des probabilités de Kolmogorov: c'est donc une probabilité sur \(\R\) qu'on appelle loi de \(X\).

Il se trouve qu'en fait, pour étudier la loi d'une variable aléatoire \(X\text{,}\) on peut se contenter de regarder ce que vaut, pour chaque \(t\in\R\text{,}\) la probabilité que \(X\leq t\) : cette information caractérise complètement la loi de \(X\)(dans un sens qu'on étudiera prochainement). On va donc lui donner un nom: la fonction de répartition de \(X\text{,}\) définie donc par

\begin{equation*} F_X:t\in\R \mapsto \P(\{X\leq t\})\in \rbb 0,1 \lbb \end{equation*}

Vous la connaissez déjà dans un certain nombre de cas: c'est une fonction croissante, continue à droite mais pas forcément continue, et telle que

\begin{equation*} \lim_{x\rightarrow -\infty}F_X(x)=0,\quad \lim_{x\rightarrow +\infty}F_X(x)=1, \end{equation*}

 4 

Remarque 1.3.3.

Qu'entend-on par "la fonction de répartition caractérise la loi de la variable aléatoire" ?

On le verra un peu plus tard quand on parlera d'unicité des mesures de probabilité qui vérifient une propriété: Si \(X,Y:\Omega\rightarrow\R\) sont deux v.a. réelles telles que \(F_X=F_Y\text{,}\) alors les lois de \(X\) et de \(Y\) sont les mêmes: \(P_X=P_Y\text{.}\)

Attention toutefois, ça ne veut pas dire que \(X\) et \(Y\) sont égales en tant que fonctions sur \(\Omega\text{.}\)

Prenons \(\Omega=\rbb 0,1\lbb^2\) et \(\Proba\) est l'aire des sous-ensembles de \(\rbb 0,1\lbb^2\text{.}\) Imaginons deux variables aléatoires \(X,Y: \rbb 0,1 \lbb ^2\rightarrow \R\) représentées ci-dessous (des couleurs plus foncées représentent de plus grandes valeurs de \(X\) et \(Y\)):

Alors on peut très bien avoir, pour n'importe quel \(\alpha\in\R\text{,}\)

\begin{equation*} F_X(\alpha)=Aire(\{X\leq \alpha\}) = Aire(\{Y\leq\alpha\})=F_Y(\alpha) \end{equation*}

même si les ensembles \(\{X\leq \alpha\}\) et \(\{Y\leq \alpha\}\) sont différents.

Subsection 1.3.3 Conditionnement et indépendance

Revenons à l'interprétation des probabilités comme une mesure de la plausibilité qu'on attribue à la réalisation de certains évènements. Typiquement, les évènements auxquels on s'intéresse pour résoudre un certain problème sont liés entre eux: on s'attend donc à ce que notre estimation de la plausibilité de \(B\) ne soit pas la même si on sait préalablement qu'un autre évènement \(A\) est aussi réalisé.

Reprenons l'exemple du jeu de fléchette: dans notre concentration sur ce jeu, notre univers des possible se restreint à la cible \(\mathcal C\text{,}\) modélisée par un disque parfait de rayon \(r\text{,}\) et les évènements qui nous intéressent sont les régions \(A\subset \mathcal C\) dont on sait calculer l'aire: on note \(\B(\mathcal C)\subset \mathcal P(\mathcal C)\) l'ensemble de ces régions 5 .

Notre talent aux fléchettes étant faible, on a à peu près autant de chance de planter la fléchette n'importe ou sur la cible, donc la probabilité qu'elle atterrisse dans une région donnée \(A\in \B(\mathcal C)\) est simplement l'aire de cette région, divisée par \(\pi r^2\) (l'aire de \(\mathcal C\)).

Figure 1.3.5. \(\Proba(A)=\dfrac{Aire(A)}{\pi r^2}\text{,}\) pareil pour \(\Proba(B_1),Proba(B_2)\) et \(\Proba(B_3)\text{.}\)

Mais, si on sait déjà que la fléchette arrivera dans \(A\) 6 , alors notre estimation des probabilités des autres sous-ensembles change:

  • Pour l'évènement \(B_1\text{,}\) il devient plus probabe: en appliquant la bonne vieille sagesse "\(\dfrac{\text{nb cas favorables}}{\text{nb cas possibles}}\)", on estime maintenant la probabilité d'atterir dans \(B_1\) à \(\dfrac{Aire(B_1)}{Aire(A)}\geq\dfrac{Aire(B_1)}{\pi r^2}\text{.}\)

  • Pour l'évènement \(B_2\text{,}\) par contre, on sait maintenant qu'il n'a aucune chance de se produire: notre estimation de sa probabilité tombe donc à 0.

  • Pour l'évènement \(B_3\text{,}\) c'est un peu plus compliqué: une partie de \(B_3\) est exclue, et la partie de \(B_3\) qui intersecte \(A\) devient, en quelque sorte, plus probable: elle représente une plus grande proporion de \(A\) que de \(\mathcal C\text{.}\)

    Il semble à présent raisonnable d'estimer la probabilité de \(B_3\) à

    \begin{equation*} \dfrac{Aire(A\cap B_3)}{Aire(A)}= \dfrac{Aire(A\cap B_3)}{\pi r^2}\cdot\dfrac{\pi r^2}{Aire(A)}= \dfrac{\Proba(A\cap B_3)}{\Proba(A)} \end{equation*}

    (et là, ce n'est pas évident que \(B_3\) soit maintenant plus ou moins probable)

Ces considérations nous amènent à la définition plus générale :

Soit \(A\in\T\) tel que \(\Proba(A) \gt 0\text{.}\) On appelle probabilité conditionnelle de sachant \(A\) l'application

\begin{equation*} \Proba_A:B\in\T \mapsto \Proba(B\,|\,A)=\dfrac{\Proba(A\cap B)}{\Proba(A)} \end{equation*}

\(\leadsto\) Cette application vérifie les axiomes des probabilités et nous donne donc une nouvelle façon d'estimer des plausibilités, à la lumière de la nouvelle information qu'on a obtenue.

Toutefois, il arrive que la connaissance de \(A\) n'éclaire pas du tout notre estimation de la probabilité de \(B\text{:}\)

Mathématiquement, dans le cas où \(\Proba(A)\gt 0\text{,}\) on a donc

\begin{equation*} \Proba(B\,|\,A) = \Proba(B) \end{equation*}

Ce qui revient à dire que

\begin{equation*} \Proba(A\cap B) = \Proba(A)\Proba(B) \end{equation*}

et cette formule a l'avantage d'avoir un sens même si \(\P(A)=0\text{:}\) on va donc s'en servir comme définition:

\(\leadsto\) On dira que deux évènements \(A,B\in\T\) sont indépendants si

\begin{equation*} \Proba(A\cap B) = \Proba(A)\Proba(B) \end{equation*}

\(\leadsto\) Plus souvent, comme on a dit plus haut, l'ensemble \(\Omega\) restera cryptique, et on s'intéressera à des variables aléatoires \(X: \Omega \rightarrow \R\text{.}\)

Il semble raisonnable de dure que deux variables aléatoires sont indépendantes si aucune information sur \(X\) n'influence notre connaissance de \(Y\text{.}\) Et comme on en a discuté, les "informations" sont les évènements du type \(\{X\in A\}=\{\omega\in\Omega, X(\omega) \in A\}\text{.}\)

\(\leadsto\) On dira que deux variables aléatoires \(X\) et \(Y\) sont indépendantes si, pour tous \(B_1,B_2\in\B(\R)\text{,}\) les évènements \(\{X\in B_1\}\) et \(\{Y\in\B_2\}\) sont indépendants. Autrement dit,

\begin{equation*} \forall B_1,B_2\in\B(\R), \Proba(\{X\in B_1,Y\in B_2\}) = \Proba(\{X\in B_1\})\cdot\Proba(\{Y\in B_2\}) \end{equation*}

autrement autrement dit,

\begin{equation*} \forall B_1,B_2\in\B(\R), \Proba(\{(X,Y)\in B_1 \times B_2\}) = \Proba(\{X\in B_1\})\cdot\Proba(\{Y\in B_2\}) \end{equation*}

ou encore, en notant \(P_{(X,Y)}\) la loi de la variable aléatoire \((X,Y):\Omega\rightarrow \R^2\text{,}\)

\begin{equation*} \forall B_1,B_2\in\B(\R), P_{(X,Y)}( B_1 \times B_2) = P_X(B_1)\cdot P_Y(B_2) \end{equation*}

La loi de \((X,Y)\text{,}\) qui est une probabilité sur \(\R^2\) est en quelque sorte le produit des lois de \(X\) et \(Y\text{.}\)

Enfin, seulement sur les sous-ensembles de \(\R^2\) de la forme \(B_1\times B_2\text{:}\) si on prend \(S^1=\{(x,y)\in\R^2,x^2+y^2=1\}\) le cercle unité, ça ne nous aide pas pour calculer \(P_{(X,Y)}(S^1)\text{.}\)

\(B_1\times B_2 \mapsto P_X(B_1)P_Y(B_2)\) se généralise en fait à une mesure de probabilités sur tous les boréliens de \(\R^2\) qu'on appelle la probabilité produit. On y reviendra plus proprement au Chapitre 8, mais on peut d'ores et déjà affirmer qu'elle sera l'outil approprié pour parler d'indépendance de variables aléatoires.

Subsection 1.3.4 Espérance, sommes et intégrales

Qu'est-ce que l'espérance ?  7 

Etant donnée une variable aléatoire \(X:\Omega \rightarrow \R\text{,}\) on s'intéresse généralement à l'espérance de \(X\text{:}\) c'est à dire la valeur moyenne qu'on s'attend à ce que \(X\) prenne sur l'ensemble des réalisations du hasard. 8 .

  1. Reprenons \(\Omega=\{1,2,3,4,5,6\}\) avec sa probabilité uniforme et introduisons une variable aléatoire \(X\) sur \(\Omega\text{,}\) mettons

    \begin{equation*} X:\omega \in\Omega \mapsto \begin{cases} \omega \amp \text{ si }\omega \text{ est pair}\\ \frac{\pi^2}6 \amp \text{ si }\omega\text{ est impair} \end{cases} \end{equation*}

    Alors il semble raisonnable que l'espérance de \(X\) soit

    \begin{equation*} \mathbb{E}[X]= \sum_{k=1}^6 \frac{X(k)}{6}=2+\frac{\pi^2}{12} \end{equation*}

  2. Et plus généralement, si \(\Omega\) est un ensemble fini, avec une mesure de proba \(\mathbb{P}\) et \(X:\Omega\rightarrow \R\) une v.a. réelle, on s'attend à

    \begin{equation*} \mathbb{E}[X]= \sum_{\omega \in \Omega} X(\omega)\mathbb{P}(\{\omega\}) \end{equation*}

  3. Et si \(\Omega\) est un intervalle ?

    Dans ce cas, il faudrait une intégrale pour remplacer la somme.

    \(\leadsto\) Il faut donner un sens à

    \begin{equation*} \mathbb{E}[X]= \int_{\Omega} X(\omega)\,d\mathbb{P}(\omega) \end{equation*}

    où "l'accroissement infinitésimal" \(d\mathbb{P}(\omega)\) remplace la probabilité de \(\{\omega\}\text{,}\) qui, comme on a dit, ne peut pas être proprement définie si \(\Omega\) est un intervalle.

Il semble que, selon le type d'ensemble \(\Omega\text{,}\) les techniques appropriées ne soient pas du tout les mêmes:

  • Pour les cas où \(\Omega\) est fini ou "discret", l'espérance est une somme, éventuellement infinie.

    \(\leadsto\) les outils appropriés semblent donc être les formules sommatoires, l'étude des séries, peut-être des séries entières.

  • Pour les cas où \(\Omega\) est "continu", l'espérance est une intégrale.

    \(\leadsto\) les outils appropriés sont alors plutôt les intégrales: jusqu'ici, on connaît les intégrales de Riemann, ou alors les intégrales généralisées.

Mais ça, c'est un problème, car on a dit qu'on renonçait à comrpendre quel tête avait l'ensemble \(\Omega\text{.}\) Comment alors savoir quels outils utiliser ? Comment y définir des sommes, alors qu'on ne sait pas si c'est un espace vectoriel, ou des intégrales, alors qu'on sait à peine le faire dans des cas simples ?

C'est en fait pour cela que l'introduction du cadre moderne des probabilités par Kolmogorov a attendu 1933 pour être proprement formalisé. Car ce n'est qu'autour des années 1900 que Borel, Lebesgue, Carathéodory, entre autres, posèrent les bases de la théorie de la mesure qu'on a déjà mentionné.

Mais leur objectif n'était pas de fournir un cadre aux probabilités, mais plutôt d'améliorer le calcul intégral traditionnel: en plus de la fonction de Dirichlet \(1_{\Q \cap \rbb 0,1\lbb}\text{,}\) dans les années 1880; les exemples de fonctions trop discontinues pour être intégrables au sens de Riemann commencèrent à s'empiler (voir par exemple la redutable la fonction de Volterra 9 , ou les exemples ci-dessous), et l'ennui, c'est que ce n'étaient pas des contre-exemples pathologiques et isolés: par passage à la limite, une suite de fonctions tout à fait respectables peut tendre vers une fonction tout à fait infréquentable, problème sérieux pour l'analyse qui tourne essentiellement au passage à la limite.

Et d'ailleurs, l'intégrale de Riemann est mal équipée pour les limites: obtenir un résultat du type

\begin{equation*} \lim \int_a^b f_n(t)\,dt = \int_a^b f(t)\, dt \end{equation*}

requiert, dans ce cadre, de lourdes suppositions sur la régularité des fonctions \(f_n\) et sur le sérieux de leur convergence vers \(f\text{.}\)

Exercice 1.3.1. Limites de l'intégrale de Riemann.

Voir par ici 10  pour un rappel sur la construction de l'intégrale de Riemann: on utilise les mêmes notation.

(a) Les fonctions trop discontinues ne sont pas intégrables.

Monter que la fonction indicatrice des rationnels sur \(\rbb 0,1\lbb \text{:}\)

\begin{equation*} 1_{\Q\cap \rbb 0,1\lbb}x\in \rbb 0,1\lbb \mapsto \begin{cases}1\text{ si } x\in \Q \\ 0\text{ si } x\notin \Q \end{cases} \end{equation*}

n'est pas Riemann intégrable.

Spoiler.

En effet, pour toute subdivision \(\sigma=(a=t_0 \lt t_1\lt...\lt t_n=b)\) de \(\rbb 0,1\lbb \text{,}\) chaque sous-intervalle \(\lbb t_i, t_{i+1}\rbb \) de \(\sigma\) contient à la fois un rationnel et un irrationnel 11 . Donc,

\begin{equation*} \begin{cases} \text{ Pour tout } i, \inf_{\rbb t_i,t_{i+1}\lbb } \mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb } = 0 \text{ donc } I^-(\mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb }, \sigma) =0\\ \text{ Pour tout } i, \sup_{\rbb t_i,t_{i+1}\lbb } \mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb } = 1 \text{ donc } I^+(\mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb },\sigma) =1 \end{cases} \end{equation*}

et \(I^+(\mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb })\) est donc irrémédiablement différent de \(I^-(\mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb })\text{.}\)

(b) Passage à la limite baroque.

Considérons une fois encore les rationnels de \(\rbb 0,1\lbb \text{.}\) Il s'agit d'un ensemble dénombrable, on peut donc l'énumérer: notons \(r_1, r_2,\dots\) les éléments de \(\mathbb Q \cap \rbb 0,1\lbb \text{.}\) Pour \(n \in \mathbb N^*\text{,}\) on pose

\begin{equation*} f_n:x \in \rbb 0,1\lbb \mapsto \begin{cases} 1 \text{ si } x\in \{r_1,\dots,r_n\}\\ 0 \text{ sinon.} \end{cases} \end{equation*}

Montrer que pour tout \(n\in \N\text{,}\) \(f_n\) est Riemann-intégrable, mais que \(f_n\) converge simplement vers une fonction non Riemann-intégrable.

Spoiler.

Notons \(f_n\) est nulle partout, sauf en un nombre fini de points. On obtient donc que, pour tout \(n\geq 1\text{,}\) \(\int_0^1 f_n(t)dt =0\text{.}\)

D'un autre côté, pour tout \(x\in \rbb 0,1\lbb \text{,}\) \(f_n(x) \rightarrow \mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb }(x)\text{:}\) la fonction "limite" n'est pas intégrable. Ce qui attriste beaucoup les analystes.

(c) Dépassement de bornes.

Considérons maintenant la suite de fonctions

\begin{equation*} g_n:x \in \rbb 0,1\lbb \mapsto \begin{cases} \frac1{\sqrt{x-r_k}} \text{ si } x\gt r_k\\ 0 \text{ sinon.} \end{cases} \end{equation*}

Montrer que, pour tout \(n\in\N\text{,}\) l'intégrale généralisée de \(g_n\) sur \(\rbb 0,1\lbb\) converge et est majorée par 2, mais que

\begin{equation*} g:x \in \rbb 0,1\lbb \mapsto \sum_{k\geq 1}\frac{g_k(x)}{2^k} \end{equation*}

n'est pas intégrable.

Spoiler.

Chacune des fonctions \(g_n\) est intégrable sur \(\rbb 0,1\lbb \) (au sens où les intégrales impropres \(\int_0^{r_n}g_n(t)dt\) et \(\int_{r_n}^1g_n(t)dt\) convergent), et leur intégrale est majorée par 2.

Mais \(g\) n'est bornée sur aucun sous-intervalle, donc n'est pas localement intégrable sur \(\rbb 0,1\lbb \text{.}\) Pourtant, on a l'impression que son intégrale devrait exister (et être plus petite que 2).

(d) Limites du théorème fondamental.

Définissons \(F\) sur \(\rbb 0,1\lbb \) par

\begin{equation*} F(x)= \begin{cases} x^{\frac32}\sin\left(\frac1x\right) \text{ si } x\neq 0,\\ 0 \text{ si } x=0. \end{cases} \end{equation*}

Montrer que \(F\) est dérivable sur \(\rbb 0,1\lbb \) mais ne vérifie pas \(F(x)=\int_0^x F'(t)dt +C\text{.}\)

Spoiler.

\(F\) est continue et dérivable sur , mais sa dérivée n'est pas bornée, et donc pas Riemann-intégrable.

C'est en fait cette dernière difficulté qui motive le texte fondateur de Lebesgue, publié en 1901 dans les Comptes-rendus de l'Académie des Sciences de Paris. Dans cette courte note, dont la lecture vaut le détour 13 , il pose les bases d'une nouvelle façon de calculer l'aire sous la courbe des fonctions.

Le trait de génie de Lebesgue repose sur l'idée de découper différemment l'intervalle de définition de la fonction \(f\text{.}\) Plutôt que de découper en sous intervalles \(\{x\,|\,t_i \lt x \lt t_{i+1}\}\text{,}\) on le découpe suivant les valeurs de \(f\text{:}\) \(\{x\,|\,y_i \lt f(x) \lt y_{i+1}\}\text{.}\) Autrement dit, on découpe \(f(I)\) en sous-intervalles \(\rbb y_i, y_{i+1}\lbb \text{,}\) et on approche \(f\) par une fonction constante sur \(f^{-1}(\rbb y_i, y_{i+1}\lbb )\text{.}\)

On garde ainsi l'approche par des fonction "constantes par morceaux", mais en tenant mieux compte des spécificités de la fonction. Vu sous cet angle, puisque \(\mathbb{1}_\mathbb Q\) ne prend que deux valeurs, on devrait pouvoir s'en sortir !

Figure 1.3.7. Intégration de Riemann et de Lebesgue. Produit par Our World In Data COVID-19 Data Explorer 14  (JHU-CSSE, Original data source is Johns Hopkins University CSSE COVID-19 Data_, CC BY-SA 4.0 15 , Lien 16 

Mais, pour garder l'analogie des aires de "rectangles", il faut pouvoir calculer la longueur de la "base" \(f^{-1}(\rbb y_i, y_{i+1}\lbb )\text{,}\) qui n'est plus un intervalle mais un sous-ensemble, a priori quelconque, de \(\mathbb R\text{.}\) Et c'est là que cette nouvelle théorie de l'intégration rejoint les probabilités.

Et cette nouvelle théorie se trouve avoir un champ d'application qui dépasse largement les fonctions continues sur un intervalle: elle fournit un cadre unifié pour les sommes, finies ou non, les intégrales sur \(\R\) et ses sous-ensembles 17 , mais aussi sur \(\R^2,\R^3, \R\times \N...\) et même sur des ensembles totalement inconnus \(\Omega\text{,}\) du moment qu'ils sont équipés d'une mesure de certains sous-ensembles, comme par exemple \(\Proba\text{.}\)

Il ne semble donc pas totalement hors-sujet de s'y intéresser.

Spoiler:

Evènement aléatoire s'il en est !
Non, pas le même Macau, sinon cest 0.
On discutera plus tard desquels il s'agit.
Petit rappel d'analyse réelle: Dire que \(F_X\) est continue à droite signifie que, pour tout \(a\in\R, \lim_{x\rightarrow a, x>a} F_X(x) =F_X(a)\text{.}\)
Nous reviendrons sur l'illustre origine de ce \(\B\) au Chapitre 3.
Mettons, suite à l'installation d'un puissant aimant derrière \(A\)
(Non, vraiment)

Le terme espérance vient du cas particulier où \(X\) est une fonction qui représente les gains à un jeu de hasard: les questions de casino sont l'origine historique du domaine des probabilités.

D'ailleurs, "hasard" vient du mot arabe "az-zahr" qui veut dire "dé à jouer", et "aléa" est le mot lation pour..."dé à jouer".

fr.wikipedia.org/wiki/Fonction_de_Volterra
carolinevernier.website/pretext-mes-int/sec_riem_constr.html
carolinevernier.website/memos/densite_rationnels.pdf
www.math.ru.nl/werkgroepen/gmfw/bronnen/lebesgue1.html
ourworldindata.org
creativecommons.org/licenses/by-sa/4.0
commons.wikimedia.org/w/index.php?curid=115959241