Skip to main content

Introduction Introduction : Mesurer quoi, et pourquoi ?

Quel est le rapport entre la théorie de l'intégration et la théorie des probabilités ?

\(\leadsto\) A priori, un rapport assez instrumental: les intégrales nous servent à calculer l'espérance, les moments, etc, de variables aléatoires continues, qui ont une loi à densité:

\begin{equation*} \mathbb{E}[X]= \int_{-\infty}^{+\infty} x\, f_X(x)\,dx \end{equation*}

De prime abord, donc, les intégrales, ce n'est qu'un des outils dont on se sert pour faire des probabilités.

\(\leadsto\) En fait, non : le lien entre les deux est beaucoup plus profond. Pour s'en apercevoir, revenons aux bases.

Minute philosophique.

Qu'est-ce qu'une intégrale, au fond ?

Si \(f:\,[\,a,b\,]\, \to \R\) est une fonction, disons, raisonnable, définie sur un intervalle borné, la notation

\begin{equation*} \int_a^b f(t)\,dt \end{equation*}

représente l'aire sous la courbe de \(f\) entre \(a\) et \(b\):

...Très bien, mais comment calculer ça ?

Le fait est qu'on ne sait pas calculer précisément l'aire de grand chose. Essentiellement, des disques, des triangles, et des rectangles. On va donc repartir de là: on approxime l'aire à calculer en utilisant des rectangles, comme ceci:

Plus précisément, donc, on obtient une valeur approchée par en dessous de l'aire sous la courbe de \(f\) par une somme d'aires de rectangles disjoints, de base \(\,[\,x_i,x_{i+1}\,]\, \subset \,[\,a,b\,]\,\) et de hauteur \(\inf_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\text{;}\) et d'autre part, on obtient une valeur approchée par au-dessus en utilisant des rectangles de même base, mais de hauteur \sup_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)

\begin{equation*} \sum_{k=0}^{n-1} \left(\inf_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\right)\cdot (x_{i+1}-x_i) \leq \int_a^b f(t)\,dt \leq \sum_{k=0}^{n-1} \left(\sup_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\right)\cdot (x_{i+1}-x_i) \end{equation*}

Et, pour des fonctions pas trop méchantes, avec un découpage bien choisi, ces deux valeurs ne seront pas trop éloignées:

\begin{equation*} \int_a^b f(t)\,dt \simeq \sum_{k=0}^{n-1} \left(\inf_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\right)\cdot (x_{i+1}-x_i) \simeq \sum_{k=0}^{n-1} \left(\sup_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\right)\cdot (x_{i+1}-x_i) \end{equation*}

Les fonctions pour lesquelles on peut trouver de bonnes valeurs approchées par cette méthode sont appelées Riemann-intégrables, et elles incluent les fonctions continues, les fonctions monotones, ainsi que les fonctions en escaliers.

Mais il reste des fonctions, pourtant pas si méchantes, dont on ne peut pas calculer l'intégrale; par exemple, l'indicatrice des rationnels:

\begin{equation*} \mathbb{1}_{\mathbb Q} : x\in \,[\,0;1\,]\, \mapsto \begin{cases} 1 \amp \text{ si } x \in \Q\\ 0 \amp \text{ si } x \notin \Q \end{cases} \end{equation*}

C'est dû au fait que, pour tout découpage de \(\rbb 0,1\lbb\) en sous-intervalles \(\lbb x_i, x_{i+1}\rbb \text{,}\) chacun des sous-intervalles contient à la fois un rationnel et un irrationnel. Donc,

\begin{equation*} \begin{cases} \text{ Pour tout } i, \inf_{\rbb t_i,t_{i+1}\lbb } \mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb } = 0 \text{ donc } \sum_{k=0}^{n-1} \left(\inf_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\right)=0\\ \text{ Pour tout } i, \sup_{\rbb t_i,t_{i+1}\lbb } \mathbb{1}_{\mathbb Q \cap \rbb 0,1\lbb } = 1 \text{ donc } \sum_{k=0}^{n-1} \left(\sup_{x\in\,]\,x_i,x_{i+1}\,[\,} f(x)\right) =1 \end{cases} \end{equation*}

\(\leadsto\) Quel que soit le découpage, on n'obtient pas de bon encadrement de ``l'aire sous la courbe`` de \(\mathbb{1}_{\mathbb Q}\text{.}\) Pourtant ce n'est pas une fonction si compliquée que ça: elle ne prend que deux valeurs, \(0\) et \(1\text{.}\)

Pour une indicatrice d'intervalle \(\mathbb{1}_{[c,d]}\) (avec \([c,d] \subset [a,b]\)), l'aire sous la courbe est déjà celle d'un rectangle: on calcule donc

\begin{equation*} \int_a^b \mathbb{1}_{[c,d]}(t)\,dt = 1 \cdot \ell([c,d]) \end{equation*}

\(\ell([c,d])\) désigne la longueur de l'intervalle.

La même idée marche avec l'indicatrice d'une union de deux intervalles disjoints:

\begin{equation*} \int_a^b \mathbb{1}_{[c,d]\cup[c',d']}(t)\,dt = 1 \cdot \ell([c,d]) + 1 \cdot \ell([c',d']) = \ell([c,d]\cup[c',d']) \end{equation*}

(il semble raisonnable de parler de la longueur totale de \([c,d]\cup[c',d']\))

\(\leadsto\) Si on savait calculer la ``longueur`` de l'ensemble des rationnels de \([0,1]\text{,}\) il serait donc naturel de poser

\begin{equation*} \int_0^1 \mathbb{1}_{\mathbb Q}(t)\,dt = \ell([0,1]\cap \Q) \end{equation*}

Morale de l'histoire: Pour intégrer des fonctions, il faut savoir mesurer des ensembles. C'est en mesurant les intervalles (et les unions disjointes d'intervalles) qu'on construit l'intégrale de Riemann, et, pour aller plus loin, on voudrait mesurer d'autres sous-ensembles de \(\R\text{.}\)

Une autre minute philosophique.

Qu'est-ce que les probabilités, au fond ? 1 

Les probabilités, en un mot, ce sont les lois du hasard 2 

Quand on s'intéresse aux résultats possibles d'une expérience, même si les lois de la physique déterminent, en théorie, le résultat, on a rarement toutes les informations nécessaires pour faire une prédiction exacte.

On se contente donc d'évaluer la "plausibilité" d'une hypothèse ou d'un résultat possible. Une façon de faire ça, consiste à répéter la même expérience un grand nombre de fois 3 , et considérer comme plus probables les résultats les plus fréquents. Dans ce sens, la probabilité d'un résultat, c'est la proportion de fois où ce résultat se produit si on répète l'expérience un très  5  grand nombre de fois.

Tout se ramène donc à attribuer un nombre à des évènements, en fonction de notre estimation des "chances de se produire" de cet évènement; en gros :

\begin{equation*} Proba : E \in \text{Evènements } \mapsto \text{Proba}\,(E)\in \rbb 0,1 \lbb \end{equation*}

Il va s'agir de mathématifier cette idée : à une extrémité, on a un nombre, ce qui est bon signe, mais à l'autre extrémité, on a des....évènements. Qui ne sont pas exactement des objets mathématiques. Pas grave: dans un premier temps, on peut se dire que ce sont les éléments d'un certain ensemble \(\Omega\text{,}\) qu'on spécifiera au cas par cas.

Il y a des cas simples où les évènements eux-mêmes correspondent naturellement à des nombres. Par exemple, pour modéliser un lancer de dés, on utilise l'ensemble

\begin{equation*} \Omega = \{1,2,3,4,5,6\} \end{equation*}

et, à chaque élément \(\omega\in\Omega\text{,}\) on associe le nombre \(p(\omega)=\frac16\) (si on joue avec quelqu'un d'honnête !).

\(\leadsto\) \(\Omega\) est l'ensemble des résultats possibles, auxquels on associe la probabilité de se produire au cours d'une expérience aléatoire.

Notons que \(\Omega\) n'est pas forcément un ensemble fini. Supposons par exemple qu'on lance une pièce autant de fois que nécessaire pour obtenir "Pile", et qu'on note le nombre d'essais qu'il nous a fallu faire. L'ensemble des résultats possibles est donc \(\Omega=\{1,2,3,...\}=\N^*\text{.}\) Et pour tout \(n\in\N^*\text{,}\) la probabilité que le résultat soit \(n\) est la probabilité de faire exactement \(n-1\) fois face, puis pile:

\begin{equation*} p(n)= \underbrace{\frac12 \times...\times \frac12}_{n-1 \text{ fois}} \times \frac12 = \frac1{2^n} \end{equation*}

Mais maintenant, supposons qu'on tire un réel au hasard dans l'intervalle \(\Omega=\rbb 0,3 \lbb\text{.}\) Quelle est la probabilité de tomber précisément sur votre préféré ?

\(\leadsto\) Ne le prenez pas mal, ce n'est pas juste vous: chaque élément de \(\Omega\) a une probabilité \(0\) de tomber. Ce qui ne semble pas très satisfaisant: si tous les évènements n'ont aucune chance de se produire... qu'est-ce qui se produit ?

D'un autre côté, il semble raisonnable d'évaluer à \(\frac1{3}\) la probabilité d'obtenir un réel entre \(0\) et \(1\text{.}\)

\(\leadsto\) Plutôt que d'associer un nombre à chaque élément de \(\Omega\text{,}\) on associe un nombre à chaque sous-ensemble de \(\Omega\text{:}\) pour tout \(A\subset \Omega\text{,}\) \(\mathbb{P}(A)\) est la probabilité de tirer un élément de \(A\text{.}\)

Et pour le lancer de dés ? C'était un malentendu: on associe la probabilité \(\frac16\text{,}\) non pas à l'élément \(\omega \in \{1,2,3,4,5,6\}\text{,}\) mais au singleton \(\{\omega\} \subset \{1,2,3,4,5,6\}\text{.}\)

Et de là, on peut calculer les probabilités de résultats d'expériences plus généraux: par exemple, la probabilité \(\mathbb{P}(\{2,4,6\})\) d'avoir un résultat pair est obtenue en faisant

\begin{equation*} \mathbb{P}(\{2,4,6\}) = \Proba(\{2\}) + \Proba(\{4\}) + \Proba(\{6\}) \end{equation*}

De même pour l'expérience du lancer de pièces répété: la probabilité de tomber sur pile après un nombre d'essais multiple de 3 est

\begin{equation*} \Proba(3\N) = \Proba(\{3\})+ \Proba(\{6\}) + \Proba(\{9\}) +... = \sum_{k=1}^{\infty} \Proba(\{3k\}) = \sum_{k=1}^{\infty} \frac1{2^{3k}} = \sum_{k=1}^{\infty} \frac1{8^{k}} = \frac17 \end{equation*}

C'est donc plutôt les sous-ensembles de \(\Omega\) qu'on va appeler des évènements. Plus précisément, lors d'une expérience aléatoire,

  • A chaque résultat possible, correspond un élément \(\omega\) d'un ensemble \(\Omega\) appelé univers (des possibles). Chaque \(\omega\) correspond en quelque sorte à un "univers parallèle" parmi tous ceux dans lesquels "on aurait pu se trouver": on les appelle parfois des réalisations du hasard.

  • Un sous-ensemble de \(\Omega\) est appelé un évènement.

  • A chaque évènement \(A\text{,}\) on associe un nombre \(\Proba(A) \in \rbb 0,1 \lbb\) qui mesure la plausibilité qu'on attribue à l'obtention d'un résultat dans \(A\text{.}\)

Morale de l'histoire: Pour calculer des probabilités, il faut savoir mesurer des ensembles.

Si ce sont des ensembles discrets  6 , on peut attribuer une probabilité élémentaire \(p_{\omega}\) à chaque élément individuel de \(\Omega\text{,}\) et ensuite faire des sommes: \(\Proba(A)=\sum_{\omega \in A} \Proba(\{\omega \})\text{.}\)

Si les ensembles à mesurer ne sont pas discrets, par exemple des intervalles, on utilise la notion de longueur dont on a déjà parlé: dans le cas d'un tirage aléatoire dans \([0,3]\text{,}\) \(\Proba([0,1])=\frac{\ell([0,1])}{\ell([0,3])}\text{.}\)

Théorie de la mesure.

Il y a donc un lien fondamental entre le calcul intégral et le calcul de probablités : dans les deux cas, tout au fond, il s'agit de mesurer des ensembles. On a vu qu'il y a plusieurs façons naturelles de le faire (dépendant, surtout, de si on mesure des ensembles discrets ou non), mais il y a toujours un certain nombre de points communs.

Dans tous les cas, on s'intéresse à une fonction

\begin{equation*} m: \T\subset\P(\Omega) \rightarrow \,[\,0,+\infty\,]\, \end{equation*}

 7 

telle que

Ces propriétés semblent former le minimum syndical pour qu'on aie envie de parler de mesure d'ensemble.

Enfin, presque. Pour faire des probabilités sur des ensembles infinis, il nous faut renforcer un peu l'axiome d'additivité. On ne pourra pas se contenter d'union finies de sous-ensembles disjoints: en probabilités, par exemple, on s'intéresse souvent à des suites infinies d'évènements.

Supposons par exemple qu'on répète un jeu de pile ou face répété indéfiniment: l'univers des possibles est donc \(\Omega=\{P,F\}^{\N^*}\text{,}\) l'ensemble de toutes les suites infinies du genre

\begin{equation*} PFFPFPFPPFFFFPFPFPFP.... \end{equation*}

On note \(A_k\) l'évènement "le deuxième Pile a lieu \(k\) tirages après le premier".

Alors on peut remarquer que \(C_k\) est l'union disjointe des évènements

\(B_i(k)=\) "le premier Pile a lieu au \(i\)-ième tirage et le deuxième Pile a lieu au \(i+k\)-ième tirage"

et donc, pour calculer \(\Proba(A_k)\text{,}\) on veut pouvoir calculer

\begin{equation*} \Proba\left(\bigcup_{i\in\N^*}\Proba(B_i(k))\right) \end{equation*}

Ce qui nous amène à ajouter un axiome d'additivité renforcé: la \(\sigma\)-additivité.

c'. \(m\) est \(\sigma\)-additive: si \((A_n)_n\in\T^\N\) est une suite de sous-ensembles deux à deux disjoints (pour tous \(p\neq q,A_p\cap A_q=\emptyset\)), alors on doit avoir

\begin{equation*} m\left(\bigcup_{n\in\N} A_n\right)=\sum_{n\in\N^*} m(A_n) \end{equation*}

Remarque 0.0.3.

  1. Le préfixe \(\sigma\) marque souvent le passage du fini à l'infini "discret", et on le verra revenir régulièrement dans la suite.

  2. Dans l'axiome c', on se retrouve avec une somme infinie, mais la série correspondante converge: son terme général \(\P(A_n)\) est positif, donc il n'y a pas de risque qu'elle n'aie pas de valeur bien définie 9 : au pire, c'est \(+\infty\text{.}\)

Ces propriétés sont les axiomes de la théorie de la mesure, que l'on doit, entre autres, à Emile Borel et Henri Lebesgue.

Si on demande que, pour tout \(A\in \T\text{,}\) \(m(A)\in[0,1]\text{,}\) et que \(m(\Omega) =1\text{,}\) alors la mesure \(m\) est une probabilité. On obtient ainsi les axiomes de la théorie des probabilités, tels qu'ils ont été fixés par Andrei Kolmogorov dans son petit livre Foundations of the Theory of Probability[1.3.1], généralement considéré comme la pierre fondatrice des probabilités modernes.

Cette approche axiomatique, que vous avez déjà croisée (par exemple, en algèbre linéaire) a pris son essor aux XIXème et XXème siècles, et permet d'étudier d'un seul coup un grand nombre d'objets ayant en commun des propriétés simples. Non seulement on s'épargne la peine inutile de démontrer plusieurs fois le même résultat dans des contextes différents, mais cela permet en plus de remarquer des points communs fondamentaux entre des domaines apparemment sans rapport, comme on vient de le faire, et donc d'en avoir une compréhension plus profonde.

La mathématique est l'art de donner le même nom à des choses différentes.

Quand le langage a été bien choisi, on est tout étonné de voir que toutes les démonstrations, faites pour un objet connu s’appliquent immédiatement à beaucoup d’objets nouveaux. On n’a rien à y changer, pas même les mots, puisque les noms sont devenus les mêmes.

―Henri Poincaré, Science et méthode

Il ne nous reste plus qu'à bien choisir le langage !

(Non, vraiment)
Ce qui, soit dit en passant, semble complètement paradoxal: le hasard, c'est justement ce qui n'a pas de loi, non ?
en réalité, ou en imagination: pas besoin de lancer trois millions de pièces pour attribuer la probabilité 1/2 à "Face"....quoique 4 
arxiv.org/abs/2310.04153
très très
avec \(+\infty\) inclus dans l'ensemble d'arrivée, pour pouvoir parler, par exemple, de la longueur de \(\,[\,0,+\infty\,[\,\text{.}\)
En probabilités: deux évènements incompatibles
Ce qui peut arriver avec des sommes de termes à signe quelconque, comme par exemple \(\sum_{n\in\N} (-1)^n\text{.}\) Voir aussi ici 10  pour toujours plus de problèmes.
carolinevernier.website/conv_commutative/index.html