Accueil

Logique pertinente.

Tout au long de notre développement de la logique classique, on a construit les règles du raisonnement valide d'une façon qui, en première approximation, collait avec "le bon sens". Mais comme on l'a aussi vu, ces règles ne sont pas sans poser quelques problèmes et paradoxes.


Une de ces difficulté réside dans la notion d'implication. La puissance de la logique classique, et de ses règles d'inférence, réside dans la possiblité de raisonner inductivement: on construit les énoncés complexes en reliant des énoncés simples par des connecteurs: $\wedge$ ("et"), $\vee$ ("ou"), $\rightarrow$ ("implique"). A partir de là, les axiomes logiques reposent sur la possibilité de déterminer, à partir de la valeur de vérité de $p$ et $q$, celle de $p \wedge q$, $p \vee q$, et $p\rightarrow q$, et ce, quel que soit leur "contenu". Cela ne perturbe pas tellement le bon sens dans le cas de $\vee$ et $\wedge$; le fait qu'une prase telle que "le ciel est bleu, et le Taj Mahal n'est pas fait de gruyère" soit vraie inspire, au pire, un haussement d'épaule amusé. Mais jetons un oeil à la valeur de vérité de l'implication.

Par définition, l'implication logique $p\rightarrow q$ est équivalente à $\neg (p \wedge \neg q)$; en langage humain, on dit que l'implication $p\rightarrow q$ est vraie s'il est faux qu'on ait $p$ et pas $q$. Cela semble somme toute raisonnable: l'implication dit que je ne peux pas avoir $p$ sans avoir aussi $q$. Cette définition formalise donc la notion de "transfert de vérité" de l'hypothèse $p$ à la conclusion $q$.
Par ailleurs, si $p$ est fausse, eh bien, notre implication ne dit rien de spécial. Puisqu'il faut bien lui attribuer une valeur de vérité, on décide que l'implication est vraie dans ce cas. D'où le tableau résumant cette idée:


p q p$\rightarrow$q
Vrai Vrai Vrai
Vrai Faux Faux
Faux Vrai Vrai
Faux Faux Vrai

Mais alors, du point de vue de la logique du premier ordre, une phrase telle que "Si le Taj Mahal n'est pas fait de fromage, alors le ciel est bleu" est vraie. Ainsi que "Si le Taj Mahal est fait de fromage, alors le ciel est bleu". Et on a l'impression de passer à côté de la notion d'implication telle qu'on la comprend, qui suppose un "lien" entre l'hypothèse et la conclusion. C'est ce genre de problème que la logique de la pertinence aborde.

Cernons le problème: les paradoxes de l'implication matérielle

Le problème le plus évident de l'implication matérielle est que, si la conclusion est vraie, quelle que soit la prémisse, alors l'implication est vraie aussi. Reformulé en terme logique, si $p$ est vraie, alors $p\rightarrow q$ est vraie. Et donc, si $\rightarrow$ fait son travail, qui est d'encoder le "si...alors", on a donc $p\rightarrow (q \rightarrow p)$. Autrement dit, l'argument "Si Lemmy est le chanteur de Mötörhead, alors le fait que j'aime les pastèques implique que Lemmy soit le chanteur de Mötörhead" est valide.

Dans la même veine, puisqu'en logique classique, $q \vee \neg q$ est toujours vraie, alors $p\rightarrow q \vee \neg q$ est vraie, quels que soient $p$ et $q$. Ainsi, "Si le chanteur d'AC-DC est sourd, alors il pleut à Ivry sur Seine ou il ne pleut pas à Ivry sur Seine" est un argument valide. Et toutes les tautologies sont, de même, impliquées par toutes les hypothèses, pertinentes ou pas.

Inversement, en regardant le tableau de vérité, on voit que si $p$ est fausse, alors $p\rightarrow q$ est vraie, et ce, quelle que soit la proposition $q$. Autrement dit, $\neg p \rightarrow (p \rightarrow q)$. Par exemple, "s'il n'y a pas de brouillard à Brest, alors s'il y a du brouillard à Brest, Keith Richards est un bon guitariste".

L'implication matérielle nous permet aussi d'ajouter des prémisses gratuites, qu'on n'utilise pas, pourvu qu'elles soient vraies. Ainsi, le théorème de Pythagore est valide, mais aussi "Si un triangle a un angle droit, et si 2+2=4, et si ma grand mère s'appelle Michelle, alors le carré de l'hypothénuse est égal à la somme des carré des deux autres côtés".

On pourrait répliquer que oui, tout ça est très malin, mais que ces exemples en langage naturel n'ont pas tellement de conséquences sur la façon de faire des maths. Après tout, nous ne sommes pas tous de mauvaises foi, et nous ne sommes pas des machines, et aucun journal sérieux n'acceptera de publier "Si la Terre est ronde, alors pour tout entier $n \geq 3$, l'équation $x^n + y^n=z^n$ n'a pas de solution entière non triviale" comme une preuve plus simple et innonvante du théorème de Fermat. Et c'est vrai; c'est pour cela qu'on utilise généralement la logique classique au fondement des mathématiques usuelles.

Toutefois, ces remarques permettent de distinguer deux fonctions de la logique formelle en mathématiques: l'une est la génération de théorèmes à partir d'axiomes, l'autre est l'encodage du raisonnement. Pour la première, la pertinence importe peu: si nos axiomes donnent des conséquences stupides, eh bien, on les ignore. Néanmoins, puisqu'on cherche des règles de raisonnements, on pourrait songer à leur adjoindre des règles sur ce "tri". Mais c'est surtout sur cette deuxième fonction d'encodage que la logique pertinente appuie là où ça fait mal ! Existe-t-il alors un ensemble de règles qui encode mieux le raisonnement rationnel ?

Logique modale et mondes possibles

Il semble que l'implication matérielle soit trop permissive, et qu'on veuille discipliner tout ça. Justement, une branche de la logique, très riche et à laquelle ce maigre paragraphe ne rendra pas justice, dispose déjà d'une implication plus stricte, qui s'appelle...l'implication stricte. Hem.

Il s'agit de la logique modale. Aux connecteurs logiques habituels que sont $\vee, \wedge$ et $\rightarrow$, la logiqe modale en ajoute deux: $\square$ et $\lozenge$, que l'on interprète comme "il est nécessaire que" et "il est possible que". L'implication stricte s'écrit $\square(p\rightarrow q)$, et la restriction porte alors sur les règles d'utilisation de $\square$.

Mais l'apport de la logique modale à notre problème spécifique transparaît plus facilement si on considère l'aspect sémantique de la logique modale classique. Un modèle de logique modale fait intervenir plusieurs mondes possibles, et la valeur de vérité d'un énoncé dépend du monde où l'on se trouve. Ainsi, bien que cela me peine de l'admettre, il est des mondes possibles où je n'aime pas la pastèque, et où Lemmy Kilmister n'est pas le chanteur de Mötörhead. Un énoncé est nécessairement vrai s'il est vrai dans tous les mondes possibles (dans un certain sens, voir ci-dessous); c'est le cas, par exemple, de "2+2=4".

via GIPHY

Un peu plus précisément, un modèle de logique modale sera donné par une collection $\mathcal M$ de mondes, reliés par une relation d'accessibilité: à partir d'un certain monde $w$, on peut "accéder" à certains autres mondes de $\mathcal M$ (pas forcément tous). On pourrait par exemple envisager un modèle où les mondes accessibles à partir du nôtre sont ceux où la loi de la gravité s'applique de la même façon. Tous ces mondes comportent certainement des planètes, dont les orbites sont elliptiques, mais il doit y en avoir où, hélas, Matt O’Dowd n'est pas là pour nous l'expliquer, par exemple parce qu'il est devenu chanteur de Mötörhead.

Avec cette sémantique, un énoncé du type "$\square A$" est vrai dans un monde $w$ si $A$ est vrai dans tous les mondes $w'$ accessibles à partir de $w$. Un énoncé du type "$\lozenge A$" est vrai dans un monde $w$ si $A$ est vrai dans au moins un monde $w'$ accessible à partir de $w$. De manière générale, un énoncé renvoie non pas à une valeur de vérité gravée dans le marbre, mais au sous-ensemble de $\mathcal M$ des mondes où il est vérifié.

Cette démarche nous libère de quelques paradoxes, notamment tous ceux portant sur des faits vrais fortuitement dans notre monde, et qui sont donc impliqués par toutes les autres propositions vraies ou non. Il semble donc qu'on gagne du terrain: une implication stricte sera vérifiée si les hypothèses mènent à la conclusion, telles une file de dominos.

Hélas, l'implication stricte laisse subsister des paradoxes: si les faits vrais "par hasard" ne sont plus impliqués par toute hypothèse, il n'en est pas de même des énoncés nécessairement vrais. Ainsi, $\square(p\rightarrow q \vee \neg q)$ reste vraie, puisqu'on aura bien du mal à trouver un monde raisonnable où $q \vee \neg q$ soit fausse ! (Ici, les intuisionnistes secouent la tête avant de continuer à arracher ses gants de boxes à Hilbert.) De même, $p \wedge \neg p$ persiste à être faux partout, et donc, implique toutes les autres propositions.

Logique pertinente et système DNR

Il semble donc qu'on ne soit pas sortis des bois. Ce qui n'est pas si étonnant, car la notion d'implication pertinente semble dépendre moins du contenu des propositions, que d'une "intention" sous-tendant le raisonnement: l'intention d'atteindre la conclusion d'une façon à la fois éclairante et "économique" en termes d'hypothèses.

Mais la logique formelle ne nous donne accès qu'au contenu des phrases: il va donc nous falloir en extraire des indices indirects de cette intention. On peut par exemple exiger que les hypothèses et conclusions d'une implication pertinente ont un "contenu commun", ce que l'on peut exprimer en termes de variables propositionnelles communes. Une seconde piste consiste à vérifier que toutes les hypothèses sont utilisées à un moment ou à un autre dans le raisonnement, en restreignant l'application de certaines règles d'induction.

Pour cela, on introduit le système de déduction naturelle DNR: on va numéroter les hypothèses et restreindre les règles d'inférences de notre système en fonction de cette numérotation. On se donne donc les règles suivantes pour l'implication:

  • On introduit une hypothèse $A$ dans une preuve en lui adjoignant en indice un indice $\{k\}$, où $k$ est un entier pas encore utilisé dans une autre hypothèse. Les indices sont donc des ensembles d'entiers.
  • On a le droit de répéter une hypothèse déjà introduite, avec le même indice.
  • ($\rightarrow E$): De $A_\alpha$ et $(A\rightarrow B)_{\beta}$, on déduit $B_{\alpha \cup\beta}$.
  • ($\rightarrow I$): Si, sous l'hypothèse $A_{k}$, on prouve $B_\alpha$, alors on a $(A\rightarrow B)_{\alpha \setminus \{k\}}$; et on n'a le droit de faire ça que si $k\in \alpha$, autrement dit si on a vraiment utilisé $A$ pour prouver $B$. C'est cette restriction sur la règle ($\rightarrow I$) qui assure la pertinence.

Montrons par exemple le théorème logique $A\rightarrow ((A\rightarrow B)\rightarrow B)$ dans le système DNR.

$$ \begin{align} &(1)\ A_{\{1\}} \text{ (on introduit l'hypothèse $A$ avec l'indice $\{1\}$)}\\ &(2)\ (A\rightarrow B)_{\{2\}} \text{ (on introduit l'hypothèse $A\rightarrow B$ avec l'indice $\{2\}$)}\\ &(3)\ B_{\{1,2\}} \text{ (on utilise la règle $\rightarrow E$)}\\ &(4)\ ((A\rightarrow B)\rightarrow B)_{\{1\}} \text{ (on utilise la règle $\rightarrow I$ avec les lignes (2) et (3))}\\ &(5)\ (A\rightarrow ((A\rightarrow B)\rightarrow B) \text{ (on utilise la règle $\rightarrow I$ avec les lignes (1) et (4))}\\ \end{align} $$

De cette restriction sur les règles d'introduction et d'élimination de l'implication, découle un résultat encourageant: on peut montrer que si $A\rightarrow B$ est un théorème du système DNR, alors $A$ et $B$ ont au moins une formule atomique en commun, et donc, ne sont pas totalement sans rapport. Par exemple, si $p$ et $q$ sont deux formules atomiques, $p\rightarrow p$ et $q\rightarrow q$ sont des théorèmes de DNR, mais pas $(p\rightarrow p)\rightarrow (q\rightarrow q)$.

En particulier, contrairement aux tautologies de la logique classiques (comme $p\rightarrow p$ ou encore $p\vee \neg p$), aucune formule n'est impliquée par toutes les formules dans DNR.

Cela ne nous sauve pas d'une faute de pertinence comme $p\rightarrow (q\rightarrow p)$, où l'hypothèse est la conclusion ont en commun la formule atomique $p$, mais on peut en fait raffiner le résultat précédent. On montre que toute formule atomique apparaissant dans un théorème doit y figurer au moins une fois comme "antécédent" et comme "conséquent", ce qui n'est pas le cas de $q$ dans le dernier exemple. L'exigence basique de "rapport entre l'hypothèse et la conclusion" est donc remplie par DNR.

via GIPHY

On ajoute alors des règles concernant les autres connecteurs, pour s'assurer qu'ils ne détruisent pas notre fragile édifice. Ainsi, pour la négation, on pose les règles suivantes:

  • Elimination des doubles négations: de $\neg \neg A_\alpha$, on déduit $A_\alpha$.
  • ($\neg I$): Si, sous l'hypothèse $A_{k}$, on prouve $\neg A_\alpha$, on en déduit $(\neg A)_{\alpha \setminus \{k\}}$. AUtrement dit, si de $A$ on peut déduire non $A$, c'est que $A$ ne peut être vraie; on s'assure en plus d'avoir utilisé $A$ pour montrer non $A$.
  • Contraposition: on veut récupérer la propriété $(\neg B\rightarrow \neg A)\rightarrow (A\rightarrow B)$. Pour ce faire, on pose que si, sous l'hypothèse $(\neg B)_{k}$, on a montré $\neg A_\beta$, alors de l'hypothèse $A_\alpha$ on déduit $B_{(\alpha\cup \beta)\setminus \{k\}}.

Le résultat de contenu commun entre hypothèse et conclusion d'un théorème se maintient avec cet ajout, excluant par exemple qu'une proposition supposée fausse implique toutes les autres: $\neg p \rightarrow (p\rightarrow q)$ n'est pas un théorème, ni d'ailleurs $p\wedge \neg p \rightarrow q$.

Il nous manque encore "ou" et "et". A ce stade, on ne prend pas trop de risques en posant les inférences suivantes

  • ($\wedge E$): De $(A\wedge B)_\alpha$ on infère $A_\alpha$, et de $(A\wedge B)_\alpha$ on infère $B_\alpha$.
  • ($\vee I$): De $A_\alpha$ et $B_\alpha$, on déduit $(A\vee B)_\alpha$. Notez la restriction ici: il faut avoir les mêmes indices sur $A$ et $B$ pour obtenir $A\vee B$. Ce qui empêche, par exemple, de déduire $A\wedge (B\vee \neg B)$ de $A$ (puisque les théorèmes, comme $B\vee \neg B$ n'ont pas d'indices).

De là, en utilisant les règles sur la négation et le fait que $A\vee B = \neg(\neg A \wedge \neg B)$, on déduit les deux autres règles "naturelles" sur "ou" et "et":

  • ($\vee E$): De $(A\vee B)_\alpha$, $(A\rightarrow C)_\beta$ et $(B\rightarrow C)_\beta$ on infère $C_\{\alpha\cup \beta\}$: une version indicée de la règle d'élimination de $\vee$ classique. A nouveau, notez l'exigence que $A\rightarrow C$ et $B\rightarrow C$ soient dotés du même indice.
  • ($\wedge I$): De $A_\alpha$, on déduit $(A\wedge B)_\alpha$ et de $B_\alpha$, on déduit $(A\wedge B)_\alpha$.

Un petit problème est que nos restrictions sur les indices ne nous permettent pas d'obtenir facilement la règle de distributivité $A\wedge (B\vee C) \rightarrow (A\wedge B)\vee (A\wedge C)$. Qu'à cela ne tienne, on l'ajoute comme règle d'inférence: de $(A\wedge (B\vee C))_\alpha$ on infère $((A\wedge B)\vee (A\wedge C))_\alpha$.

Toutefois, il subsiste (évidemment) un problème plus sérieux, le "syllogisme disjonctif". C'est le nom pompeux qu'on donne au théorème classique $(\neg A \wedge (A\vee B))\rightarrow B$. D'apparence innoncente, il dit que si on a $A$ ou $B$, et qu'on n'a pas $A$, alors on doit pouvoir en déduire $B$...non ?

via GIPHY

Eh bien, ce n'est pas un théorème de DNR. On pourrait l'ajouter comme règle, mais alors cela nous force à accepter le théorème selon lequel d'une contradiction, on peut déduire n'importe quoi, ce qui ne semblait pas très pertinent. Supposons que de $(\neg A \wedge (A\vee B))$ on puisse déduire $B$, alors

$$ \begin{align} &(1)\ (A\wedge \neg A)_{\{1\}}\\ &(2)\ A_{\{1\}} \text{ par } (\vee E)\\ &(3)\ (\neg A)_{\{1\}} \text{ toujours par } (\vee E)\\ &(4)\ (A\vee B)_{\{1\}} \text{ par $(\vee I)$ sur la ligne (2) }\\ &(5)\ B_{\{1\}} \text{ par syllogisme disjonctif}\\ \end{align} $$

et on se retrouve ainsi avec $A\wedge \neg A$ qui implique $B$. A partir de là, si on persiste, on doit se passer du syllogisme disjonctif. Ce qui coûte a priori assez cher, mais que certains philosophes justifient en disant qu'on utilise le syllogisme disjonctif "en sachant" que $A$ va être faux, et donc, qu'il n'est pas correct de déduire $A\vee B$ à partir de $A$. On peut alors contourner le problème en ajoutant un nouvel opérateur $\oplus$, qui vérifie $A\oplus B=\neg A \rightarrow B$ et remplace "ou" dans ce cas. Mais il faut reconnaître que cet ajout n'est pas très naturel (que "représente" $\oplus$ exactement ?)

Remarquons que la logique clasique ne "voit" pas la différence entre $\vee$ et $\oplus$ puisque, comme l'implication matérielle $A\rightarrow B$ équivaut à $\neg A \vee B$, on a, en logique classique, $A\vee B=\neg A \rightarrow B$.

Sémantique pour la logique pertinente

Comment interpréter la logique pertinente ? Il semble, comme on l'a remarqué au début, que l'atttribution de valeurs de vérités à des énoncés complexes à partir de leurs composantes, via des tables de vérité, ne fassent pas le travail. On pourrait envisager des tables de vérités avec plus de deux valeurs possibles en plus de "vrai/faux" ("vraux ? frais ?"), mais alors, il a en falloir beaucoup, car il a été démontré que s'il y en a un nombre fini, on ne peut pas modéliser l'implication pertinente telle que définie ci-dessus.

Une piste plus prometteuse s'inspire des mondes possibles de la logique modale, mais en généralisant un cran plus loin à des "situations possibles", qui portent non pas sur des relations entres des "mondes", mais entre des "parties du monde", ou "situations". En un mot, une implication $A\rightarrow B$ est vraie dans une situation $c$ si dans la situation $c$, on a de l'"information" qui nous permette de dire que si $A$ est vraie dans une situation $a$, alors $B$ est vraie dans une autre situation $b$. Les situations $a$, $b$ et $c$ ici sont reliées par une relation "d'accessibilité", similaire à celle des mondes possibles, mais reliant les situations par 3 plutôt que par 2.

via GIPHY

Les situations, plutôt que de décrire entièrement un monde possible, s'interprètent comme une description partielle du monde; par exemple, l'état des connaissances d'un individu. Ce sont des structures partielles d'information. Et c'est ce qui nous sauve des paradoxes qui restaient avec l'implication stricte: si on a une tautologie, par exemple $p\rightarrow p$, elle est vraie dans tous les mondes possibles. Mais pas dans toutes les situations possibles, et donc, elle n'est pas (nécessairement) impliquée par toute autre proposition.

Prenons par exemple l'inférence "L'étoile Omicron Eridani se déplace suivant une ellipse. Don il doit exister un corps massif qui exerce une attraction sur elle". On peut interpréter cela "situationnellement": les astronomes sont dans une situation $s$ qui inclut leur laboratoire, leurs téléscopes, les photos prises par ceux-ci, et un bon manuel de gravitation. Sur la base de leurs informations, ils infèrent une situation $t$, distante spatialement, où il y aurait une étoile, Omicron Eridani, qui se déplace suivant une ellipse. Et de là, sur via leurs connaissances présentes en $s$ sur les lois de la gravitation, ils concluent qu'il y a une situation $u$ dans le même monde, où Omicron Eridani est en orbite autour d'un hypothétique corps massif.

On peut alors interpréter les indices introduits par le système DNR comme numérotant les situations. On suppose de plus que, au sein d'une même preuve, on introduit des hypothèses venant de situations différentes, mais le monde où l'on se place est fixé. Et si on obtient une conclusion à plusieurs indices $C_{\{1,2\}}$, cela signifie qu'il y a une situation dans le même monde que les situations 1 et 2 où $A$ est vérifiée, et qu'on a utilisé l'information des situations 1 et 2 pour conclure $A$.

Notre règle $(\rightarrow I)$ s'interprète alors comme suit: si on fait l'hypothèse que $A$ est vraie dans une situation $k$, et qu'on peut en déduire qu'il y a une situation $\alpha$ dans le même monde où $B$ est vraie, alors $A\rightarrow B$ est vraie dans une situation $s$ où l'information qui a permis de faire cette déduction est disponible.

Les situations sont donc reliées entre elles par des liens d'informations qui nous permettent de faire des inférences: par exemple, les lois de la physique, ou encore des conventions linguistiques, ou même des lois abtraites...cela dépend des modèles ! c'est donc un système qui permet une certaine créativité.

Pourquoi, alors, n'est-elle pas davantage utilisée ? Peut-être justement à cause de cette richesse, et de la complexité qui s'ensuit. La construction brique par brique à partir de valeurs de vérités est, il faut le reconnaître, plus maniable, et ne marche après tout pas si mal en mathématiques: si on veut faire de la théorie des ensembles, il n'y a qu'un symbole en plus des symboles logiques, $\in$, et la réponse à "est-ce que $x\in E ?$" est "oui" ou "non", pas "alors oui, dans la situation où j'ai eu mon café, sinon laisse tomber" !

via GIPHY

Plus sérieusement, il est difficile de faire des maths basées sur la logique de la pertinence. Meyer a réussi à construire une version pertinente de l'arithmétique de Peano, telle que "0=1" n'est pas un théorème de cette théorie. Autant dire qu'on est pas arrivés au théorème des valeurs intermédiaires ! Conceptuellement, les exigences très fortes de la logique de la pertinence sur l'introduction de $\rightarrow$ rendent difficiles même les énoncés les plus basiques, comme, en théorie des ensembles, le premier axiome

$$\forall z(z\in x \leftrightarrow z \in y) \leftrightarrow x=y$$

et se passer du syllogisme disjonctif est également pas mal coûteux.

On continuera donc à faire des maths de la façon traditionnelle, mais j'espère que ce détour vous aura paru...pertinent.

via GIPHY

Références:

  • Relevant Logic, a philosophical interpretation, de Edwin Mares.
  • Relevant Logic and the Philosophy of Mathematics, (également) de Edwin Mares.
  • Introduction à la Logique pertinente, par François Rivenc.
  •