Cours de Poker #19 : Le bluff et la théorie des jeux

Contrairement à ce que pourrait laisser penser son intitulé, la théorie des jeux est tout autre chose : c’est en fait une méthode mathématique pour faire un choix dans les décisions stratégiques à prendre. Elle permet de savoir quelle sera la meilleure action face à un adversaire qui adopte les meilleures actions lui-même (elle ne peut donc pas être utilisé dans votre cas si vous savez que le joueur adverse est novice ou peu chevronné, par contre elle est utile face à un joueur très expérimenté et meilleur ou égal à vous). On peut s’en servir dans tout les domaines : l’économie, le commerce, les relations internationales, le social, les stratégies militaires… et en ce qui nous concerne, au Poker.


Pour comprendre comme utiliser la théorie des jeux, faisons-la fonctionner dans un jeu enfantin : “le pair/impair”. Le principe est simple :chaque joueur dans le coup montre un ou deux doigts. L’un des joueurs est désigné auparavant “pair”, l’autre “impair”. Si le total des doigts montré est pair, le joueur A l’emporter. Si le total est impair, c’est l’autre qui gagne. D’un point de vue arithmétique, ce jeu est en tout point égalitaire. A long terme, sur un grand échantillon de coup, l’un peu prendre l’avantage sur l’autre. Pour prendre l’avantage, il faut prendre en compte ce que l’adversaire a fait aux coups précédents. Il faut tirer de ces coups ce que l’on appelle une séquence d’action, qui permet d’anticiper la prochaine action de l’adversaire (capacité indispensable au Poker).

Admettons que pour ce même jeu, le joueur adverse vous propose 101euros pour chaque coup que vous remporterez, et ne demande que 100euros pour chaque qu’il va gagner. Dans un tel contexte, en utilisant la théorie des jeux, vous êtes assuré de l’emporter. Il vous faudra simplement décider du nombre de doigts que vous allez montrer complètement au hasard, par exemple en jetant une pièce (pile vous montrez un seul doigt, face vous en montrez deux). Ainsi, votre adversaire ne pourra jamais deviner quelle sera votre prochaine action, puisqu’elle est déterminée par le plus pur des hasards (on dit là que l’action est randomisée). Il y a en fait une chance sur deux que vous montriez deux doigts, et une chance sur deux que vous n’en montriez qu’un. Les deux probabilités sont égales, impossible donc pour lui de deviner votre action. La différence de 1euro entre ses gains s’il l’emporte et les vôtres vous offre un avantage mathématique de 0,5% de chances supplémentaires, soit une espérance mathématique positive de 50 centimes d’euro par pari. Vous lui retirez ainsi tout avantage, et vous vous accordez la position de favori. Hormi la théorie des jeux, la seule façon d’obtenir un avantage serait de deviner chaque action de l’adversaire, sans erreur.

La théorie des jeux dans le but de bluffer

Et qu’en est-il lorsqu’on doit appliquer la théorie des jeux au maniement du bluff? Utilisons pour comprendre une stratégie dite mixte : il faudra décider d’une action précise (ici, bluffer ou suivre un bluff éventuel) à effectuer à une fréquence donnée, et y ajouter un facteur aléatoire. Ainsi, le joueur adverse ne pourra savoir à l’avance si vous bluffez ou non, puisque elle dépend d’un élément aléatoire. Nous avons vu que la fréquence idéale du bluff est moyenne, puisque trop bluffer ou pas assez n’apportent que des désavantages. Voyons un exemple de Nullot fermé pour comprendre comment, grâce à la théorie des jeux, on peut décider du moment idéal pour bluffer.

Dans cette partie de Nullot, il n’y a pas de Joker. Votre main servie comprend : 9,8,3,2 et As multicolores. Moi, je possède Roi, 4,3,2 et As et je tire une carte. Je vous battrais que cette carte soit 5,6,7,8 ou 9. Si elle n’est rien de cela, c’est vous qui remportez le coup. En somme, sur 42 cartes, 18 me permettent de vous battre et 24 me feront perdre. Je suis donc gagnant à 4 contre 3 (soit 24 contre 8), ce qui équivaut à environ 1,33 contre 1. Dès le départ, nous misons 100 euros chacun. Une fois les cartes changées, je peux ouvrir à 100 euros. Admettons qu’à chaque coup, j’ouvre de 100 euros. Vous devriez suivre a chaque fois puisque : les 24 fois où je blufferai vous remporterez 200 euros, et les 18 fois où je serais sincère vous les perdrez. Votre profit net serait donc de 1200 euros sur la totalité des 42 coups. Admettons maintenant que je ne bluffe jamais et donc que je n’ouvre que lorsque ma main bat la vôtre. Vous ne me suivrez jamais! Au final, vous gangerez donc les 24 coups où je n’ouvre pas et perdrez les 18 que j’ouvre, soit un profit net total de 600 euros. Tout cela pour montrer qu’au final, si je décide de toujours ouvrir ou de ne jamais ouvrir, je suis forcement perdant.

C’est pourquoi il faut trouver le juste milieu, et bluffer “de temps en temps”. Admettons que je décide de ne bluffer que lorsque j’obtiens un Roi de pique. Donc, j’ouvrirai lorsque je toucherai une de mes 18 bonnes cartes ainsi que lorsqu’on me servira un Roi de pique. Mon bluff est donc à 18 contre 1, puisque une carte fait que je bluffe et 18 font que je ne bluffe pas. En somme, le mieux que vous puissez faire est de passer chaque fois que j’ouvre. Cette nouvelle façon de jouer améliore considérablement a position. Bluffer avec le roi de pique fait passer ma cote de 24 contre 18 à 23 contre 19, et cela vous rapproche un peu plus de la position de favori. Le fait de régler le bluff sur un élément aléatoire (la sortie du Roi de pique) impose que les adversaires ne puissent pas deviner quand je bluffe, comme pour le jeu du pair/impair vu plus haut.

Admettons maintenant que j’ajoute au Roi de pique une seconde carte avec laquelle je blufferai à coup sûr : le Valet de pique. De la même façon, vous auriez tout intérêt à abandonner le coup chaque fois que j’ouvrirai. Ici, vous allez gagner 22 fois (celles où je n’ouvre pas) et gagner 20 fois quand j’ouvrirai. Ma cote passe donc de 1,33 contre 1 à 1,1 contre 1 (soit 11 contre 10 au lieu de 4 contre 3). Je suis moins outsider qu’avant.

Choisissons à présent 5 cartes avec lesquelles je décide de bluffer : le Roi de pique, toujours, et les quatres valets! Je vais donc miser 23 fois (dont 18 avec une vraiment bonne main et 5 avec une main bluffée). Alors, vous vous trouvez dans de sales draps puisqu’il sera difficile de devenir les coups où je bluffe et ceux où je joue sincère. Même si je vous expliquais avec quelle carte je vais bluffer, il vous sera impossible de savoir quand je les possède. Alors, vous savez que 5 cartes me feront bluffer et que 18 m’offriront une main qui battra la vôtre. Les chances que je bluffe sont donc de 3,6 contre 1. Suite à une ouverture de 100 euros, le montant du pot s’élève à 300 euros, ce qui vous offre une cote du pot de 3 contre 1. Au final, grâce à la stratégie des cinq cartes bluffantes, je vais remporter le pot 23 fois sur 42, vous le gagnerez les 19 fois restantes. J’ai une avance de quatres coups sur vous, soit un profit net de 400 euros (à 100 euros le coup). Grâce à cette technique de bluff aléatoire, je suis favori à 1,21 contre 1 (ou 23 contre 19), tandis qu’avant d’adopter cette stratégie j’étais outsider à 24 contre 18 !

Voyons les bienfaits de cette tactique d’un point de vue chiffré. Que se passerait-il si, chaque fois que je mise, vous ouvrez? Les cinq coups où je bluffe, vous gagnez en tout 1000 euros (200 à chaque fois). Les 19 fois où je ne bluffe pas, vous gagnerez 100 euros à chaque fois. En tout et pour tout, votre gain est de 2900 euros! Hors, les 18 fois où ma main sera vraiment la meilleure, vous perdrez 200 euros chaque coup, soit une perte total de 3600 euros… Ainsi votre perte nette est de 700 euros. C’est 300 euros de plus que si vous vous contentiez de passer chaque fois que j’ouvre. Il vaut mieux donc pour vous vous contenter d’abandonner le coup quand je m’y engage.

La stratégie de bluff optimale

Supposons qu’à nouveau, je décide de bluffer avec des cartes précises, au nombre de six cette fois. Quelle qu’elles soient, j’ouvrirai 24 fois, dont 18 où ma main sera réellement bonne et 6 où je blufferai. Ce qui me renvoie à une probabilité de bluff de 18 contre 6, soit 3 contre 1. Après ma mise de 100 euros, le pot en contient 300, soit une cotde pot de 3 contre 1 également. Lorsque, comme ici, ma probabilité de bluff et ma cote de pot sont identiques, quoi que vous fassiez vous renvoie toujours au même résultat. Dans ce cas précis, vous aurez forcement perdu, au bout de 42 coups précisément, 600 euros. Et il est malheureusement impossible pour vous d’empêcher cela, grâce à ma tactique des six cartes-clés qui me font bluffer (à moins bien sûr que vous n’ayez des dons divinatoires auquel cas tout l’avenir du poker est entre vos mains)! Mais supposons que vous ne soyiez doté d’aucun pouvoir sur-humain. Dans ce cas, rien ne pourra m’empêcher de gagner 600 euros tout les 42 coups. Mon espérance mathématique de 14,29 euros par coup m’accorde largement la position de favori. Ma main, auparavant outsider avec une cote de 4 contre 3, devient favorite grâce à mon action de bluff une fois sur 24.

Ce qui fait la force de mon jeu dans cet exemple, c’est que ma probabilité de bluff est déterminée d’avance, et qu’elle était dûe au pur hasard. De cette façon, et vu que l’adversaire ne voit pas ma carte, il lui est impossible de savoir si c’est celle qui va me faire bluffer ou si c’est celle qui va compléter ma main. Il est important de remarque que lorsque j’ai décider que six cartes allait déclencher mon bluff, j’ai égalisé ma probabilité de bluff à la cote de pot du joueur adverse. Ainsi, quoi que fasse l’adversaire, il perdra au centime près le même montant. C’est ce qu’on appelle la stratégie de bluff optimale, et elle consiste en deux points :

– quoi que fasse l’adversaire, il sera perdant
– votre probabilité de bluff est la même que sa cote du pot.

Voyons comment situer la stratégie de bluff optimale dans l’exemple précédent. J’avais 18 outs possibles. En ouvrant avec une mise de 100 euros, j’améliorai le montant du pot à 300 euros. La cote de pot de mon adversaire était donc de 3 contre 1. Il me faut donc bluffer six fois (puisque trois fois six font 18). Ainsi, j’exécuterai dans mon jeu 18 coups sincères et six bluffs, soit une probabilité de bluff de 18 contre 6. Autrement, 3 contre 1, équivalent de la cote du pot adverse.

Second exemple : après mon ouverture de 100 euros, le montant du pot s’élève à 500 euros. J’ai encore une fois 18 outs possibles. L’adversaire ne peut me battre que si je bluffe. Sa cote du pot s’élève à 6 contre 1. Ici, il me faudra bluffer avec seulement trois cartes bluffantes, puis-qu’avec 18 outs et 3 cartes clés, ma probabilité de bluff s’élève à 18 contre 3 soit 6 contre 1. Elle est ainsi égale à la cote du pot de l’adversaire.

Troisième exemple : le montant du pot s’élève à 100 euros et j’en mise 100 de plus. La cote du pot de l’adversaire est donc de 2 contre 1. La stratégie de bluff optimale serait ici de choisir neuf cartes clés. En effet, 18 outs contre 9 cartes clés m’accordent une probabilité de bluff de 18 contre 9, soit 2 contre 1.

Lorsque, qu’elle que soit la façon dont votre adversaire joue, il perd le même montant, implique que votre gain sera en moyenne toujours le même. Pour exemple, utilisons celui où j’avais choisit six cartes clés et où j’avais 18 outs possibles. L’ouverture est de 100 euros dans les deux cas. Mon gain, nous l’avons vu, sera en moyenne de 600 euros tout les 42 coups. Et ce qu’elle que soit l’action du joueur adverse lors de ces 42 coups : il peut passer 12 fois et suivre 12 autres fois, il peut suivre six fois et se coucher dix huit, etc…

Pour les plus à cheval sur les mathématiques, prouvons l’efficacité de la stratégie de bluff optimale avec des pourcentages. Lors d’une partie, alors que le montant du pot ainsi que l’ouverture s’élèvent à 100 euros, vous avez 25% de chances d’améliorer à la main désirée. La cote du pot de l’adversaire est de 2 contre 1. Pour que votre probabilité de bluff soit identique à sa cote du pot, il faut qu’elle soit équivalente à la moitié de vos chances d’améliorer. Ici, la moitié de 25, soit 12,5%. Si c’est une partie de Nullot fermé, 12,5% des 48 cartes invisibles donnent 6 cartes clés, qui généreront votre bluff pendant la partie. Alors, vous aurez adopté la stratégie de bluff optimale.

Vous l’aurez compris, même le joueur le plus chevronné et le plus habile “lecteur” ne pourrait déjouer cette stratégie, puisque même s’il devinait votre tactique, il ne pourrait la contrer puisqu’elle est dûe au plus pur des hasards, et que mathématiquement, il ne peut rien face à elle et sera perdant.

Gérer son bluff en fonction des joueurs adverses

En pratique, c’est à dire dans une partie de poker réelle, la stratégie optimale vu précédemment, lorsqu’elle est basée sur la théorie des jeux, n’est pas à tout les coups la plus probante. Par exemple, si le joueur adverse a pour habitude de suivre tout les coups, qu’elle que soit la situation, l’idéal est de ne jamais bluffer. Et inversement, si le joueur ne suit jamais, il faut bluffer un maximum. C’est pourquoi les modes de jeu des adversaires est un facteur déterminant dans la stratégie que vous allez adopter, fait que confirme la théorie des jeux.

Comme on a pu le voir en début de leçon, si vous bluffez en dessous de la fréquence optimale (par exemple avec cinq cartes clés au lieu de six) vous gagnerez 300 euros de plus tout les 42 coups si votre suit chaque coup plutôt que s’il les passe. Bien des joueurs chevronnés ont compris la technique : s’ils passent plusieurs mains à la suite, ils seront plus enclins à suivre la main à venir, pour éviter que les adversaires ne les bluffent trop. C’est face à de tels adversaires, capables de prendre en compte tout les facteurs pour décider de leur action, que la théorie des jeux est la plus utile. Avec cette stratégie, toute la technique et la réflexion du monde ne pourraient leur permettre de vous battre.

On résume : utiliser la théorie des jeux pour bluffer

Pour utiliser la théorie des jeux dans le but de bluffer, il faut d’abord déterminer la cote du pot de l’adversaire. Ensuite, vous devez ajuster vos probabilités de bluff pour qu’elles lui soient égales. Pour que vos bluffs soit dû au plus pur hasard possible (et donc pour que l’adversaire ne puisse en aucun cas deviner quand vous bluffez et quand vous êtes sincère), le plus judicieux est de choisir vos carte-clés (c’est à dire les cartes qui vont engendrer un bluff de votre part) parmi celles que vous n’avez pas encore vues. Parfois, il ne sera pas possible d’obtenir un bluff parfaitement optimal. Mais plus vous y tendez, plus votre gain sera important, d’après la théorie des jeux.

La théorie des jeux : suivre ou non un éventuel bluff

En effet, la théorie des jeux sert aussi bien à ajuster son bluff qu’à décider de si l’on suit ou non le bluff éventuel que propose l’adversaire. Il a dû fréquemment vous arriver, lorsque vous savez que votre main n’est assez forte que pour battre un bluff, de vous servir de votre expérience pour évaluer la probabilité qu’a l’adversaire de bluffer. Si votre main peut au contraire vous permettre de battre des mains légitimes, alors votre réflexion se porte sur une comparaison entre les chances qu’à votre main d’être la meilleure et votre cote du pot. Ce sont des réflexions classiques face à des joueurs de moyen niveau. En revanche, quand vous faites face à des joueurs plus chevronnés, qui utilisent par exemple la théorie des jeux, vous ne pouvez que le contrecarrer en l’utilisant à votre tour, pour le battre ou, si cela est impossible, pour lui faire gagner le moins possible.

Imaginons, pour comprendre, une partie dont le pot s’élèverait à 100 euros. Vous allez abandonner un coup sur trois quand le joueur adverse ouvrira à 20. L’adversaire doit penser de cette façon : il perdra deux fois 20 euros, mais une fois il vous en volera 100, soit un profit net pour lui de 60 euros, ou 20 par coup. Il a donc tout intérêt à bluffer 20 euros pour en gagner 100! En revanche, s’il pense que vous ne passerez aucun coup, il ne se risquera pas à bluffer. Votre action à vous doit donc consister à lui faire penser que vous allez passer quelques coups, en réalité vous allez le suivre quelques fois pour pouvoir contrer ses bluffs.

Lorsque vous usez de la théorie des bluffs pour savoir si vous allez suivre ou non un bluff éventuel, il faut faire les mêmes calculs que si vous pensiez à bluffer vous même. Alors vous évaluez la fréquence de bluff de l’adversaire, pour y adapter votre quota de “je passe” ou “je suis”, qui lui-même doit être exactement égal au ratio du pot comparé à la mise de l’adversaire. Voyons un exemple à ce sujet.

Votre adversaire ouvre avec une mise de 20 euros, dans un pot de 100 euros. Sa cote est de 5 contre 1 sur un bluff. Votre cote de “je passe” doit donc être de 5 contre 1. Autrement dit, sur six coups, vous allez vous coucher une fois et suivre les cinq autres fois. Pour randomiser votre jeu (c’est à dire le rendre le plus aléatoire possible) il vous faut utiliser des cartes-clés.

Utiliser la théorie des jeux pour bluffer peut transformer une position d’outsider en position de favori. En revanche, s’en servir pour suivre ne permet pas un tel retournement de situation. Par contre, cela permet de se protéger un peu des plans de l’adversaire. S’il se sert lui même de la stratégie optimale, il vous sera impossible de le battre, vous pouvez en revanche minimiser ses profits.

On résume le tout

Bien sûr, la théorie des jeux ne remplace en rien la réflexion propre d’un joueur expérimenté. Elle est par contre nécessaire lorsque vous jugez le joueur en face de vous comme aussi bon, voire meilleur. Si vous ne connaissiez rien de son jeu et ne pouvez évaluer son niveau, elle est la meilleure prévention. Il est important de noter qu’on ne peut utiliser la théorie des jeux pour suivre ou pour bluffer que lorsqu’il est très net que le joueur qui a ouvert bluffe ou possède la meilleure main (s’il ne se situe dans aucun de ces deux cas, par exemple s’il n’a pas la meilleure main mais qu’elle est tout de même légitime, il faut se référer aux tactiques de jeu expliquées dans la leçon 21).

Lorsqu’on se sert de la théorie des jeux dans le but de bluffer, il faut évaluer la cote de pot de l’adversaire et le bluffer de façon aléatoire, de sorte que vos probabilités de bluff soit égale à sa cote du pot. Par exemple, si sa cote de pot est de 5 contre 1, vous devez bluffez une fois contre cinq (c’est à dire une fois sur six en réalité). De cette façon, nul adversaire ne pourra prendre une décision qui lui permettra de gagner, qu’il suive ou qu’il abandonne le coup.

Quand vous l’utilisez pour savoir si vous allez suivre ou non un éventuel bluffeur et que vous savez que votre main n’est assez forte que pour battre un bluff, c’est la tactique inverse qui s’applique. Vous devez évaluer la fréquence à laquelle il va bluffer, puis y adapter votre fréquence d’abandon. Par exemple, si sa cote de bluff est de 4 contre 1 (c’est à dire s’il bluffe une fois sur cinq), vous allez suivre de façon aléatoire quatre fois sur cinq, ce qui nuira à la rentabilité de ses bluffs, mais ne vous fera pas pour autant gagner.