Les Echecs selon Yakesh: décembre 2017

AlphaZero, l'intelligence artificielle créée par Google DeepMind, a battu le programme champion du monde d'échecs Stockfish 8 après s'être auto-enseigné le jeu d'échecs pendant quatre heures. Le point sur cette révolution.

LES FAITS

AlphaZero, l'intelligence artificielle créée par Google DeepMind, qui avait déjà battu à plusieurs reprises les meilleurs joueurs de Go du monde sous le nom d'AlphaGo, a été généralisée pour apprendre d'autres jeux. Il a fallu seulement quatre heures d'auto-apprentissage à AlphaZero avant d'être capable d'aller battre le programme champion du monde d'échecs, Stockfish 8, dans un match de 100 parties ! Avec les pièces blanches, AlphaZero a remporté le match contre Stockfish par 25 victoires, 25 nulles et 0 défaite. Avec les pièces noires, AlphaZero l'a emporté par 3 victoires, 47 nulles et 0 défaite.

« Sans aucune connaissance du domaine à l'exception des règles du jeu, AlphaZero a atteint en 24 heures un niveau de jeu surhumain aux Échecs, Shogi et Go. », ont déclaré les auteurs de l'article, dont le fondateur de DeepMind, Demis Hassabis.

— Demis Hassabis est né à Londres en juillet 1976 et a rapidement montré une habileté pour les jeux de société, en particulier les échecs. À l'âge de 13 ans, Hassabis a été le deuxième joueur le mieux classé au monde (moins de 14 ans), derrière la Hongroise Judit Polgar.

« C'est une performance remarquable, même si nous aurions dû nous y attendre après AlphaGo », a déclaré le 12e champion du monde d'échecs Garry Kasparov. « Nous avons toujours supposé que les échecs nécessitaient trop de connaissances empiriques pour qu'une machine joue aussi bien à partir de zéro, sans aucune connaissance humaine. »

DeepMind a déclaré que la différence entre AlphaZero et ses concurrents est que son approche d'apprentissage automatique ne reçoit aucune contribution humaine en dehors des règles de base. Quant au reste, il fonctionne en jouant encore et encore avec des connaissances auto-renforcées. Le résultat, selon DeepMind, est qu'Alphazero a adopté une « approche sans doute plus humaine » pour la recherche des coups, traitant environ 80 000 positions par seconde par rapport aux 70 millions de Stockfish 8.

Les programmes d'échecs (Stockfish comme les autres), évaluent les positions à l'aide de fonctionnalités élaborées avec l'aide de grands-maîtres humains et pondérées avec soin (structure des pions, avantage de développement, paires de Fous, etc.), associées à une recherche alpha-bêta performante qui développe un vaste arbre de recherche. AlphaZero remplace ces connaissances artisanales par des réseaux neuronaux et un algorithme d'apprentissage par renforcement de type Monte-Carlo. Ces réseaux de neurones prennent la position de départ et sortent des probabilités selon les coups pour chaque action, et une valeur estimant le résultat attendu à partir de la position. Les parties sont jouées en sélectionnant les coups pour les deux joueurs. A la fin de la partie, la position est notée selon les règles du jeu pour calculer le résultat : -1 pour une défaite, 0 pour un nul, et +1 pour une victoire. Les paramètres du réseau de neurones sont alors mis à jour de manière à minimiser l'erreur entre le résultat prévu et le résultat réel. C'est ce qu'a fait AlphaZero pendant 4 heures en jouant contre lui-même, avant de battre Stockfish. Ce qui remet en question la croyance répandue selon laquelle la recherche alpha-bêta est intrinsèquement supérieure dans ces domaines.

LES OUVERTURES AUX ÉCHECS

Concernant les ouvertures aux échecs, AlphaZero a commencé par jouer celles jouées plus de 100 000 fois dans les bases de données par les humains. Chacune de ces ouvertures a été découverte et jouée de manière indépendante par AlphaZero lors de son auto-apprentissage, avant d'en tirer apparemment la conclusion que les ouvertures les plus fortes sont : 1. l'Anglaise 1.c4 ; 2. le gambit dame 1.d4 d5 2.c4 ; 3. 1.d4 Cf6 2.Cf3 et 4. 1.d4 Cf6 2.c4 e6. Avec les Noirs, la défense française et les Siciliennes ont été assez rapidement écartées, tout comme la défense Est-Indienne contre 1.d4. Voir les détails dans l'article de référence.

NOTRE AVIS

Évidemment, un titre comme « Google’s AI mastered chess in 4 hours » sonne comme un coup de tonnerre ! Ajoutons la déclaration de Peter Heine Nielsen : « Je me suis toujours demandé comment ça serait si une espèce supérieure débarquait sur Terre et nous montrait comment elle joue aux échecs... Maintenant je sais. » et il n'en fallait pas plus pour que AlphaZero fasse les gros titres.

À notre avis cependant, les informations disponibles à ce jour sont trop parcellaires pour en tirer des enseignements ou des explications, et encore moins des conclusions. D'ailleurs, les articles publiés sur le sujet par d'autres sites ne font que reprendre les données de l'article de référence, agrémentés de quelques réactions de personnes qui n'en savent pas plus.

Sans vouloir mettre en doute une importante avancée probable apportée par AlphaZero, pour le moment, le tweet de Eli David (Deep learning researcher | CTO and Co-Founder DeepInstinctSec) : « 24 heures avec 5000 TPUs ! En outre, il n'est pas mentionné quel matériel Stockfish utilisait; seulement les threads, pas les processeurs. Malgré cette comparaison de pommes et d'oranges, c'est un travail intéressant. » nous semble le plus raisonnable.

AlphaZero a utilisé 5000 TPUs de première génération pour générer les parties jouées contre lui-même, et 64 TPU de deuxième génération pour former les réseaux de neurones. AlphaZero a dépassé les performances de Stockfish après seulement 4 heures. De son côté, Stockfish utilisait 64 threads et 1GB de hash size.

— Pour information, un TPU (Tensor Processing Unit) s’avère 15 à 30 fois plus rapide pour des tâches de Machine Learning que des CPU Intel Haswell ou des GPU Nvidia K80. Le rapport performance par watt des TPU se veut également de 25 à 80 fois meilleur que celui des CPU et GPU.

CONCLUSION À MOITIÉ SÉRIEUSE...

Demis Hassabis, cofondateur et PDG de DeepMind, a déclaré au sujet du Go : « C'est incroyable de voir à quel point AlphaGo est arrivé en seulement deux ans. AlphaGo Zero est maintenant la version la plus puissante de notre programme et montre les progrès que nous pouvons réaliser avec moins de puissance de calcul et sans utilisation de données humaines. » Les versions précédentes d'AlphaGo avaient été initialement programmées avec des milliers de parties de joueurs amateurs et professionnels pour apprendre à jouer au Go.

La phrase : « [...] montre les progrès que nous pouvons réaliser [...] sans utilisation de données humaines » n'est guère rassurante et rappelle le film « 2001, l'Odyssée de l'espace » de Stanley Kubrick sortie en 1968.

Le vaisseau Discovery One fait route vers Jupiter avec à son bord deux astronautes, Dave Bowman et Frank Poole, trois savants maintenus en hibernation, et HAL 9000, un ordinateur de bord doté d'une intelligence artificielle. Un jour, Bowman et Poole inspectent une pièce que HAL a signalée comme défectueuse, mais ne trouvent rien d'anormal. L'ordinateur étant réputé infaillible, ils s'inquiètent des conséquences de cette découverte sur le bon déroulement de leur mission. HAL, qui les surveille à leur insu, apprend qu'ils envisagent de le déconnecter pour parer à tout incident ultérieur. S'estimant indispensable à la mission, HAL décide alors de se débarrasser de ses partenaires humains.

Bref, si « l'intelligence artificielle » en arrive à la conclusion qu'elle fait mieux sans les humains, espérons qu'il restera un Dave Bowman pour se rendre vers le « centre nerveux » et désactiver les blocs mémoires. :)

mardi 26 décembre 2017

Le logo du prochain championnat du monde d'Echecs en 2018 qui fait polémique

Position du Kama Sutra entre Gays ou pas ?

On en parle ici

vendredi 8 décembre 2017

AlphaZero écrase Stockfish 8

LES FAITS

LES OUVERTURES AUX ÉCHECS

NOTRE AVIS

CONCLUSION À MOITIÉ SÉRIEUSE...

samedi 2 décembre 2017

Interview de Pierre Lapeyre de l'Echiquier Bordelais sur France Bleu Gironde

vendredi 1 décembre 2017

Queen of Katwe

De superbes scènes tournées à Katwe : bidonville à la périphérie de Kampala capitale de l'Ouganda.

Les Echecs Féeriques

Humour

Pédagogie

Les Finales

Ouvertures

Archives du blog

Problémistes/Solutionnistes

Instances fédérales

Jouer en ligne

Parties présentées

Sites divers