Commentaire de partie : DeepMind AlphaGo vs Fan Hui 2p (par Younggil An 8p)

Nous avons obtenu l’autorisation de publier une traduction française d’un article commentant la 5e partie de Fan Hui contre AlphaGo, réalisé par Younggil An 8p sur son site gogameguru.com

Outre le commentaire de la partie, cet article est intéressant car il fait une présentation d’AlphaGo et donne une explication de son mode de fonctionnement.

 

Ceci est un commentaire de la dernière des cinq parties du match entre Fan Hui 2p et AlphaGo de Google DeepMind.

La nouvelle de la victoire d’AlphaGo 5-0 contre Fan a choqué la communauté et a fait partie des principales informations à la une dans le monde entier.

La partie a été jouée le 9 octobre 2015, mais l’annonce de la performance d’AlphaGo  n’a pas été révélée avant qu’un article détaillant ce fait ne soit publié dans le journal scientifique NATURE, le 27 janvier 2016.

Cela signifie que nous n’avons que récemment entendu parler de ces parties et la chance de l’analyser.

 

La partie commentée

 

Pourquoi le go ?

Le go est depuis longtemps un challenge pour les chercheurs en intelligence artificielle (IA) car le nombre très important de parties possibles au Go rend impossible pour les ordinateurs d’utiliser les techniques de « force brute ».

Cela a eu pour conséquence que les meilleurs joueurs humains sont jusqu’à présent restés hors de portée des ordinateurs, en dépit de décennies de recherche en IA et de l’augmentation de la puissance de calcul.

 

Fan Hui

Fan Hui est une professionnel de l’association chinoise de Go et vit en France, où il a enseigné et fait la promotion du Go depuis les années 2000. Il est né en 1981 et a été promu professionnel en 1996.

Google DeepMind a contacté Fan pour organiser le match et il a joué contre AlphaGo à Londres, sous la supervision de Toby Manning de l’association britannique de Go (British Go Association).

Dix parties ont été jouées au total ; cinq parties officielles et cinq officieuses. Fan a choisi le temps de jeu de 1 heure de temps principal et 3×30 secondes de byo-yomi pour les parties  officielles. Il a gagné deux parties officieuses contre AlphaGo (30 secondes par coup), mais a perdu toutes les parties officielles.

La première partie du match a été assez tranquille et territoriale. Après la défait de Fan de 2,5 points, il pensa que peut-être AlphaGo n’aimait pas combattre, donc il a joué des coups plus agressif dans les parties qui ont suivies. Malheureusement pour Fan cette stratégie n’a pas été payante.

 

Alpha Go

AlphaGo est une IA de Go développée par DeepMind — une entreprise britannique de recherche sur l’IA qui a été achetée par Google en 2014. Ils décrivent ce qu’ils sont entreprise comme « le programme Apollo pour l’IA », dans une projet impliquant plus de 100 scientifiques.

 

Les réseaux de neurones

La source de la force d’AlphaGo se situe dans la bonne application de réseaux d’un réseau de neurones pour le Go.

Dans ce contexte un « réseau de neurone » est une technologie pour le  traitement de l’information et la formation de connexions dans l’optique de modéliser les connexions neuronales du cerveau humain.

Le but de cette technologie est de permettre aux ordinateurs d’apprendre dans un sens plus général que ne le fait un humain.

DeepMind vise à développer un algorithme général d’apprentissage qui peut être appliqué à divers problèmes à la place des problèmes d’IA pré-programmés qui sont uniquement capables de faire une seule chose (p.e. jouer au Go ou aux échecs).

L’ordinateur d’échec Deep Blue, qui a battu le grand maître d’échecs Garry Kasparov en 1997, est un exemple de ces dernières IA (pré-programmées).

Il semble que AlphaGo, tel une pierre le long de ce chemin, est actuellement un peu comme un hybride de ces deux approches. Ce réseau de neurones plus général a été « entraîne » en ayant accès à un grand nombre de parties de Go entre de bons joueurs humains. La « connaissance » qu’il a acquis grâce à ce processus a été renforcé en lui permettant de jouer un très grand nombre de parties contre lui-même et les évaluer à l’aide de circuits imprimés.

 

Monte Carlo

Toutefois, sa force a été boosté par l’utilisation de l’arbre de la recherche Monte Carlo (Monte Carlo Tree Search, MCTS) — une technologie qui a été appliquée au Go depuis une dizaine d’année et a mené à des logiciels de Go qui ont fait de gros progrès contre des joueurs de niveau amateur.

MCTS utilise une approche statistique pour trouver de bons coups. C’est un algorithme de recherche où l’ordinateur simule plusieurs jeux possibles et, après avoir regardé le résultat de chaque partie aléatoire, agréger tous ces résultats pour calculer une probabilité de succès pour une sélection de coups. Si cela semble contre-intuitif, c’est parce que ça l’est !

MCTS n’a pas besoin d’avoir beaucoup de connaissances spécifiques sur un domaine (connaissances sur le go fournis par un créateur humain) pour bien marcher, mais un programmeur a besoin de configurer et régler cette approche au jeu en question. L’un des problèmes que les chercheurs en AI ont rencontré avec le Go est qu’il est difficile d’évaluer si une position est bonne ou mauvaise.

Par exemple, vous ne pouvez pas assigner un score aux pièces comme on peut le faire aux échecs, parce que les pièces se ressemblent toutes. MCTS a, jusqu’à maintenant, évalué les positions en simulant toutes les chemins jusqu’à la fin du jeu, compter les scores, et agréger les résultats de plusieurs simulations.

 

Rassembler les deux

AlphaGo a changé la manière d’utiliser MCTS en utilisant un réseau de neurones pour évaluer si une position est bonne ou mauvaise. DeepMind a actuellement entraîné deux réseaux de neurones dans le cadre d’AlphaGo. Le premier, appelé le réseau de stratégie (policy network), choisissant les coups prometteurs pour une analyse profonde — similaire à ce que font les humains lorsqu’ils comptent sur leur instinct.

Le second, appelé le réseau de valeur (value network), spécialisé dans l’analyse des positions. Le réseau de valeur permet à AlphaGo d’évaluer une position sans avoir besoin de jouer à chaque simulation l’ensemble des chemins jusqu’à la fin. Cela rend MCTS plus efficient que les précédentes génération d’IA de Go.

 

Lectures complémentaires

Ce qui précédé est une explication relativement simple de comment AlphaGo fonctionne et peut contenir des erreur (elles seront heureusement corrigées). Pour des informations plus détaillées à propos des ordinateur de Go, merci de regarder :