Künstliche Intelligenz

Wie die Maschinen das Go-Spielen lernten

30.01.2016

Das System, mit dem es Google gelungen ist, einen menschlichen Profispieler zu schlagen, setzt auf eine Kombination verschiedener Methoden.

Dieser Artikel ist älter als ein Jahr!

"Beim Go-Spielen gibt es sehr viele Möglichkeiten pro Zug. Das führt dazu, dass der Suchraum explodiert. Eine Vorausberechnung aller Möglichkeiten ist nicht möglich", erklärt Jan Schlüter, Experte für maschinelles Lernen beim Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI). 'Moderne Go-Software löst das Problem durch die "Monte Carlo Tree Search". Dabei wird der Suchraum mit Einschränkungen versehen. "Das ist ähnlich wie die Methode, die auch Menschen anwenden. Statt dass alle Möglichkeiten durchgespielt werden, werden einige erfolgversprechende Züge identifiziert. Von diesen ausgehend werden die nächsten Züge, inklusive wahrscheinlicher Reaktionen des Gegners, durchgespielt", sagt Schlüter. So lässt sich abschätzen, ob eine bestimmte Aktion sich zehn Züge in der Zukunft eher vorteilhaft auswirkt oder nicht.

Dieser Ansatz allein hat beim Go-Spielen aber nicht ausgereicht, um Software zu erzeugen, die eine Gefahr für Profispieler darstellen könnte. Google hat für sein Go-System "AlphaGo" deshalb neuronale Netzwerke verwendet, um das Suchverfahren zu verbessern. Eines schlägt die vielversprechendsten Züge für eine Situation vor, das andere versucht vorherzusagen, welcher Spieler in einer Situation die höheren Gewinnchancen hat. Diese Netze steuern die Monte Carlo Tree Search besser als bisherige Ansätze. Das Netz, das die Züge auswählen soll, wurde dafür mit einer riesigen Zahl von Expertenzügen trainiert. So lernt die Software mit der Zeit, wie ein guter Spieler reagieren würde. Danach haben die Forscher das System weiter verbessert, indem sie es viele Millionen Male gegen zufällig ausgewählte. ältere Versionen seiner selbst spielen ließen.

Versuch und Irrtum

"Das System spielt eine Partie und analysiert am Ende jeden Zug. Wenn es das Spiel gewonnen hat, werden die verwendeten Züge im Modell leicht aufgewertet, bei einer Niederlage leicht abgewertet", erklärt Schlüter. Am Ende lernen die neuronalen Netzwerke also durch Trial and Error. "Ein menschlicher Profi macht das ähnlich, wenn er seine Spiele analysiert", sagt Schlüter. Durch diesen Ansatz kann Googles System auch Strategien entwickeln, die menschliche Gegner überraschen können. Der Anteil der neuronalen Netzwerke ist dabei entscheidend.

Grundsätzlich sind die neuronalen Netzwerke, die für AlphaGo eingesetzt werden auf die Erkennung von Bildern ausgelegt. Ein Go-Brett kann dabei einfach als Bild mit 19 mal 19 Pixel dargestellt werden, mit je drei Farbwerten, nämlich schwarz, weiß oder leer. Die Algorithmen versuchen dann, Muster zu erkennen. Dazu gehen sie von kleinen Ausschnitten aus und analysieren dann schrittweise größere Teile des Bildes, bis sie eine Vorhersage, also gute Spielzüge oder wahrscheinlicher Gewinner, für das Spielbrett treffen.

Für März ist ein Duell von AlphaGo mit dem Spitzenspieler Lee Sedol angesetzt. Das wird eine noch größere Herausforderung für das System als die Spiele gegen den Europameister. Bis dahin soll AlphaGo noch weiter verbessert werden. "Das kann über eine weitere Skalierung der Hardware geschehen. Auch die neuronalen Netzwerke können besser trainiert werden. Es könnten dazu auch spezifisch Spiele des Gegners herangezogen werden. Es ist allerdings unklar, ob die Datenmenge dazu ausreicht. Menschen sind oft besser darin, aus nur wenigen Daten gute Schlüsse zu ziehen", sagt Schlüter.

Versuch und Irrtum

Kommentare