У Google новый алгоритм — AlphaZero. Он выучил три игры без вмешательства человека

Google выпустила новую версию алгоритма DeepMind. Ранее он стал мировым чемпионом по игре в го — AlphaGo обыграл сильнейшего в мире игрока со счетом 3:0 в мае 2017 года. Теперь пришло время его наследника под названием AlphaZero.
Алгоритм выбил лидерство сразу в трех настольных дисциплинах: шахматах, го и сеги (японской игре шахматного типа). AlphaZero так же тренировался самостоятельно, без вмешательства человека. На все подготовительные матчи ушло до 3 дней, в зависимости от игры. Используя принцип «обучения с подкреплением», алгоритм проводил тестовые партии, награждая себя за ходы, которые вели к успеху. Поскольку единственной вводной были базовые правила игр, создатели проекта заверяют — AlphaZero полностью свободен от человеческих представлений о тактике и стратегии.
Это сказалось и на результативности. По итогам 1000 партий в каждой игре, AlphaZero выбил победу у своих компьютерных соперников: программных комплексов Stockfish и Elmo, а также предыдущей версии DeepMind под названием AlphaZeroGo. Хуже всего результат получился при игре за черных в шахматы. Так алгоритм победил всего в 2% партий, свел 97,2% в ничью и проиграл в 0,8% сражениях. Самый убедительный результат в игре сеги за черных, где AlphaZero выиграл 98,2% встреч.
Но как пишут исследователи успех AlphaZero сложно применить к реальному миру. Его методы обучения хорошо работают только в строго ограниченных условиях с конечным числом изменяемых параметров. Игровые правила — идеальная среда в этих рамках. В реальном мире у алгоритма пока нет понятного применения. Теперь исследователи из Google намерены двигаться дальше и тренировать алгоритмы для игры в покер, которая пока плохо поддается искусственному интеллекту из-за ограниченного доступа к информации.