Player of Games di Google Alphabet, col poker e i giochi passi avanti nell’IA

Player of Games il nuovo sistema del laboratori DeepMind di Google Alphabet, col poker e i giochi passi avanti nell'IA.
Scritto da Gt

Player of Games di Google Alphabet, col poker e i giochi passi avanti nell'IA

Negoziare un contratto, interagire coi clienti, coordinare gruppi e cooperare con altri, l’intelligenza artificiale un giorno vicinissimo potrebbe aiutarci a risolvere questi problemi. E il tutto grazie a dei sistemi basati sul poker, sui videogame e sui giochi. Non è certo uno scoop o una notizia che domani troverete sui Tg nazionali. Tuttavia pare che DeepMind, il laboratorio di intelligenza artificiale supportato dalla società madre di Google Alphabet, sia davvero vicina alla svolta e a risultati pazzeschi su questo settore. DeepMind ha investito a lungo in sistemi di intelligenza artificiale per il gioco. La filosofia del laboratorio è che i giochi, pur mancando di un’ovvia applicazione commerciale, sono sfide unicamente rilevanti per le capacità cognitive e di ragionamento. Questo li rende utili benchmark del progresso dell’IA. Negli ultimi decenni, i giochi hanno dato origine al tipo di intelligenza artificiale auto-apprendente che alimenta la visione artificiale, le auto a guida autonoma e l’elaborazione del linguaggio naturale. Tutte cose che già esistono.

Continuando il suo lavoro, DeepMind ha creato un sistema chiamato Player of Games, che la società ha rivelato per la prima volta in un documento di ricerca pubblicato sul server di prestampa Arxiv.org questa settimana. A differenza degli altri sistemi di gioco sviluppati in precedenza da DeepMind, come AlphaZero, capace di vincere a scacchi, e AlphaStar, capace di battere StarCraft II, Player of Games può comportarsi bene sia con giochi di informazioni perfette (ad esempio, il gioco da tavolo cinese Go e scacchi) sia con giochi imperfetti. giochi di informazione (es. poker).

Compiti come la pianificazione del percorso sulla congestione, le negoziazioni contrattuali e persino l’interazione con i clienti implicano tutti il ​​compromesso e la considerazione di come le preferenze delle persone coincidono e sono in conflitto, come nei giochi. Anche quando i sistemi di intelligenza artificiale sono interessati a se stessi, potrebbero avere da guadagnare coordinando, cooperando e interagendo tra gruppi di persone o organizzazioni. Sistemi come Player of Games, quindi, che possono ragionare sugli obiettivi e le motivazioni degli altri, potrebbero aprire la strada all’intelligenza artificiale che può funzionare con successo con gli altri, inclusa la gestione delle domande che sorgono sul mantenimento della fiducia.

I giochi con informazioni imperfette hanno informazioni nascoste ai giocatori durante il gioco. Al contrario, i giochi di informazione perfetta mostrano tutte le informazioni all’inizio.

I giochi di informazioni perfette richiedono una discreta quantità di previdenza e pianificazione per giocare bene. I giocatori devono elaborare ciò che vedono sul tabellone e determinare cosa è probabile che facciano i loro avversari mentre lavorano verso l’obiettivo finale della vittoria. D’altra parte, i giochi con informazioni imperfette richiedono che i giocatori tengano conto delle informazioni nascoste e capiscano come dovrebbero agire dopo per vincere, incluso potenzialmente bluffare o fare squadra contro un avversario.

Sistemi come AlphaZero eccellono in giochi di informazioni perfette come gli scacchi, mentre algoritmi come DeepStack e Libratus si comportano molto bene in giochi di informazioni imperfette come il poker. Ma DeepMind afferma che Player of Games è il primo “algoritmo di ricerca generale e sonora” a ottenere prestazioni elevate sia nei giochi di informazione perfetti che in quelli imperfetti.

“[Player of Games] impara a giocare [ai giochi] da zero, semplicemente giocando ripetutamente in modalità self-play”, ha detto a VentureBeat il ricercatore senior di DeepMind Martin Schmid, uno dei co-creatori di Player of Games. “Questo è un passo verso la generalità: Player of Games è in grado di giocare sia a giochi di informazione perfetti che a quelli imperfetti, rinunciando a un po’ di forza nelle prestazioni. AlphaZero è più forte di Player of Games nei giochi di informazione perfetta, ma [non è] progettato per giochi di informazione imperfetta”.
Sebbene Player of Games sia estremamente generalizzabile, non può giocare a qualsiasi gioco. Schmid afferma che il sistema deve pensare a tutte le possibili prospettive di ciascun giocatore data una situazione di gioco. Mentre c’è solo una prospettiva nei giochi di informazione perfetta, ci possono essere molte di queste prospettive nei giochi di informazione imperfetta, ad esempio, circa 2.000 per il poker. Inoltre, a differenza di MuZero, il successore di AlphaZero di DeepMind, Player of Games ha bisogno anche della conoscenza delle regole del gioco a cui sta giocando. MuZero può imparare al volo le regole dei giochi di informazione perfetta.
Nella sua ricerca, DeepMind ha valutato Player of Games – addestrato utilizzando i chipset acceleratori TPUv4 di Google – su scacchi, Go, Texas Hold’Em e il gioco da tavolo di strategia Scotland Yard. Per Go, ha organizzato un torneo di 200 partite tra AlphaZero e Player of Games, mentre per gli scacchi, DeepMind ha messo Player of Games contro i sistemi più performanti tra cui GnuGo, Pachi e Stockfish, nonché AlphaZero. La partita di Texas Hold’Em di Player of Games è stata giocata con lo Slumbot apertamente disponibile.