Il programma Alpha Go

Di blogtecaolivelli

Pubblicato il 28/02/2019

Fonte: Le Scienze23 ottobre 2017Nel 2016 per la prima volta il programmad'intelligenza artificiale AlphaGo ha sconfittoun campione umano nel gioco tradizionale distrategia Go. Ma i creatori del programmahanno da poco lanciato AlphaGo Zero che,oltre a surclassare le prestazioni il suopredecessore, non ha bisogno di un addestra-mento umano perché impara da zero giocandocontro se stesso, trovando mosse originali evincenti mai viste primadi Larry Greenemeier/Scientific Americancomputer science intelligenza artificialeAll'inizio di quest'anno il programma di intelligenzaartificiale AlphaGo ha messo fine a 2500 anni disupremazia dell'umanità nel giochi da scacchiera.Non soddisfatta della vittoria 3-0 contro il più fortegiocatore al mondo, DeepMind Technologies, lasocietà che ha creato AlphaGo, ha annunciatomercoledì una versione migliorata, AlphaGo Zero,che ha surclassato il suo predecessore in unconfronto di IA, vincendo tutte e 100 le partitegiocate.Ma forse ancora più significativo di queste vittorieè il modo in cui AlphaGo Zero è diventato cosìdominante.A differenza dell'originale AlphaGo, che DeepMindha addestrato nel tempo usando conoscenze esupervisioni umane a profusione, l'algoritmo delnuovo sistema si è autoaddestrato a padroneggiareil gioco.L'IA consente ai computer di riconoscere i volti, didare consigli per gli acquisti online e anche diparcheggiare l'auto in modo corretto.I computer acquisiscono queste abilità grazie ad"algoritmi di apprendimento" scritti da esseri umaniche inseriscono enormi quantità di dati di addestra-mento in una rete neurale artificiale(così chiamata per la sua capacità di elaborare leinformazioni in un modo liberamente ispirato allastruttura delle cellule nervose del cervello).

Credit: age Fotostock/AGFQuesto processo è chiamato apprendimento automatico.AlphaGo ha dovuto analizzare milioni di mossefatte da esperti umani e giocare molte, molte partitecontro se stesso per afforzare ciò che apprendeva.A maggio AlphaGo ha sconfitto Ke Jie, il migliorgiocatore umano del mondo.Nel marzo del 2016 ha battuto un altro giocatoretop, Lee Sedol, con l'ausilio di reti neurali multiple,i cui computer richiedevano 48 unità di elaborazionetensoriale (TPU), microchip specializzati appositamenteprogettati per la realizzazione di reti neurali.L'addestramento di AlphaGo Zero ha coinvoltoquattro TPU e un'unica rete neurale che inizialmentenon sapeva nulla di Go. L'IA ha imparato senzasupervisione: ha semplicemente giocato controse stesso e presto è stato in grado di anticiparele proprie mosse e la loro possibile influenza sulrisultato di una partita."Questa tecnica è più potente delle versioniprecedenti di AlphaGo perché non è più vincolatadai limiti della conoscenza umana", secondo unpost scritto in un blog da Demis Hassabis,co-fondatore di DeepMind e da David Silver, cheguida il gruppo di ricerca sull'apprendimentomediante rinforzo dell'azienda. (DeepMind èuna divisione di Alphabet, Inc., casa madre di Google).Un problema dell'IA basata sempre sullaconoscenza umana è che le informazioni possonoessere troppo costose, troppo inaffidabili osemplicemente inesistenti in determinate situazioni."Se tecniche simili potessero essere applicate adaltri problemi strutturati come il ripiegamentodelle proteine, la riduzione del consumo di energiao la ricerca di nuovi materiali rivoluzionari, irisultati ottenuti potrebbero avere un impattopositivo sulla società", dice il blog.AlphaGo Zero ha anche ideato proprie strategienon convenzionali. Il Go viene giocato usando"pietre" colorate bianche e nere su una scacchieracon una griglia di 19 x 19 caselle.Ogni giocatore colloca le pietre con l'obiettivo dicircondare un avversario."Durante l'addestramento, AlphaGo Zero ha scoperto,giocato e infine imparato a preferire una seriedi nuove varianti di joseki, sequenze locali dimosse, precedentemente sconosciute", afferma ilportavoce di DeepMind Jon Fildes.Le partite di Go iniziano tipicamente negli angolidella griglia, poiché ciò permette a un giocatoredi guadagnare una migliore posizione complessivasulla scacchiera. "Così come la mossa 37 dellaseconda partita contro Lee Sedol, questi momentidi ispirazione algoritmica ci danno un'idea dellacreatività di AlphaGo e del potenziale dell'IA",aggiunge Fildes. An Young-gil, giocatoreprofessionista sudcoreano all'ottavo dan(il nono dan è il più alto), ha definito la mossa 37come una giocata "rara e intrigante" poco dopola partita del marzo 2016.

SPL/AGFLo studio di DeepMind descrive"un risultato tecnico veramente impressionante;la loro capacità di ottenerlo e la loro capacità diaddestrare il sistema in 40 giorni con quattroTPU sono notevoli", spiega Oren Etzioni, direttoregenerale dell'Allen Institute for Artificial Intelligence (AI2),che il co-fondatore di Microsoft Paul Allen ha istituitonel 2014 per concentrarsi sui potenziali vantaggidell'IA. "Molti hanno usato l'apprendimento perrinforzo in precedenza, ma gli aspetti tecnici dellavoro sono innovativi".Il successo di AlphaGo Zero è di buon auspicioper la padronanza dei giochi da parte dell'IA, diceEtzioni. Nonostante ciò, "penso che sarebbe unerrore credere di aver imparato qualcosa di generalesul pensiero e sull'apprendimento per l'intelligenzagenerale", aggiunge."Questo approccio non funzionerà su problemi noncosì ben strutturati, come la comprensione del linguaggionaturale o la robotica, dove lo spazio degli stati è piùcomplesso e non esiste una chiara funzione obiettivo".L'addestramento senza supervisione è la chiave percreare, in ultima analisi,l'IA che può pensare autonomamente,dice Etzioni, "ma occorrono più ricerche oltre i confinidei giochi da scacchiera e funzioni oggettive predefinite"prima che i computer possano davvero iniziare a pensareal di fuori dagli schemi.(L'originale di questo articolo è stato pubblicato su "Scientific American" il 18 ottobre 2017 . Traduzione ed editing a cura di Le Scienze. Riproduzione autorizzata, tutti i diritti riservati)