こんな面白い本は珍しい。将棋の佐藤天彦名人に4月1日と5月20日に2連勝したAI(人工知能)システムPonanzaの開発者山本一成氏の新著だ。
人工知能はどのようにして「名人」を越えたのか? 山本一成
ダイヤモンド社 2017年5月
昨年囲碁のトップを破ったGoogle社のAlphaGoについても詳述している。
@PonanzaやAlphaGoが強くなった経緯。APonanzaとAlphaGo(巻末付録)が名人に勝った局面の推移。BAIと人間の得意・不得意。C知能・知性とは? DAIの将来、などが興味深い。棋譜が読めれば更に面白いはずだ。
筆者は10年前アマチュア五段の東大生時代にPonanzaの開発を始めたという。筆者は「全ての知的活動は、@探索=客観的に将来を読む、及びA評価=どの探索が有利か、から成る」と定義する。将棋の評価では、玉の隣の金は何点とか各駒とその位置によって各評点を定め、総点で盤面を評価し、その最大化を求める。当初は手作業で各評点を調整して強化した。しかし大変なので、次いでプロ棋士の棋譜の指し手は総点を上げるはずだと仮定して、無数の棋譜を読み込み、仮定通りになるように各評点を自動調整した。これを「教師(棋譜)ありの機械学習」と筆者は呼ぶ。
可能な指し手の探索はプログラマが書き、その評価は人がスポーツのコーチのように学習の仕方をAIに教え、AIが選手のように学習する関係だ。これで将棋AIは急速に強化され、前年版に対して勝率7割で毎年強くなっている。将棋AIは「プログラマを卒業した」と筆者は表現する。
教師あり機械学習による強化が飽和し始めた頃、何か新改良を人間が思い付いたり、或いは理由なく全くランダムに変更して見る「強化学習」「教師無し学習」が始まり、これで一層の強化がなされた。変更した新版と旧版とを、AI同志で3千試合させて、新版の勝率が52%以上だったら新版を採用する。100件に平均2件しか改良にならないが、機械的に高速に進められる。改良原理が人間には分からない「黒魔術」だと筆者は呼ぶ。
機械学習の手法には、@Logistics回帰や、A最近注目されている脳を真似た深層学習=Deep Learning=DLなどがあり、Ponanzaは処理速度の理由で@を使ったという。しかしハードウェアとDLの技術発達があり、DLの採用を試行中だとのこと。DLには速度が上がらぬ欠点の他に、「過学習」という欠点があり、与えられた正解を丸覚えしてしまうそうだ。そうならぬように、記憶ネットワークに、特に各正解で活性化する部分に、意図的に欠陥を作ると、丸覚え出来なくなり特徴を学んでくれるという。
科学は、分析して部分を理解できれば全体が判るという「還元主義」で発達してきたが、理由不明のまま結果が得られる「黒魔術」はそれに反する。つまりAIは「還元主義(従来の科学)から卒業した」と言う。
Ponanzaは遂に独創的な指し手を示すようになり、それを「Ponanza流」と呼んで棋士が採用し始め、名人戦でも使われた。つまりAIが人間の教師になり始めた。一方でプロ棋士はAIに勝つために、一見隙を見せる罠を仕掛けるようになった。棋士同志なら「相手が何か企んでいる」と疑う所だがAIは、相手が自ら不利になるような指し手は、確率が低い手として検討外に捨象するから気付かない。その実例が示されている。AlphaGoが1回だけ囲碁のトップに負けた時もそれで負けた、その局面も示されている。
AlphaGoは盤面上で、黒石=赤、白石=緑、空白=青の3つの画像としてDLに入力し、教師あり機械学習でアマチュア3段程度の実力を付けた。その上で強化学習で3千万回のAI同士の対局で自己強化していった。
囲碁も将棋もAIがAIで自己強化される段階に達した。AIは近い将来人間のコーチも不要になり「人間を卒業」すると筆者は言う。知性=目的設計力、知能=目的達成力とした時に、AIの知能は人間を卒業しつつあるが知性はゼロだ。人間は情勢の変化で目的を変えたり、中間目標を設定したり変更したりする。この知性が現在のAIには欠落しているという。筆者は、AIがやがては複数のDLをつなげた複合DLで人間以上の知性を得る気がすると言う。また遠からずAIは、Webから人間の倫理観を学習するから、人はWeb上で「よい人間」でないと「悪者のAI」が生まれると警告する。以上