Eulogy(賛辞), Panorama, Animation, 観光案内 Eulogy(賛辞), 短編随筆, 三宅島の噴煙 Pictures of the current season
Sue's recent experiences Shig's recent thoughts 自己紹介
短編随筆シリーズ「うつせみ」より代表作 Photos of flowers, butterflies, stars, trips etc. '96電子出版の句集・業務記録

Home, 目次


うつせみAdvanced
2017年 6月23日
          囲碁・将棋の人工知能

 こんな面白い本は珍しい。将棋の佐藤天彦名人に4月1日と5月20日に2連勝したAI(人工知能)システムPonanzaの開発者山本一成氏の新著だ。
 人工知能はどのようにして「名人」を越えたのか? 山本一成
 ダイヤモンド社 2017年5月
昨年囲碁のトップを破ったGoogle社のAlphaGoについても詳述している。

 @PonanzaやAlphaGoが強くなった経緯。APonanzaとAlphaGo(巻末付録)が名人に勝った局面の推移。BAIと人間の得意・不得意。C知能・知性とは? DAIの将来、などが興味深い。棋譜が読めれば更に面白いはずだ。

 筆者は10年前アマチュア五段の東大生時代にPonanzaの開発を始めたという。筆者は「全ての知的活動は、@探索=客観的に将来を読む、及びA評価=どの探索が有利か、から成る」と定義する。将棋の評価では、玉の隣の金は何点とか各駒とその位置によって各評点を定め、総点で盤面を評価し、その最大化を求める。当初は手作業で各評点を調整して強化した。しかし大変なので、次いでプロ棋士の棋譜の指し手は総点を上げるはずだと仮定して、無数の棋譜を読み込み、仮定通りになるように各評点を自動調整した。これを「教師(棋譜)ありの機械学習」と筆者は呼ぶ。

 可能な指し手の探索はプログラマが書き、その評価は人がスポーツのコーチのように学習の仕方をAIに教え、AIが選手のように学習する関係だ。これで将棋AIは急速に強化され、前年版に対して勝率7割で毎年強くなっている。将棋AIは「プログラマを卒業した」と筆者は表現する。

 教師あり機械学習による強化が飽和し始めた頃、何か新改良を人間が思い付いたり、或いは理由なく全くランダムに変更して見る「強化学習」「教師無し学習」が始まり、これで一層の強化がなされた。変更した新版と旧版とを、AI同志で3千試合させて、新版の勝率が52%以上だったら新版を採用する。100件に平均2件しか改良にならないが、機械的に高速に進められる。改良原理が人間には分からない「黒魔術」だと筆者は呼ぶ。

 機械学習の手法には、@Logistics回帰や、A最近注目されている脳を真似た深層学習=Deep Learning=DLなどがあり、Ponanzaは処理速度の理由で@を使ったという。しかしハードウェアとDLの技術発達があり、DLの採用を試行中だとのこと。DLには速度が上がらぬ欠点の他に、「過学習」という欠点があり、与えられた正解を丸覚えしてしまうそうだ。そうならぬように、記憶ネットワークに、特に各正解で活性化する部分に、意図的に欠陥を作ると、丸覚え出来なくなり特徴を学んでくれるという。

 科学は、分析して部分を理解できれば全体が判るという「還元主義」で発達してきたが、理由不明のまま結果が得られる「黒魔術」はそれに反する。つまりAIは「還元主義(従来の科学)から卒業した」と言う。

 Ponanzaは遂に独創的な指し手を示すようになり、それを「Ponanza流」と呼んで棋士が採用し始め、名人戦でも使われた。つまりAIが人間の教師になり始めた。一方でプロ棋士はAIに勝つために、一見隙を見せる罠を仕掛けるようになった。棋士同志なら「相手が何か企んでいる」と疑う所だがAIは、相手が自ら不利になるような指し手は、確率が低い手として検討外に捨象するから気付かない。その実例が示されている。AlphaGoが1回だけ囲碁のトップに負けた時もそれで負けた、その局面も示されている。

 AlphaGoは盤面上で、黒石=赤、白石=緑、空白=青の3つの画像としてDLに入力し、教師あり機械学習でアマチュア3段程度の実力を付けた。その上で強化学習で3千万回のAI同士の対局で自己強化していった。

 囲碁も将棋もAIがAIで自己強化される段階に達した。AIは近い将来人間のコーチも不要になり「人間を卒業」すると筆者は言う。知性=目的設計力、知能=目的達成力とした時に、AIの知能は人間を卒業しつつあるが知性はゼロだ。人間は情勢の変化で目的を変えたり、中間目標を設定したり変更したりする。この知性が現在のAIには欠落しているという。筆者は、AIがやがては複数のDLをつなげた複合DLで人間以上の知性を得る気がすると言う。また遠からずAIは、Webから人間の倫理観を学習するから、人はWeb上で「よい人間」でないと「悪者のAI」が生まれると警告する。以上