AI時代「教師」考　[第4回]「教え方が上手い教師」伝説が、崩れる！

昔のAIは、人間がすべてを「教えて」いた
自律的に「学習」する最新のAI
「教え方が上手い教師」vs.「学ばせ方が上手い教師」

AI時代「教師」考　[第4回]「教え方が上手い教師」伝説が、崩れる！

東北大学大学院教授
渡部信一

（『新教育ライブラリ Premier II』Vol.4　2021年11月）

昔のAIは、人間がすべてを「教えて」いた

　本連載の第1回で、「ひと昔前のAI」は「人間がAIにさせたいことをすべてひとつひとつプログラミングしていた（教えていた）」けれど、2010年頃からは「自律的に学習を進めるAI」が社会の中で活躍し始めたことを示した（渡部2021a）。つまり、ひと昔前の「優秀なAI」とは、優秀な人間（プログラマー）が優れた性能のコンピュータに上手にプログラミングをした(教えた)AIだった。しかし、そのようなAIはあらかじめ想定した課題には完璧に解答可能だったが、「想定外の出来事」にはまったく対応できなかった（AI研究領域では「フレーム問題」と呼ばれている）。そこで研究者は「AIが賢くなる」ためにはそれまでとはまったく異なった学習方法が必要であると考え、20年以上に及ぶ研究のすえ「自律的に学習を進めるAI」の開発に成功したのである。

　今回は、少し詳しくAI開発の歴史を振り返り、その知見を教育現場における改善のヒントとしたい。

　まず最初に、1980年代から2010年頃まで長い間主流であり続けた「ひと昔前のAI（第2次ブームのAI）」について振り返ってみよう。この「ひと昔前のAI」は、主に「エキスパートシステム」と呼ばれていた。それは、以下のようなAIであった（渡部2018、2021b）。

　世の中には「エキスパート」と呼ばれる人たちがいる。例えば、医者や弁護士、そして将棋や囲碁の棋士などがその代表だろう。コンピュータの性能が著しい発展を遂げる中で、様々な「エキスパート」と呼ばれている人たちの頭の中で起きていることを実際にコンピュータによりシミュレーションしてみようという試みが1980年代、盛んに行われた。

　まず研究者が行ったことは、「エキスパート」と呼ばれている人たちの仕事を詳細に分析することである。そして、ひとつひとつの作業をコンピュータに代行させるため、その仕事のひとつひとつをプログラミングした。ここでは、できるだけ優秀なプログラマーが、できるだけ優秀なプログラムを、できるだけ高性能のコンピュータに入力すること、つまり「優秀なAI」が目標とされた。これが、1980年代から始まる第2次AIブームである。

　そして、私たちがその研究成果に驚かされたのはチェス専用のコンピュータシステム「ディープブルー」が人間のチェス・チャンピオンに勝利したという報道を耳にしたときだった。1997年5月、IBM製の「ディープブルー」が世界チェス・チャンピオンのガルリ・カスパロフ氏を2勝1敗3引き分けで敗ったのである。この事件は「コンピュータが人間の知能を初めて追い越した=科学技術の勝利」という歴史的な瞬間であるとされ、世界中で大々的に報道された。

　「ディープブルー」は512台のコンピュータをつないだスーパーコンピュータで、チェス専用の「エキスパートシステム」を組み込み1秒間に2億手以上読む能力を備えていた。ディープブルーは信じられないような速さでそのすべてを調べあげ、14手先の最善の手を予測、そこから逆にさかのぼって次の一手を決める（コダルコフスキー他1998）。チェスの強さが「賢さ」の基準とされる欧米では古くから「チェスをするコンピュータ」の開発が夢だったが、それがとうとう現実のものになったのである。

　さて、チェスに勝利したAIの研究者が次に目指したのは、「将棋」や「囲碁」である。しかし結果的に、AIが「将棋」や「囲碁」で人間に勝利するまでには、ディープブルーの成功から約20年の研究の積み重ねが必要だった。なぜ、ここまで時間がかかったのだろう？「将棋」や「囲碁」の場合、ある状況において次の手として考えられる手数は「チェス」と比較してはるかに多い。例えば将棋の場合には相手から取った駒を再度使うことができるので、次の手の選択肢は大きく広がる。そして囲碁の場合には、ルールは簡単だが次の手として考えられる選択肢は膨大である。当時「ディープブルー」を開発したメンバーのひとりは、「チェスはパターンを読むことが重要だが、囲碁は直感や目算が重要」と話したという（神崎2016）。そしてディープブルー成功の後、AIの開発研究には20年以上にもおよぶ長い「低迷期」が訪れるのである。

　結局20年以上の歳月を経てAI研究者が見つけ出した方法は、「人間がすべてをプログラミングする（教える）のではなく、AI自身に学習させる」というものであった。そして2010年以降、開発に成功したのが「自らが自律的に学習を進めていくAI」である。このAIが行う学習法は「機械学習（ディープラーニング）」と呼ばれ、「想定外の出来事に対しても対処することが可能」なことがその特徴とされる（渡部2018、2021b）。

　以下、最新のAIがどのようにして自ら学習を進めていくのか、少し詳しく見てゆこう。

自律的に「学習」する最新のAI

　最新のAI（第3次ブームのAI）の象徴とされる出来事が、2016年3月に起こった。最新のAI「アルファ碁」が囲碁の世界チャンピオンのイ・セドル氏に勝利したのである。イ・セドル氏は韓国棋院所属の九段で、国際棋戦優勝十数回などの実績をもつ世界最強の棋士と言われているひとりである。「アルファ碁」は全5戦のうち4勝を勝ち取り、イ・セドル氏の敗戦が決まった。

　囲碁は2人のプレーヤーが白と黒の碁石を「19×19」の碁盤上に交互に置いていき相手の石を取り囲みながら自分の領地を広げ、最終的にお互いの領地の面積を競うゲームである。ルールはシンプルだが考えられる手の数はあまりにも膨大になり、チェス専用AI「ディープブルー」のように数手先まで起こりうるケースをしらみつぶしに調べて勝負するということは不可能である。それにもかかわらず、「アルファ碁」は世界チャンピオンに勝利したのである。

　ここでさらに世界中の人々を驚かせたのは、「アルファ碁は囲碁専用に作られたAIではない」ということだった。「アルファ碁」には、囲碁のルールすらプログラミングされていなかった。つまり、「アルファ碁」は人間が囲碁の打ち方や勝ち方を教えた（プログラミングした）「エキスパートシステム」ではないのである。それでは、「アルファ碁」はどのようにして囲碁の打ち方や勝ち方を習得したのだろう？

　「アルファ碁」の基になっているAIは「DQN deep Q-network」と呼ばれる、いわゆる「汎用型AI」である。「汎用型AI」は「エキスパートシステム」とは異なり、ある特定の作業をするようにはプログラミングされていない。「DQN」はルールが異なる様々なゲームで勝利できるように開発されてはいるが、それぞれのゲームのルールは「DQN」自身が学習しなければならない。開発で用いられたゲーム機は、米国アタリ社の「アタリ2600 Atari 2600」である。このゲーム機は昔から人気のあるもので、日本では「ブロック崩し」や「パックマン」などで知られている。開発では49種類のゲームを「DQN」にプレイさせ続けた。ゲームによって成果は異なるが、多くの場合は数日で人間の上級者よりうまくプレイできるようになったという。そして、囲碁の学習を中心に行った「DQN」が、特に「アルファ碁」と呼ばれている。

　さて、「アルファ碁」はどのように囲碁を学習したのだろう？「アルファ碁」が囲碁を学習する過程は、3段階に分かれている（三宅他2016、神崎2016、渡部2018、2021b）。

第1段階：AI自身による自律的な学習
　まず第1段階で、「アルファ碁」はWeb上の囲碁対局サイトにある16万対局それぞれの局面、計約3000万局面の棋譜を読み込み学習する。ここで「アルファ碁」は、膨大な数の「問いと答えのセット」を学習する。つまり、「ある局面における次の一手はどのような手なのか」という問いとWeb上の棋譜がしめす「次の一手」という答えの対を膨大な数、学習するのである（これが「ビッグデータ」の機械学習）。これはAIに対し明確に問いの答えを示すことになるため、AI研究領域では「教師あり学習」と呼ばれている。この段階でAIは囲碁のルールや定石を学習し、さらに様々な棋譜の特徴を学習することで強くなっていく。

第2段階：AI同士が学習し合う段階
　第2段階は、AI研究領域では「教師なし学習」と呼ばれている段階である。第1段階で囲碁のルールや定石を覚え様々な棋譜の特徴を学習することである程度強くなったAIは、第2段階で「AI同士の対局」を自動で行う。「アルファ碁」の場合その対局数は3000万対局とされているが、対局はAI同士が自動で行うため人間の負担はまったくない。AIは架空の対局を自分自身で繰り返すことにより、「勝つためにはどうしたらよいのか」を学習する。試行錯誤を繰り返しながら、「アルファ碁」自身が自ら新しい戦略を学んでいく。

第3段階：プロの棋士との対戦による学習
　最後の段階で、「アルファ碁」は実際にプロの棋士と対戦する。プロの棋士は当然疲れるので対戦数は限られるが、「アルファ碁」はこの経験により特に「プロの棋士はどのような手をさすのか」を学習する。そして再び、AI同士の対戦を繰り返す。ここでは、数多く繰り返すほど様々な手を経験し学習を進めていくことになる。

　「アルファ碁」はこのように3段階の学習過程を経て、世界チャンピオンに勝利するまでの能力を獲得したのである。

　ところで、「アルファ碁」の学習は「教師あり学習」と「教師なし学習」という二つの「機械学習」を組み合わせた学習方法を採用している。最初は「教師あり学習」で囲碁のルールや定石を学習し、次に「教師なし学習」で膨大な数の対戦を繰り返し行い学習を進めてゆく方法である。このようなAIの「機械学習」は、教育現場における「主体的な学び（主体的・対話的で深い学び）」や学習者同士の学び合いを導く「アクティブ・ラーニング」と似ていることに、私はとても驚かされたのである（詳しくは、渡部2018、2021bを参照）。

「教え方が上手い教師」vs.「学ばせ方が上手い教師」

　本連載の第1回で示したように、私は約30年前、教員養成大学で教師を目指している学生の指導を行っていた。その当時、私は教育現場に身を置くなかで次のように感じていた。

　教育現場において、「教師が子どもたちに知識やスキルを系統的に教える」ことは『教育』の本質から外れているのではないか？「子どもたち自身が自ら学んだり、子どもたち同士が学び合う」のが、『教育』の本来の姿なのではないのか?

　日々学生と一緒に子どもたちを指導したり、教育実習指導で学校現場を訪れるなかで、私は「教え方が上手い教師」ではなく、子どもたちに対して「学ばせ方が上手い教師」を育成しなければならないと強く考えるようになっていたのである。

　それから、約30年が経過した。確かに近年、教育現場においては「主体的な学び（主体的・対話的で深い学び）」や学習者同士の学び合いを導く「アクティブ・ラーニング」の重要性が話題になっている。しかし、未だ多くの若い教師は「教え方が上手い教師」に憧れを持っているようにも感じられる。

　もちろん、AIの学習と子どもたちの「学び」は本質的に異なると考えることもできる。AIはあくまでも機械に過ぎず、その学習方法を人間の「学び」と一緒に考えるべきではないという意見もあるだろう。そして、現場の教師にとっては、子どもたちに「ひとつひとつ丁寧に教えていく」ことが心地よいということも十分理解できる。

　しかし、最先端の科学の粋を集めたAI開発だからこそその「知」を「教育現場」を改善するためのヒントとして検討してみることも決して無駄ではない、と私は考えている。そして私は今、次のように考えているのである。

　AI時代は、（「教え方が上手い教師」ではなく、）「学ばせ方が上手い教師」が伝説を作る時代なのかもしれない。

[引用・参考文献]
・神崎洋治著『図解入門　最新　人工知能がよ〜くわかる本』秀和システム、2016年
・コダルコフスキー・ミハイル、レオニド・シャンコヴィチ著／高橋啓訳『人間対機械：チェス世界チャンピオンとスーパーコンピューターの闘いの記録』毎日コミュニケーションズ、1998年
（Khodarkovsky, Michael. and Leonid Aleksandrovich Shamkovich, 1997. A new era: How Garry Kasparov changed the world of chess. New York: Ballantine Books.)
・三宅陽一郎・森川幸人著『絵でわかる人工知能　明日使いたくなるキーワード68』SBクリエイティブ、2016年
・渡部信一著『AIに負けない「教育」』大修館書店、2018年
・渡部信一　連載：AI時代「教師」考「第1回：時代の大きな潮流の中で、「教育」を考える！」『新教育ライブラリPremierII』ぎょうせい、2021年a、pp.104-107
・渡部信一著『AI×データ時代の「教育」戦略』大修館書店、2021年b

Profile
渡部　信一　わたべ・しんいち
　1957年、仙台市生まれ。東北大学大学院教育学研究科博士課程前期修了。博士（教育学）。福岡教育大学助教授、東北大学大学院教育情報学研究部教授及び同研究部長・教育部長（5期・10年）などを経て、現在、東北大学大学院教育学研究科教授。主な著書に『鉄腕アトムと晋平君─ロボット研究の進化と自閉症児の発達─』『ロボット化する子どもたち─「学び」の認知科学─』『AIに負けない「教育」』などがある。

「学びのある」学校づくりへの羅針盤　先生のための実務情報サイト