今は第3次AIブーム
AIの第一次ブームは1956年から60年代。世界初のコンピューターの登場は1946年でその10年後。この時にAI(Artificial Interigence)という言葉が決まった。この時代は「検索・推論」の時代と言われる。今でいうと将棋やチェスの様な技術であり、この技術をベースにして色々な問題が解けるのではないかということで研究は広がったが、実際は解けなかった。
第二次AIブームは1980年代。現実的な問題を解くためにはいろいろな知識を蓄えていけば良いのではないかということで、エキスパートシステムと呼ばれる取り組みがあった。例えば、日本では第5世代コンピュータープロジェクトとして通商産業省が570億円の予算を付けた。しかし、どんなに沢山の知識を入力しても、ある一定のところまでしか上手くいかない。
第三次AIブームは2013年から。機械学習・表現学習の時代と言われる。インターネットの発展によりWEBとビッグデータが増えてきたことによって、色々なことができるのではないかと期待されているのが今の段階。
いま、何かものすごいことが起きているということではなく、従来からできることが少しづつ良くなって、これまでに開発されてきた技術が少しづつ良くなっている。
AIの技術は次のような系譜(下図)にわけて捉えることができる。
注目すべきは、技術が大幅に進化したディープラーニング。
機械学習でいうと将棋や囲碁がすぐに思い浮かぶ。コンピューターにできる限り多くのプロ棋士の過去の指し手を読み込ませると、盤上で似たような状況に出くわした時に、プロと同じような手を指せるようになるというもの。マーケティングなどで使う重回帰分析と似ている。
もっとも単純に考えた場合、40個の駒があるとすれば変数が40となるが、最近、プロ棋士に勝つようになったAIは数百万通りの変数を使っている。どういうことかというと、40個の駒の相対的な関係を全て変数にしている。…すると強くなると分かった。このうちほとんどの変数は最終的にその重みがゼロになるのだか、ほんのわずかだけゼロでない値(特徴量)になる。これらが微妙に良い手の判断につながっている。
実は、機械学習においてはどのような変数を使うのかが最重要。マーケティングなどにおいてもその変数は人間が決めている。現在、囲碁将棋でAIが人間に勝てるのは、数年前に人間が何を変数として使うかを決めたからである。
これまでの人工知能の壁
これは表現獲得の壁といえる。以下の3つで言われていたが、結局は一つの同じことが問題であった。変数をコンピュータ自らでは人間並みに見極められないのだ。
難問1:機械学習における素性設計(Feature Engineering)
これは素性(特徴量)をどうやってつくるのか?つまり変数をどうやって決めるのか?ということである。何故難問かというと、読み込んだデータ自身から重要な特徴量を生成できない。
難問2:フレームの問題
コンピュータ自身がどのように例外に対応しながら、どのように判断させればよいか?ということである。これはデータから特徴量を取り出し、知識を記述していないから問題が起こる。
難問3:シンボルグラウンディング問題
シマウマが島のある馬だということをどうやってコンピュータに理解させればよいのか?これはデータから特徴量を取り出し、概念を生成し、それに名前を付けないから問題が起こる。
ディープラーニングとは
概念として意味されるもの、現実世界としてどこが重要かという特徴量をコンピュータ自身が導き出して名前を付けていることをそう呼んでいるようである。データをもとにして何を表現すべきかが自動的に獲得されている。
これまでAIの計算モデルは人間が作っていた。ディープラーニングではモデルを作るところを自動化しようとしている。これは全く新しいレイヤーでの取り組み。
オートエンコーダー(Auto-encoder)
コンピュータ自身に計算モデルを作らせる方法はいくつかある。その一つにオートエンコーダーがある。
以前までのニューラルネットワークの作り方は、
1.例えば、手書きの数字の6の画像を画素単位でコンピュータに見せる。この時、コンピュータはこれが6であることを知らない。
2.それが「ロク」であることを正解だというデータを人間がいれる。人間がコンピュータに覚えさせる。
3.何種類ものパターンの6で上記1,2を繰り返す。
4.AIとして6という数字を「ロク」として認識できる確率が上がる。
オートエンコーダーの場合は、数字の6の画像を読み込ませ、正解データとしても6という画像をいれる。つまり、画像から画像を予測させる。画像から「ロク」を予測させている。
コンピュータはいくつもの画像から「ロク」の共通する要素を絞り込む。
もし、3時間の講演を3分でまとめて、元の3時間をできるだけ精度よく復元せよと言われたとき、読者ならどうするか?おそらく、3分の中に一番重要だと思われる部分だけを押し込めようとする。それと同じで、コンピュータのニューラルネットワークは与えられた画像の中から、最も重要だと思われる要素を取り出そうとする。人間が画像を見たとき、どこが重要でどこが重要でないかは考えずに無意識にやっているが、この判断をニューラルネットワーク自身がやる。下図のHiddenと書かれている層が「一番重要な要素」を取りだしている。
ディープラーニングはこれを何層にも行っている。
2012年にはYouTube上の膨大な画像をコンピュータに読み込ませて「猫」を自動で判別できるようなったという研究成果が発表されている。これはの猫の画像だけを読み込ませたのではなく、色々な画像を大量に読み込ませての結果である。実は猫の様な顔というのは、我々がみている社会に内在する公示の特徴量。
2012年の画像認識のコンペティション(ILSVRC2012)では、ディープラーニングのチームが登場して圧勝した。それまでのFuture Engineeringによる画像認識のエラー率は約26%であった。100枚読ませると26枚は間違えるというものであった。研究者が必死に研究して毎年1%程度改善する程度であったのだが、ディープラーニングはこのときのエラー率が15%程度。いきなり10年を飛び越えたことになる。しかも、ディープラーニングでないチームは画像認識の特徴量の設定を人間が必死にやっていたのだが、ディープラーニングはそれを全くやらずに10年分のイノベーションを実現してしまった。これには衝撃が走った。
それ以来、ものすごい早さで画像認識率が向上している。2013年には11.7%、2014年には6.66%、2015年には3.56%。2017年の結果として拾えた情報の中では2.48%。実際の人間のエラー率は5.1%なので、画像認識の分野において2015年にAIが人間を超えたことになる。
※ILSVRC 2017 Classification Ranking http://image-net.org/challenges/LSVRC/2017/results#loc
ディープラーニングの深さはレイヤーの数で表現される。2016年の時には300レイヤー近かった。現在はどのくらいなのだろうか。
この数年前までは画像認識においてAIが人間を超えることは、当分無理だと考えられていた。それが起こってしまった。この技術を使うと、膨大な画像から同一人物が映っている画像を一瞬で抜き出してひとまとめにすることもできる。画像認識は人間にしかできないという前提で、悪意のあるプログラムの侵入を防ぐために画像で表示された文字をキーボードで打ち込むというセキュリティ対策も意味がなくなる。それくらい難しいことをコンピュータができるようになった。
ディープラーニングを最初に提案したのは日本人
現在、ディープラーニングの中核技術として使われている「畳み込みニューラルネットワーク」は日本人が考え出した。NHK放送技術研究所にいた福島邦彦氏が1979年に発表したネオコグニトロンである。当時は計算機のパワーが足りなくて現在のレベルで画像認識を実現できなかった。
ディープラーニングの今後
以下の1は達成された。現在は2以降を研究している。後ろに行くほど難易度が上がる。全部できるようになったら…未来はどうなるのか…SFの世界で見ていたものが現実になるのだろうか。
1.画像
画像から特徴量を抽出する。
画像認識の精度向上がもたらされる。
2.マルチモーダル
動画の任期精度の向上と行動予測と異常検知)。映像やセンサーなどのマルチモーダルなデータから特徴量を抽出し、モデル化する。動画になるとまだまだ人間の方がはるかに優秀である。
動画の認識精度の向上と行動予測と異常検知ができるようになる。
ここまでは人間でいうと、じっと座って、周りの音を聞いたり、観たりしている状況と言える。しかし、人間は実際に行動して理解する。
3.ロボティックス
自分の行動と観測データをセットにして特徴量を抽出する。記号を操作し、行動計画を作る。ここで特筆すべきは、行動と紐づけるからと言って研究に物理的な身体が絶対に必要ではない点である。バーチャルでもよい。ガラスを落とすと壊れる、コップを倒すと水がこぼれる、等々を分かるようになる。
プランニングとフレームの問題を自動で検出して修正できる。
4.インタラクション
外界と試行錯誤することで外界の特徴量を引き出す。オントロジーといわれる。哲学では「存在論」と訳される。世の中の様々なモノゴトを正確に整理する為のツールまたは方法と理解するのが良いかもしれない。モノとモノの関係を整理していくときに、一段上のレベルで規則を決めると間違った関係ができなくなり、正確に伝達することができる。分かりやすい所でいうと名刺の整理などもオントロジーを活用しているといえる。
オントロジーを使って高度な状況の認識ができるようになる。
5.言葉との紐づけ
画像認識はシンボルクラウンディングの一種。これをさらに高度にする。高次特徴量を言語と紐づける。
言語理解ができ、自動翻訳できるようになる。
ここまでくると様々な概念を獲得できる。言葉を聞いてイメージを生成できるようになり、イメージを見て言葉を生成できるようになる。本を読んで学習できるようになる。AI自身が追体験をできりるようになる。
6.言語からの知識獲得
知識処理システムが用いる知識を専門家などから引き出してコンピュータに載せる困難さを知識獲得のボトルネックと呼ぶ。言語データの大量入力によって、更なる抽象化を行うことで、
知識獲得のボトルネックを解決する。
AI(人工知能)の産業社会に対する影響
ディープラーニングにより人工知能が発展してくると、当然に社会への影響がある。人間よりも正確な画像認識ができるといると、専門医が行っている医療画像診断はAIの方が優秀になり、防犯や監視用セキュリティカメラの映像から探している人物を見つけ出すのは容易となる。オフィス内で立ち入り可能な部屋を顔認識で判別できるようになる。行動分析までできるようになると、犯罪の防止までできるようになるかもしれない。
2016年にはAmazonが画像認識技術を使ってレジの無いスーパーマーケットを開店した。入店し、欲しいものを掴み、そのまま持ち出すだけで、決済は携帯電話を通じて自動的に行われる。
これまでの事業は画像認識ができないという前提で創出されている。技術の変化が早すぎて事業が追い付いていないのが現状。社会制度による影響(法律等による護送)が無くなれば、ビジネス環境が一気に変わるとも考えられる。
事業に与えるインパクト
人間が行っていた特徴量の検出をコンピュータでできるようになるとできることが沢山ある。事業に与えるインパクトとして考えられるのは、
- 機械の動作が飛躍的に向上する可能性
*ディープラーニングと強化学習と試行錯誤によって動作学習。
→製造装置、自動運転、物流 - 犯罪や事故が激減する可能性
*防犯、監視、等々は静止画・動画による特徴量生成と異常検出で不審者の発見をする。
→犯罪や事故が起こりそうだと考えられる「危ない場面」を取り出して防止 - 設備保守が自動化する可能性
*音の変化などから異常検出
→ロボットが修理。 - 情報システムのセキュリティを大幅に向上させる可能性
*これまでは「定めたルール」に当てはまった場合にアラートを挙げていたが、これはいたちごっこ。
→特徴量を生成して異常検知する。 - 「仮説生成と試行のサイクル」全体を自動化できる可能性
*感性と言われている分野やが変わる
→デザイン、作曲、製薬、等々が自動化 - シミュレーション技術が現在よりも格段に使えるようになる。
*特徴量を抽出してモデル化する
→シミュレーションして現実の製品として作れるレベルに。 - 情報システムが全部つながる可能性
*画像を通した連携は難しかった。ほとんどのシステムは人間が目で見るようにできている。これが解消される。
→例えば、工場と本社のシステムが連携できる。等々。
とにかく、AIによって運動能力が上がるというのが大きい。これは全てに機械に関わっているので製造業に直結している。
ここに書いている話題は2014年頃のこと。あれから5年の今、自動運転に技術がどれほど向上したかだけを見ても、AIによる変化が幻でないと分かる。
これからのビジネス
現在の状況は1995年のインターネットの時と似ている。5年前の2014年、ここに書いたことを実現する技術は殆どできていた。これらが社会に広がっていく中でどのような変化が起こるかということを考える。
インターネットでいうところの、
Googleのようなキープレイヤーが出てくるかもしれない。
AmazonやFacebookのようなプラットフォーマーが出てくるかもしれない。
キープレイヤー、プラットフォーマーはどのように出現するのか?新たな産業は?産業構造の変化は?競争力はどう変化するのか?社会はどう変わるのか?
AIのイノベーション
ジレンマとしてSとDと呼ばれるイノベーションがある。
人工知能の「Sustaining Innovation」
データが今まで取れなかったところで取れるようになり、そのデータ処理を人間が一所懸命に考える(裏で処理を作りこむ)ことで今までできなかったこと(一見すると専門家ができるようなこと)ができるようになる。ビッグデータ系の話。
持続的イノベーション。
Sustaining/Sensors and Statistics/Smart/…等々。ワトソン、Siri等々。
この分野は、販売・マーケティングとの相性が良い。ニーズを見つけ、素早いピボットが重要である。
Google、Facebook、Amazon、等々が強く、日本企業は逆転が難しい。
人工知能の「Disruptive Innovation」
一見すると簡単なこと(子供ができること)しかできない。見分ける、身体を動かす、その程度のことしかできないが、裏で人間がいなくても本当にできる。
破壊的イノベーション。
Disruptive/Deep Learning/Developing/…等々。ディープラーニングを中心とする発展。認識、身体性(運動神経が上がる)、言語、の順序で進む。
数学・計算機科学等の「ハードサイエンス」が必要で性能向上が可能。
製造業の相性が良く、日本企業にチャンスが多い。
産業別のチャンス
- 自動車・自動車部品
生産、運転、事故防止 - 建設
建設現場での各種作業 - 医療
画像診断、見守り、健康アプリ - 不動産
防犯・監視による付加価値向上、物件検索 - 生命保険
顧客に合わせた料率の計算、健康管理 - 外食
調理、接客、マーケティング - 物流
積み替え、運転、戸口配送 - 電力
点検、建設、廃炉作業、異常監視 - 銀行
ネット銀行、コールセンター - スーパー
陳列、補充、会計、清掃、万引き監視、マーケティング - 介護
見守り、移動、トイレの世話、コミュニケーションアプリ - 農業
耕うん、整地、播種、育種、追肥、除草、収穫、調製、見張り - 損害保険
ネット保険 - 家電小売
陳列、補充、在庫管理 - 電気通信
設備保守、使用状況のモニタリング、異常監視 - 消費者向けEC
ネット販売の広告や推薦 - 医療用医薬品
試行錯誤による製薬 - コンビニ
陳列、補充、発注、防犯、顧客行動分析、販売促進 - 住宅リフォーム
解体、搬入、塗装、設置、マーケティング - 中食
食品加工、配送 - 鉄道
設備保守、異常監視、事項防止、移動からの広告表示 - 百貨店
陳列、補充、清掃、防犯、実世界顧客行動分析 - 広告
視聴者の反応分析、ネット広告 - ドラッグストア
陳列、補充、発注、防犯、顧客行動分析 - 旅行
ネット販売 - 通販
ネット販売
※赤がSustaining、緑がDisruptive
インターネットの時はニーズを見つけるのが重要であった。ビジネスセンスのある人が活躍した。Disruptive Innovationの世界はニーズは変わらないけれども性能が向上することによって「良くなる」ということなので、そもそも製造業の技術者が持っている素養が重要になる。そして言語も関係ない。日本人向きである。
1995年当時、筆者はビルゲイツの著書としてあった「思考スピードの経営」という本を読み、IT業界に足を踏み入れた。その本の中に書かれている内容は当時のINS64回線の通信速度やCPUではとても実現できない世界がかかれていた。25年後の現在は、当時WINDOWがもたらした世界観を大きく超えている。