【解説】ディープラーニングをわかりやすく説明

ディープラーニングとは、人工知能を飛躍的に進化させる可能性を秘めた機械学習の手法です。物事を分類することが得意で、例えば、画像認識翻訳などの自然言語処理や音声認識の精度を急速に進展させてきました。2012年にディープラーニングの実力を世間に知らしめた有名な出来事が２つありました。

一つ目は、 ILSVRCという世界的な画像認識コンペです。当時初登場だったトロント大学がディープラーニングの技術を取り入れて開発したスーパービジョンという人工知能が圧倒的に勝利したのです。他のシステムが、26%付近の誤認識率であったところ、スーパービジョンは約15%まで下げました。

二つ目は、人間に教わることなく、人工知能が猫を認識したという Google の研究発表です。画像認識を研究していた人たちにとってコンピューターが人間に教わらずに、猫を認識できたというのは画期的なことでした。では、なぜコンピューターが猫の画像を認識できたことが画期的なのでしょうか？

コンテンツ

ディープラーニングと従来の機械学習の違い

機械学習とは人工知能の研究分野の一つで、大量のデータを反復して学習し、パターンを発見することです。

例えば、大量の写真の中から猫を見つける人工知能を作ろうとした場合、今までの機械学習では、人工知能に「尻尾が長い」「耳が立っている」といった「猫かどうか」を認識するためのポイントを教える必要がありました。このポイントを特徴量と呼びます。一方、精度の高い分類が得意なディープラーニングでは、この特徴量を自分で見つけます。例えば、尻尾が長くて、耳が立っているといった特徴を持つグループを自分で分類し、このグループに分類されるものは猫であると認識できるようになります。

今までの機械学習は人間が特徴量をどう設計するかが精度を支える鍵でしたが、ディープラーニングではその必要がないのです。こうしたことを実現させたのが、ディープニューラルネットワークというアルゴリズムです。

ニューラルネットワークからディープニューラルネットワークへ

ディープラーニングはニューラルネットワークという人間の脳の仕組みを参考にして、アルゴリズムを使用しています。人間の脳は、ニューロンという神経細胞が網目状に結びついた形をしており、あるニューロンは他のニューロンから電気刺激を受け取り、一定の値を超えると次のニューロンに電気信号を送ります。

これを模倣したモデルがニューラルネットワークです。ニューラルネットワークの考え方自体は50年以上前からあるものですが、ディープラーニングは、始点と終点の間にある階層を何段にも重ねたディープニューラルネットワークを使っています。階層が深いことから、ディープラーニングまたは深層学習と呼ばれているのです。

事例：天網

中国では天網という顔認証システムが治安維持のために使用されています。天網は犯罪者データベースと連動していて、前科のある人がカメラや、カメラを搭載したメガネに移るとすぐにアラートが鳴る仕組みです。この他にも顔認証システムは、スマートフォンなどのロック解除機能、買い物の決済など既に様々な領域で実用化が進められています。顔そのものが ID やセキュリティキーになれば、紛失やなりすましのリスクが低減しますが、一方で個人情報の保護については、まだまだ議論が必要です。

留意点

ディープラーニングは機械学習の一つでしかないため機械学習の色々な面での制約を受けます。

✔理由を説明することができない。

ディープラーニングの技術によって予測の精度が上がりましたが、機械学習がそうであるようにディープラーニングもなぜそのような結果になるのか？を言葉で説明することが苦手です。例えば、写真に写っているのが猫なのか犬なのかディープラーニングはそれが猫であるかは教えてくれますが、なぜそれを猫と判断したのかその理由は教えてくれません。

✔予測結果の精度は100％ではない。

機械学習全般に言えますが、予測結果の精度は100%ということはなく、必ず一定の間違いが含まれます。従って、それを前提に業務に応用をしていく必要があります。

✔学習できるデータの質と量によって、予測精度は変わる。

一般的にデータは多い方が良いのですが、データに偏りがある場合、ディープラーニングはその偏りそのものも学習してしまいます。そのためデータの質そのものも大切になります。あるカメラの目つぶり検出機能において、アジア人の表情を目が開いているにも関わらず、目を瞑っていると判別したことがありました。これはおそらく目が細めのアジア人ではなくもともと目が大きい人種のデータを学習に多く使ったことが考えられます。ディープラーニングにはこうした制約があることも意識しておきたいものです。