ディープラーニングは「画像認識」が得意なワケ、その秘密は「ネオコグニトロン」?
ビジネス+IT 210506 フリーライター:三津村直貴
ディープラーニングが誕生し、最初に活躍したのは画像認識の領域でした。ディープラーニングがなぜ画像認識に強かったのか、そして登場直後のディープラーニングはどのようにしてその性能を発揮したのか、簡単に解説していきましょう。
ディープラーニングによる画像認識の仕組みとは…?
⚫︎人間の視覚神経を参考に作られた「ネオコグニトロン」
ニューラルネットワークの研究が進む中で、ディープラーニングよりも先に「ネオコグニトロン」と呼ばれる人間の視覚神経を参考にした多層ニューラルネットワークが日本の研究者である福島邦彦氏によって考案されました。
ネオコグニトロンは、ニューラルネットワークの階層ごとに、それぞれ「特徴を抽出する層」や「曖昧さや誤差を吸収する層」などの役割で分かれており、これにより手書き文字認識などに高い性能を発揮します。
この発想は手書き文字認識以外にも画像認識の分野に役立ちます。
たとえば,ディープラーニングにおける「畳み込みニューラルネットワーク」(CNN:Convolutional Neural Network)は,このネオコグニトロンのアイデアを参考にしており,「画像の特徴を抽出しつつ、無駄な情報を省いて情報を圧縮する」といったニューラルネットワーク内の情報処理に活用されています。
⚫︎ディープラーニングが注目されるキッカケ「Super Vision」
そして、ディープラーニングが最初に注目されたのは2012年に開催された画像認識の競技会「ILSVRC(ImageNet Large Scale Visual Recognition Challenge)」でのことでした。
ディープラーニングの考案者であるトロント大学のジェフリー・ヒントン氏のチームが開発したディープラーニング活用した画像認識システム「Super Vision」が出場し、ここで圧倒的な成績を残したのです。
競技会で行われた種目は,画像に写っているものが何かを判別する「分類」と,それがどこにあるのかを特定する「位置特定」の2つでした。大半のAI(人工知能)は分類の正答率が70%台前半,「分類」+「位置特定」では50%未満というレベルでしのぎを削っていました。
ところが,Super Visionは「分類」の種目で85%近い成績を上げ,「分類」+「位置特定」の種目でも67%前後のスコアを記録したのです。これは100m走のタイムを10秒台で争っている中で1人だけ9秒台を叩き出すような,圧倒的な差であり,まさに衝撃だったのです。
⚫︎画像認識における大きな課題
ちなみに、画像認識において、「何の画像か」を分類できるのにもかかわらず、画像のうち、「対象物が写っている場所」を特定することは難しい技術でした。それは、機械学習ならではの理由があります。
たとえば、船を映したほとんどの写真には、船以外に海や湖が映り込んでいます。そうした、海や湖も映り込んだ船の写真を見せられて、「これは船の写真だ」とAIに教えたとしても、背景に映る海や湖が「船」自体に関係あるかどうかは、AIには判別できません。
この「船と海は別物である」という人間にとっては当たり前のことを学ばせるには、AIに事物の「概念」を教えなければなりません。この概念の学習は、単純な分類に比べるとはるかに難しく、AIにおいてはある種の鬼門になると考えられていました。しかし、その壁も越えることに成功します。
⚫︎「対象物」を判別できるカラクリ
厳密に言えば、オントロジー的な事物の意味内容を含めた「概念」ではないのですが、ディープラーニングを使ったAIは、「猫」という存在を「ほかの動物とは違う何か」といったように、人間によって定義されなくとも理解することに成功しています。
具体的に言えば、猫が映った画像を「どれが猫か」と教えることなく「教師なし学習」によって学習させ、学習が終わったニューラルネットワークを調べてみると、そこから猫の姿形が出てきたのです。
これが意味するところは、ニューラルネットワークは猫の特徴を正しく学習できたということなのですが、重要なのは“特徴に関する情報や猫の存在を人間が教えていない”というところです。映像を見たニューラルネットワークは、その中に「ほかとは違う存在である猫」を見出し、その特徴を学んだという点が大きな成果です。
人間や子供が視覚から他人や動物の存在を認識したり、そこに名前をつけたり、生態を研究したりするのはそれが「固有の存在」であることが分かっているからです。それに近いことをAIが行ったというのは、AI研究においては大きな進歩となりました。
また、 別の記事でも扱っていますが、事物の概念は知識表現やオントロジー的な手法によってもAIに教えることができます。こちらは言語や記号を使って人間が定義した事物の概念を教え込む手法なので、視覚的に事物の概念を理解するニューラルネットワークのアプローチはまた違った手法と言えるでしょう。
⚫︎音声認識と組み合わせて進化を続けるディープラーニング
画像認識のほかに、ディープラーニングは音声認識の分野でもすぐに成果を上げました。これは音声の波形をオシロスコープなどに表示している様子で考えると分かりやすいでしょう。
音は空気の振動なので、時間軸と音圧軸(空気の密度変化)を測定すれば、二次元グラフで表現することができます。これを画像認識に近い要領で学習させれば、それだけでもある程度の認識能力が得られます。
ただ、人間の言葉は同じ単語でも話し手によって波形は異なりますし、文脈や状況によっても発音やイントネーションが変化します。発音が少しでもなまっていると認識しにくかったり、早口でしゃべる人の言葉は理解できなかったりすることがよくありました。
こうした問題を解決するには音声認識だけではなく「自然言語処理」の技術の進歩も待たなければならなかったのですが、それについてはまた別の記事で扱いましょう。
現在では、動画と音声を組み合わせて「何が起こっているのか」というレベルで事象を認識することもできるようになっています。そして、それを知識表現と組み合わせ「誰が何をしている」という段階にまでつなげることができるようになりつつあります。まだまだ人間の知識量や認識力には総合的には及びませんが、ディープラーニングによって着実に進歩していることはたしかです。