goo

概念の出現

 コットレルさんの顔認識ネットワークの第二層で形成されたホロン画像は、顔のまったく全体論的な特徴ないし次元であるように思われた、とチャーチランドさんは指摘01します。そして彼は、その訓練されたネットワークの第二層の細胞によって構成される80次元の空間を図示しています(下図参照)。もちろん、要点を視覚的につかめるようするために、80次元のうち77次元を省略し、典型的な3つの次元だけで済ませていますが。


学習後の第二層ニューロン活性化空問の階層的分割構造(略図)*01

 ここで注目すべきことは、ネットワークの訓練により、この空間をふたつの領域に分ける仕切りがあることだ、とチャーチランドさんは指摘します。すなわち、この空間は、主として顔をコード化する大きな領域と、主として顔でない対象をコード化する、原点近くの小さな領域に分けられる、というのです。この後者の領域が非常に小さいのは、第二層の細胞が顔でない入力に対してはほとんど反応しないからで、第二層の活動がおもに顏の識別に費やされるように、結合の重みが配置されているからだ、と彼は説明します。
 顔の領域には、さらにそれを男の顔と女の顔に分ける仕切りがあり、このふたつの領域はほぼ同じ大きさで、それは双方の領域におけるネットワークの識別力がほぼ等しいことを反映している、と彼はいいます。ネットワークはほぼ同数の男と女の顔によって訓練されていましたから、これは驚くに当たらない、というのです。
 このような、第二層の細胞の活性化空間の分割は、チャーチランドさんがいうように「カテゴリーとしかよびようがない」ものですが、それらはネットワークの訓練中に次第に出現し安定化したものなのです。
 このような階層的に仕切られた領域の出現により、ネットワークが習得する認識・識別の技能を、たんにシナプス結合の観点からではなく、それを越えたさらなる観点から記述し説明することが可能になった、とチャーチランドさんはいいます。ネットワークが訓練中に作り出していくのは、ひと組の初歩的な概念、適切な種類の多様な感覚入力によって活性化される概念であり、認知的な生き物における概念の出現とは、学習によるニューロン活性化空間の分割にほかならない、というのです。

01認知哲学-脳科学から心の哲学へ/ポール・M・チャーチランド/信原幸弘・宮島昭二訳/産業図書 1997.09.04

 

コメント ( 0 ) | Trackback ( 0 )

顔の全体論的な次元を表すもの

 コットレルさんの顔認識ネットワークの第二層の80個の細胞に投影され、「重みづけ」がなされて第三層に出力されたものを、ジャネット・メトカルフェさんはホロンHolonと名付けました。
 このホロンとはなんなのか、どんな特徴をもっているのか、引き続きチャーチランドさんの解説01を引用しましょう。
 第二層で形成されたホロン画像は、鼻の長さや口の大きさ、両眼の距離、といった局所的な顔の特徴に焦点を合わせているのではありませんでした。それは、各細胞が入力層の全表面を包含し、顔の孤立的な特徴ではなく全体的な構造を表現したものだったのです。ここで選択された選好刺激(この細胞がもっとも好む入力パターン)は元の訓練セットに含まれていた個々の顔とは一致しませんでした。むしろ、それらの選好刺激は、顔のまったく全体論的な特徴ないし次元であるように思われた、とチャーチランドさんは指摘しています。
 日常言語には、このような次元を表す適当な言葉が存在しませんが、それにもかかわらず、ある顔が入力層に提示されると、これら80個の全体論的な特徴がそれぞれ、さまざまな程度に活性化され、その結果、第二層においてその顔に特有の活性化ベクトルが形成されていったのです。
 また、入力層に同じ人の異なる写真が提示されても、第二層の細胞は本質的に同じ活性化ベクトルを形成し、そのため、第三層の出力細胞はその人を正しく同定することができたのです。
 入力画像の各画素は第二層のすべての細胞にそれぞれ微小な影響を及ぼします。つまり、各画素の情報は第二層の全細胞に分散されるのです。また、第二層の各細胞は入力層全体に関して少なくとも一部の重要な情報を含んでいます。したがって、細胞とシナプスがネットワーク全体にわたって散在的に失われても、ネットワークは多少の機能低下を起こすだけで、なお非損傷状態に十分近い機能水準を維持することができたのです。
 コード化された表現およびその変形の両方がネットワーク全体にわたって広く分散されているので、表現についても変形についても「ボトルネック」となるところが存在していない、とチャーチランドさんは指摘します。つまり、そこに損傷が起こるとネットワークの機能が大きく低下するような簡所は存在しない、というのです。


左:帯によって五分の一隠した顔の入力画像。
右:コットレルの圧縮ネットワークの中間層における表現は、隠された入力領域を、残りの部分と整合的な特徴で補充する*01

01認知哲学-脳科学から心の哲学へ/ポール・M・チャーチランド/信原幸弘・宮島昭二訳/産業図書 1997.09.04

 

コメント ( 0 ) | Trackback ( 0 )

Holon

 コットレルさんの顔認識ネットワークの振舞いは最終的にすばらしいレベルに達した01とチャーチランドさんは評します。訓練セットの写真については、顔性、性別、誰の顔かに関して、正解率は100%でした(これは当初の目標どおりの成果といっていいでしょう)。ところがこの顔認識システムは、そのほかにも、まったく新しい対象や人物についてもその顔性と性別(その人の名前[コード番号]については当然ながらわかりませんが)に関して高い確率で正解したのです。さらに特筆すべきは、「既知の」人の顔を五分の一だけ水平の帯で隠した場合でも、ネットワークの成績はほとんど落ちなかった01というのです。
 この成果を受けてチャーチランドさんは次のような問いを発します。
 この訓練されたネットワークは、いったいどんなふうにして、このようなことを成し遂げたのか。この驚くべき技能を実現するために、ネットワークの内部でどんなことが起こっているのか。
 コットレルさんたちのさらなる研究成果に対するチャーチランドさんの説明01を引用し、この問いについて話をすすめていきたいと思います。
 まず、チャーチランドさんは、コットレルさんのネットワークの第二層にある80個の細胞に着目しています。人間の「網膜」にあたる第一層の入力層は64×64画素に相当する4096個のグリッド細胞からなっていて、各細胞は256段階の異なる活性化度合い(すなわち「明度」)を示すことができました。そして各入力細胞は第二層の80個の(標的)細胞すべてに対して、出力装置である軸索の枝を放射状に伸ばし接続しているのです。つまり第二層の80個の細胞のそれぞれには、入力画像を80分割した断片が投射されているのではなく、入力画像の全体像が80の細胞ひとつひとつに投射されていたのです。そこに逆伝播法によって最適に調整された「重み」が個々に加算されていたのです。
 では、ネットワークの第二層の細胞によってコード化されたのは、顔のどんな特徴なのでしょうか。言い換えればネットワークが訓練期間中、容赦ない圧力(調整の繰り返し)にさらされながら、次第に見出していったのは、どんな有効なコード化方法だったのでしょうか。
 これについては、コットレルさんのこのネットワークでは、中間層の80個の細胞すべてに対して、この問いにはっきりした明確な答えを与えることができました。それは、このネットワークを訓練したコンピュータ内では、ネットワーク内のどのふたつの細胞についても、それらをつなぐシナプス結合の正確な値を知ることができたからです。
 それぞれの顔細胞に対するネットワークの最終的な入力配置を読み出すことによって、その細胞の最適な刺激を構成する網膜入力パターン(これは、この細胞がもっとも好む入力パターンという意味で、その細胞の選好刺激(preferred st imulus)と呼ばれています)を再現できたのです。そしてじっさい、私たちが自分の目で見ることができるような、画像の形で、それを再現することができたのです。
 コットレルさんの共同研究者であるジャネット・メトカルフェ(Janet Metcalfe)さん02は、こうして再現されたものに、入力層全体にわたる選好刺激の拡散的性格を表すものとして、ホロンHolonという名称を与えました。


ホロンの六つの例。これらは顔認識ネットワークの第二層にある細胞の選好刺激の例です。各選好パターンが入力空間全体にわたっている点に注意。01

01認知哲学-脳科学から心の哲学へ/ポール・M・チャーチランド/信原幸弘・宮島昭二訳/産業図書 1997.09.04

02EMPATH: Face, Emotion, and Gender Recognition Using Holons. /Garrison W. Cottrell, Janet Metcalfe:/1990


 

コメント ( 0 ) | Trackback ( 0 )

暫定的で力ずくな方法

 人の顔を認識するコットレルさんのニューラル・ネットワーク01では、シナプス結合の重みづけ配置を見つけるために逆伝播法(backpropagation)を採用していました。その大まかな手続きは、チャーチランドさん02によれば次のようなものでした。 
 まずAさんの写真を入力層に投影します。当然その写真に顔が映っていることやAさんの性別、人名を表すコード番号はわかっています。最終的に重みづけを調整して出力層にAさんのそれらを示すコードが表示されればよいことになります(出力層の8つの細胞の最初の一つは顔性(人の顔であるか否か)、2・3個目は男・女の性別、残りの5つが人名のコード番号を出力するように調整されています)。
 最初は、シナプスの重みをすべて、ランダムに、正(興奮性)か負(抑制性)のあまり大きくない値に設定し、出力層に出力された値を確認します。この実際の出力を目標の出力(正解のコード)と比べると当然ながら大きな誤差があるのがわかります。
 そこで目標ベクトルの各成分から実際のベクトルの対応成分を引き、さらにこの八つの誤差をそれぞれ二乗して小さな誤差に対する大きな誤差の相対的重要性を際立たせます(小さな誤差は耐えられますが、大きな誤差はただちに修正されなければなりません)。この八つの二乗誤差の平均は平均二乗誤差とよばれ、これを減らすことによって正解に近づけていくのです。


出力層における平均二乗誤差の計算02

 具体的には、ネットワークのシナプスの重みのうちひとつ以外はすべて最初の値(ランダム)のまま一定に保ち、残るひとつの重みを少しずつ増減させ、出力ベクトルを目標ベクトルに近づけていく、という作業をします。ひとつの重みを少し変えて若干誤差を減らした後、今度は、そのすぐ隣の結合の重みに焦点を移して、まったく同じ手続きを繰り返します。この後、さらにこの長々とした手続きを第二、第三、等々のものに繰り返していくのです。
 もちろん、これらベクトルの提示から誤差の計算、重みの反復調整に至るまで全作業を在来型の直列コンピュータに任せることができます。
 すなわちコンピュータは各入力を生徒であるニューラル・ネットワークに提示して、各出力に含まれる誤差を計算し、上記の原理に従って重みを調整していくことになります。ネットワークの出力の平均二乗誤差が可能な限り小さくなるまで、つまり、訓練セットに対するネットワークの振舞いが「頂点に達する」まで、訓練セットのすべての入出力ペアにわたって、この手続きをコンピュータに繰り返させるのです(この手法を「教師あり学習」と呼んでいます)。
 実はこの逆伝播法(backpropagation)の考え方は、ローゼンブラットさんがパーセプトロンを発表した1960年代からすでに知られていた手法でしたが、計算の技術的課題やコンピュータの処理能力の問題で、何度も再発見されてきた手法でもありました。ネットワークの複雑さによって違いますが、この作業に要する時間は、最高級の機械で計算しても、何時間、何日、あるいは何週間、何カ月にもなる場合があり、コンピュータの計算能力に依存した、いわば力ずくの処理方法でもあったのです。
 チャーチランドさんは、シナプス結合の重みづけ配置を見つけるためのこうした手法は、経験の圧力に応じてネットワークのシナプスを絶えず調整するという点では、生物学的な実在性がある、といいます。ところが、残念ながら、その他の点では、ほぼいかなる点においても、生物学的な実在性がなく、あくまで脳の実際の学習手続きが見つかるまでの暫定的手法にすぎない、と述べています。しかしそれでも、それによって、目指す技能つまり変形能力をほんとうに学習したネットワークが得られる、というのです。

01Categorization of faces using unsupervised feature extraction/Garrison W. Cottrell  M.K. Fleming /1990

02認知哲学-脳科学から心の哲学へ/ポール・M・チャーチランド/信原幸弘・宮島昭二訳/産業図書 1997.09.04

 

コメント ( 0 ) | Trackback ( 0 )