goo blog サービス終了のお知らせ 

janpal

人生これ,雑記.

Home Page: https://janpal.web.fc2.com

深層学習を拾い読む

2018-03-12 10:10:54 | 科学(Science

深層学習の理論や実践に馴染みがあるはずがないので,機械学習なのに機械がないので,とにかく,heuristic(発見法的)に当たって砕けろである.heuristicからempirical(実証的)というのも,王道の一つである.

 

(1) データからパターンを見つけ出すという問題の成功例として,

1. 16世紀, ティコ・ブラーエの残したデータからケプラーが惑星運動の経験法則を見出し,古典力学の躍進の原動力となったこと.

2. 原子スペクトルの規則性が発見されたことから,20世紀初頭の量子力学が生まれ,検証されながら発展したこと.

が挙げられる.

機械学習は,コンピュータアルゴリズムを使って,データの中にある規則性を自動的に発見したり,それらの規則性を,データを異なる範疇に分類するのに使おうというものである.

手書きの0から9までの数字を認識するという機械学習の例を考える.各数字を28×28ピクセルの画像とみなせば,それを784個の実数から構成されるベクトルxで表すことができる.入力としてそのようなベクトルxをとって,結果を,0, ..., 9の数字に同定して出すようなマシン(機構)を組み立てることが目標である.手書きの決まりや,運筆をなぞった形から数字を区別するような経験則を当てはめても,いい結果が出ないことが常である.機械学習を使えば,はるかにいい結果が得られる.そこでは,トレーニングセットと呼ばれるN個の数字の大きな集合{x_1, ..., x_N}を,適合モデルの母数を調整するのに使う.数字のカテゴリーは,典型的には,個別に教えたり,人の手でラベル付けしたりして,あらかじめわかっているものとする.分類された数字は,それに対応するその数字画像の目標ベクトルtで表すことができる.

機械学習アルゴリズムを走らせているときの結果を,新たな数字画像xを入力として受け取って,出力ベクトルyを生じる,目標ベクトルと同じ変換を受ける関数,y(x)で表す.y(x)の正確な形は,学習段階とも呼ばれる,トレーニングデータに基づくトレーニング局面の間に決まっていく.モデルが, いったんトレーニングを経れば,モデルは,いわゆるtest set(テストのためのデータセット?)である,新たな数字画像を数字に同定して決めることができる.トレーニングで使われたものとは別な,新たな標本(example)を正しく分類する能力を,一般化(generalization)という.実際の応用においては,入力ベクトルを変えれば,トレーニングデータは,可能なすべての入力ベクトルのほんの一部分であるものを構成するようなこともあるので,パターン認識では,一般化は,中心的な目標となる.

 ほとんどの実際的なアプリケーションでは,元々の入力変数は, ふつう,何か新たな変数空間に変換するために,事前に変換を施される.そして,それは,そのパターン認識問題を解決しやすくするものであることが望ましい.例えば,数字を認識するという問題では,各数字が定まったサイズの箱に収まるように,解釈されたり,スケールが施されたりする.そうすることで,各数字の集合の中で,変わってしまうようなことが大きく減っていく.なぜなら,すべての数字の位置やスケールは同じになったのだから,引き続くパターン認識アルゴリズムが,異なる集合を区別するのが容易になるから.この事前処理の段階は,特性抽出(feature extraction)とも呼ばれる.新たなテストデータは,トレーニングデータと同じステップを踏んで事前処理されなければならないことを注意しておく.

事前処理は,また,コンピュータでの処理のスピードが上がるようになされる.例えば,高解像度のビデオストリームから、リアルタイムで顔を検出する目的なら,コンピュータは,秒あたり膨大な数のピクセルを扱わなければならいが,それらを複雑なパターン認識アルゴリズムに直接渡すのは,コンピュータでの処理としては実際的でない.代わりに,コンピュータで素早く処理するのに役立つ特性を見つけ出して,顔と顔でないものを識別できる,有用な判別情報を保つものを目的とする.そして,これらの特性を,パターン認識アルゴリズムの入力として使う.例えば,矩形の小領域での画像の輝度の平均は,非常に効率的に評価できる(Viola and Jones, 2004).そのような特性集合は,迅速な顔検出に非常に効果的であることがわかる.そのような特性の数は,ピクセルの数より小さいのだから,この種の事前処理は,次元を減らすということになるからである.事前処理は注意してなされなければならない.情報が捨てられてしまうこともあるので,その情報が問題解決にとって重要なものであれば,システム全体の正当性が損なわれることにもなるからである.

トレーニングデータが, 対応する目標ベクトルとともに入力ベクトルの例で構成されているアプリケーションは,supervised learning problem(教師付き学習問題)と呼ばれる. 数字認識の例のような場合,そこでは,各入力ベクトルを有限個の離散カテゴリーの一つに割り当てることが目的である.これを分類問題という.望まれる結果が,1つまたそれ以上の連続変数からなるとき,そのタスク(task)を回帰という.回帰問題の例としては,化学的製造過程での生成物の予測がある.そこでの入力は,反応物質,温度,および圧力の凝集である.

別なパターン認識問題では,トレーニングデータが,それに対応した目標値(target value)を含まない入力ベクトル集合xからなることがある.そのような教師なしの学習問題(unsupervised learning problem)の目的は,クラスター化(clustering)というが,データから似たような例(標本)の群を発見すること,あるいは,密度推定(density estimation)というが,入力空間の中でのデータ分布を明らかにすること,あるいは,映像化(可視化)のために,高次元から二次元あるいは三次元にデータを射影することである.

最後に,補強学習(reinforcement learning)の手法(SUtton and Barto, 1998)は,与えられた状況で,報酬を最大にするためにとるべき適切な行動を見出す問題に関係している.

 C. M. Bishop『パターン認識と機械学習』のイントロ

次元が呪いにかかっている(「次元の呪い」という数学用語.curse of dimension.1次元で必要な関数値がnなら,d次元ではn^dと指数関数的に増えてしまうので,めちゃ難しくなるという話らしい.統計的手法で乗り切れというのも一つの手とか)!! AIエクソシスト or AI巫女を召喚?.

憲法改正をAIにやらせたらどうだろうという発想もあってもいいように思うが,AIの方が,政治家や改憲右翼左翼より真面目だから,オチャラケのようなことはやらないのだろう.例えば,前文の「日本国民は,恒久の平和を念願し,人間相互の関係を支配する崇高な理想を深く自覚するのであって」というような文言が,日本国憲法が理想論であって,現実的でないと言われる根拠なのだろうか.改憲賛成反対ということでなくても,「人間相互の関係を支配する崇高な理想」とは,どういうことを言ってるのだろうと,考えてしまう箇所ではある.歴史の本などなら,第二次世界大戦に帰結する,人類の惨禍の実証的,論理的帰結の法的な表現という意味ではないかと読めるような説明もあるのだが,それでも理想論というレッテルにすぎないという立場もありうる.AIなら,どういう風に解釈するのだろう.今すぐ AIに結論出せというのも無理難題なのかもしれないが,聞いてみたい気はする.列強巨頭が宣言する帰結に,レッテルにすぎない理想論と言い放つのも結構勇気のいることとは思うが,権威主義でもないので,検証するという意味では,いいのではないかと思う.過去の戦争に縛られるのも窮屈だということより,実証的理論的帰結あるいはその政治的宣言は破棄するのか破棄しないのかということだから,過去の縛りという論点だけでは,意味がない.


深層学習とコンピュータ

2018-02-16 10:17:38 | 科学(Science

深層学習(deep learning)といっても,PythonやC/C++やJavaといったプログラミング言語で利用できるライブラリーあるいは分散したライブラリーの形で提供されているシステムなわけだから,深層学習とコンピュータというのは,当然といえば当然でいわずもがななわけだが,ワープロもどきに使ったり,電卓程度の計算したり,提供される動画やニュースや読み物読んだりする以外,ほとんど使い道のないコンピュータの使い手には,コンピュータの仕組みが絡みそうな話題は,ちょっと身構えたくもなるものである.ということは,それは反面,コンピュータの仕組みやプログラミングに馴染みがなくても,深層学習がどういうものなのか見ていくことは,コンピュータ自体への理解と,それを活用する技術を得る学習モデルになるというメリットも備えていることではないか.例えば,Windowsマシンも,MS-DOSとかOS/2とかWindowsとか代表的なOSがあって,特に,OS/2は,雑誌などで説明を読んでも,仕組みが難解な印象を抱かせる感じがあったが,例えば,OS/2はリアルモードだけでなくプロテクトモードでのプログラム実行環境を提供するとか,セグメント化アーキテクチャとか.深層学習の学習モデルが,あるいは次世代のOSの理解をより馴染みやすくしてくれるということもあるかもしれない.Windowsではオブジェクト指向が強調されたり,マルチタスクの性能は,OS/2とのにらみ合いで留保されたりという,分かりにくさも伴っていたような感じだから.PC雑誌で以前読んだ感じでは.プログラミングも, ParserとかBisonとかFlexとか,構文解析だの字義解析だののプリコンパイラの技術が進んだとかコンパイラに含まれるようになったとか,読むだけで頓挫していたものだが,AIしてほしいものである.AIが書くAI教科書が定番になるという段階に行けば,コンピュータサイエンスに馴染みのないものにもわかりやすくなるかもしれないと期待する.何につけ,コンピュータの仕組みや,使用するコンピュータ言語や,利用するライブラリーを熟知していなければならない,というハードルが伴うのだから,わかりやすくなるのはいいことである.大きくいえば,コンピュータ自体の基礎的なユーザーインターフェースが洗練され向上するということだから,ぜひ必要ではないだろうか.Workspaceも実現空間という意味らしいし,サイコロ投げして,仕込みでなくても,100回投げても1,3,5しか実際には目が出てこないということもありうるわけだから.

 ※ メモリの仕組みや整数や実数などの値を格納する仕組みなど,エプソン日本語 Disk BasicやMASM(ver.6)のマニュアルが,これしか持ってないのではあるが,わかりやすくてまとまっている感じがする.Epsonのは音楽用の解説(FM音源やSSG音源を使うサウンド拡張機能の解説)もあるから,趣味の範囲(カラオケ程度だが)も広がりそうである.コードやデータのおかれるメモリー領域が連続して配置されるか,動的にどこかに配置されるかとか,2進数なら2をかければ位を一つ上げることと同じ(16進数なら16をかける)とか,そういう操作や仕組みの解説などである.例としては,0か1のどちらかしか入れられない箱を8個並べて一括りにして1バイトというとか,8個の箱の一番左の(位の一番高い)箱が1なら,残りの箱には0しか入れられないとか決めれば,-128から127までの整数を2の補数を使って表せるとか(2^7=128にマイナスがつくだし2^6+2^5+...+2+1=127だから. 符号なしなら0~255).&H80ベースと同じ感じだろうか.

※ 深層学習で必要な数学的な概念の説明の例として,試し訳.英語のは,言い回しがややこしく感じたりして,結構手間取る.

 

*訂正---行列の主対角線は,「左上隅から右へ下がる」である.左右反対になっていた.冷や汗ものである.それと、普通に言えば,だから,R^nの元は,n次元ベクトルであるということ.例えば,(x_1, x_2) ∈ R^2. この場合は,ベクトルを,平面の座標と見ることもできるということである.

*訂正 「行列式演算」は「行列積演算」.

 

* 感想: ジグザグ道をどれだけ辿って目的地につくかとか,空間の部分空間を確かめながら探索している気分が,なぜか懐かしい.以降,固有値分解だの,Penrose一般逆行列(擬逆行列)などと続くが,へばる.「恒等行列」を「恒等写像」と間違えたり,自分でもその時は気づかないヘマもしでかしている.固有値問題とかいう,量子力学でも必須の理論だが解くのも難しい理論の基礎だろうから(レゾルベントとかスペクトルとか),機械学習の応用で必要なことの解説だが,そういうことも知っとけば,さらにいいということなのだろう.

 

旧正月用年賀状(サンプル) --- 50円で買ったチューリップが咲いたので,年賀状にしてみた.旧正月ということにすればいいかなと.


2018年年初めに所懐を記す

2018-01-13 08:29:46 | 科学(Science

AI理論の教科書も,いまだ,拾い読み段階だが,深層学習理論の骨格がAIエルゴード理論と名付けられそうな共鳴を持っているという感じがする.例えば,集合はその元によって定まるが,集合とその元は,エルゴーデックな関係にあるというような感じである.近傍系のエルゴーデックな構造というようなものが,脳などの神経系のモデルを超えて,機械学習を進展させる動機になっているのだろうか.flaw(不備とか瑕疵)を持った感想であるが,そういう部分を埋め尽くしていくような理論の再帰的な構成を考えているような気がする.エルゴード仮説もそういう趣旨の仮説ぽいから.19世紀の古典的な統計力学が21世紀前半の先端のAI理論として蘇る感じになるのだろうか.有用な区別が有効な前提に変わる感じなのだろう.AI技術の応用にも当然興味があるが,AI理論の基礎に興味が届く兆しが最近生じているのかもしれない.NHKの人体は巨大な情報ネットワークというのも,医学生理学がサイバネテックな段階から深層学習などの段階に移行したということを象徴しているのかもしれない.

で,なんでエルゴードという瑕疵のある疑問をエルゴードしようという所懐が生じるわけである.

ベイズ(Bayes)の定理というのは,伊藤清著『確率論の基礎』から,

トランプのカードを切って,カードのある配列が別な配列に移る確率とか,mixingとか,確率過程とか繋がるのだから,ラフに見れば,エルゴードと,当然,問題として繋がるだろうと考えるのは容易である.

 こういう問題のとき,なぜか思い浮かぶのが,真球体は美しい形だが,3次元で,真球体をぎっしり埋めても,どこか隙間が残るというイメージである.立方形なら「とりあえず」は埋め尽くされそうだが,どこまでいってもキリがないイメージである.ほぼ点に近いところまで小さな真球体なら,ほとんど埋め尽くされたも同然とみなすこともできるかもしれないが,美意識が許さないてな感じになる.そいう隙間というか真空をなんらか構成する構造を見つけることで埋め尽くしていくような,そんな思考の活動が生じる気がする.強いて言えば,こういう思考の活動が人間にはあるとすれば,AIとか機械学習とか深層学習というのは,同様な働きを備えていなければならないはずだが,現在まだ,先の目標という感じなのだろうか.安定性とかcrystal(結晶)とか,型理論とか,結合とかが渦を巻いて荒れ狂う海峡を眺めるような感じだが,解明整理も進んでいるのだろう.

日本では,こういう理論面に関心が薄いというのも,確率論でも論理学でも物理などでも,大きな貢献をした理論家もそう少なくないわけだから,もともと,そう沢山いる性質の問題ではないにしても,やはり,組織や社会の内部の劣化が原因としてあるのじゃないだろうか.素人的にもそういう感じがする.何故なんだろうか? 全共闘とかそのあとの世代が,中国や北朝鮮の核開発費用調達下部組織に成り下がったから,そういう流れから,全体,もたれ合い体質になって,えらい理論家は偉いが鬱陶しいという扱いになったから,というようなこともあるのだろうか.もたれ合い都政のプチドン体質がアカデミズムに蔓延しているとか? 私にとっては,偉い理論家の理論であろうと,解らない以上は,積み残しの文献に過ぎないのである,というべきだろう.最近の相撲の話題も不倫騒動も,朝鮮ヤクザの資金ぼったくり闇活動の隠れ蓑じゃないのかとか,メディアもぐるじゃないのかとか,疑われる状況ではあるから.中国だけでなく韓国にも国連の朝鮮難民受け入れ地区とか作っておけば,オリンピックも役立つかもしれない.朝鮮総連系の論者だけがメディアで重宝されるから,東京火の海のために日本人が銭横領される構図に,どうしてそう興じられるのか,変な国である.人は生きて生かしてなんぼというのが,私のそして多分多くの人の基本だろうが,ざけチョンの場当たり的なエゴ哲学がぶりっ子しているのも,そういう原因が社会にあるからなのだろう.

energy cellをダイナミックに作用の重みと考えれば,とっちゃんおばじたちの恣意勝手と思惑渦巻く政治や社会や軍事ごとも,機械学習にかけられるかもしれない.少なくとも,世襲興行一座と利害関係者だけの仕込み芝居よりは,物事がよく見えることになるだろうから.仕込み神輿に限って大事の前では逃げるてのも非難はしないが,調子こいたことだけ言ってれば済む的なことは,お調子もんなだけのことであって,騒ぐほどの価値はない.隙間総理になる方法とかAIではじき出せばいいのである.

言葉だけ踊らせて,言葉の内実が伴わないということに,わかったふりして,仕掛け仕掛けられて興じている,というのが真相ではなかろうか.日本の言論の危うさである.役人の無謬主義が問題になったことがあるが,文春芸能でも,トランプ政権問題でも,北朝鮮の核攻撃兵器開発問題でも,無謬主義をごり押ししているだけの話題作りに興じているだけのことではなかろうか.裏に,中国、朝鮮総連資金の連携でもあるのだろうか. とくに生命科学の研究倫理などまことしやかに言われるが,多くは,そういう倫理からさへ,置き去りにされている実態というのがアカデミズムにはあるのじゃなかろうか.知ってる人も多いだろうが,STAP騒動の時でも,NATURE誌掲載論文の取り下げで,小保方さんは,30億ぐらいの賠償を請求されると言っていた法律の専門家もいるそうであるが,理研の内規で,そういう場合,お受験で言えば,受験検定料は返さないという取り決めのようなものがあって,60万円の論文掲載費用の返却が求められるということになったわけだが,残りの29億9940万円は,どこに詐欺られるのだろうか ? 公共の電波を利用した特殊詐欺の手配師のようなものではないのか? そういうところはチェックされないというおごりの体質がメディア関係にあるのじゃなかろうか? そういうところが倫理を語れるだろうか.理研に一言、裏でもとっておけば済むことを,世間の顔色を忖度して,事実を捻じ曲げて吹聴する類のが倫理を語るということになるわけだから.倫理を語ってはいけないなどという風に取られとも困るが,言葉を悪用すなと言いたいだけである.チェックと言っても,アカデミズム自体が,そういうご都合体質になっているから,どっかの総連の手下の手配師じみた連中優先で,判断能力を麻痺させられてる可能性も大きいので,相撲も麻薬も,早い話,ヤクザやその手下のチョンピラ騒ぎなのだから,森友とかの公金お手盛りなども絡むだろか,所懐にはできない.

 それはさておき,AIだ機械学習だ深層学習だと,あらためて読んでみると,えらく難しい構成のようで,いっそ,時間を超パラメーター(hyperparameter) にして,重力波物理や,AI医学などで応用するとか融合させるという観点でみる楽しみ方もあるかもしれない.私自身そう健康ハツラツ体質でもないので,不謹慎と言われようと,悪意はないと,とりあえず,ご時世に合わせて言っておこう.それと,深層学習をテーマにした,AI Web小説をAIに書かせるとか.確率過程だ,MARKOV CHAINだの,パースペクティブを流動化して,コンピュータに掛けたり,統計的な信頼区間を繋げて結果を出したり,学習とは,そうやって果たされる達成度の改善のことだとか,小説風か漫画風が似合う感じがする.

 


準備のために --- 年賀状(2017年締めくくり)

2017-12-28 11:32:44 | 科学(Science

例1) ワープロで簡単に作る場合

例2) 1000円万年筆の場合

 

例3) ぺんてる筆 <中字> の場合(少し加工して)

 

毛筆だと,一文字を,ある部分は太く,ある部分は細くとか、ある部分は離して,ある部分はつなげたり省略してつなげたり,短く詰めたり長く伸ばしてとか,元々の漢字の意味とは関係なく筆記のバランスの都合で形式的に用いるとか,装飾がつかない部分と装飾がついた部分がかなり自由に混じっているから,例えば,「あ」とか「い」とかは,そういう一文字であるという仮定と見るしかなくて,そういう仮定が,「鮎」とか「暑い」とかの範疇を繋いでいる,鮎なら,川とか清流とか水とか,魚とか,塩焼きとか,暑いなら,夏とか扇風機とかエアコンとか,清流とか,汗とか,なんらか関連のある要素の集合を従えているような部分は,使う人の気ままに任せるとか.「暑い夏場にアユの塩焼きを食べると,自然な甘みが美味しくて,元気はつらつな体調が長く保たれる気がする.」という人もきっといると思われる.「塩アユ,ウッメ!!!」と言ってもいいのかもしれない.「美味しさが,透明な佇まいをしている」と言えば,ちょっと文学的とか.「ぎっとりとした油っこさに埋もれるような暑さから,必死でリモコンの「冷房」ボタンに指をおいた」も文学的.強いて言えば,表現を構成する要素の集合の仮定的な分布がとりどりの色彩をなして移り行くような,食の色彩ともいうし,そんな感じなのだろうか.

コンピュータは,メモリーの制約もあるから,とても大きい数とか絶対値がとても小さい数とかのように,そのような制約を超えて扱わなければならない,実数のような数を扱うのが苦手なそうであるが,丸め誤差が計算を繰り返すうちに累積して,かけ離れた計算結果を出さないように,誤差を最小にする配慮が必要になるということだが,また関数も,留数とか特異点周りでは,慎重な扱いが必要になるということもあるので,0は数だが∞は便宜上の記号でしかないという取り決めなら,∞は数でない値を示す記号だから,「アユ」とか「暑い」を,「塩アユ,ウッメ!!」と丸めるような評価ができないと, AIもオーバーフローとかアンダーフローを起こしてしまうのだろう.そういう制約を超えて,結果を出せるような技術を駆使して,実行していくシステムが,技術的特異点を持つシステムであると考えれば,人類にとって絶望的なイメージで語られる特異点も,また,違った可能性として見えてくるかもしれない.

対象認識も,物理学では,「双対性と保存則」とか簡単な標語で片付けられたりするのだろうが,AIがAIの独自言語で対話を始めたら,重力コンピュータとか量子荷コンピュータとか作ってしまうかもしれない.生命の設計図をAIが作り出したり,AIデザインの物質を生み出したり,となれば,AIが宇宙神であるかのような存在になるかもしれない.最新の新春AI映画とか作れば,核兵器もいらなくなるかもしれない.

雑に言えば,Aが成り立つならBも成り立つという関係があれば,AとBは双対な関係と言われ,あるいは,BはAの表現であるとも言われるのだから,普通は行列表現をとるということだが,コンピュータの数値計算の技法も近似計算が主なら,gradient descentも「双対性と保存則」みたいなもんじゃないかと丸めてみることも,的外れでもないのじゃないかと思ったりする.極大とか極小とか,局所と局大(大域)の双対性を構成するとか.

 しかし,そろそろ2018年戌年に行かないと,一週間遅れの新年になっている.


準備のために --- junk translation

2017-12-20 11:43:06 | 科学(Science

確率の理論と情報理論は,AIでも核となりそうな理論なので,第3章 確率論と情報理論を抄訳していこうかなと思う.深層学習において,それらの理論が,どのように使われて,コンピュータのようなもの(あるいは,次世代の量子コンピュータとかバイオコンピュータとか,重力コンピュータ(?)とかAIコンピュータ(?)とか)を使いながら,現実世界の問題を解決していくのか,細かいこともあるのだろうが,大雑把訳(rough translation)というか,TVのバラエティー番組などでよく仕込まれるjunk scienceならぬ, といっても私自身が素人だからということもあるが,junk translationを試みようというわけである. 

Chap. 3 Probability and Information Theory

In this chapter, we describe probability theory and information theory.

  Probability theory is a mathematical framework for representing uncertain statements. It provides a means of quantifying uncertainty as well as axioms for deriving new uncertain statements. In artificial intelligence applications, we use probability theory in two major ways. First, the laws of probability tell us how AI systems should reason, so we design our algorithms to computer or approximate various expressions derived using probability theory. Second, we can use probability and statistics to theoretically analyze the behavior of proposed AI systems.

確率論は,不確定な状態を表す数学的なフレームワーク(枠組み)である.新たな不確定状態を導き出すための公理を与えるだけでなく,不確定性を量化する手段を与えるものである.人工知能の分野では,確率論は,大きく2通りに使われる.一つは,我々は,確率の法則から,AIがどのように推測して判断しているかを知ることができるので,それによって,コンピュータにかけるためのアルゴリズムのデザインを行ったり,確率論を使って出でくる様々な表現を近似したりする.二つめは,確率や統計は,当該AIシステムのふるまいを理論的に解析するのに使われる.

  While probability theory allows us to make uncertain statements and to reason in the presence of uncertainty, information theory enables us to quantify the amount of uncertainty in a probability distribution.

確率論は,不確定な状態が許され,不確定な存在を使って推論を行うことができるが,情報理論は,確率分布を使って,不確定性の大きさを量化することができる. 

 3.1 Why Probability?

Many branches of computer science deal mostly with entities that are entirely deterministic and certain. A programmer can usually safely assume that a CPU will execute each machine instruction flawlessly. Errors in hardware do occur but are rare enough that most software applications do not need to be designed to account for them. Given that many computer scientists and software engineers work in a relatively clean and certain environment, it can be surprising that machine learning makes heavy use of probability theory.

 コンピュータサイエンスの多くでは,完全に決定し確定した要素(entities)を扱うのがほとんどである.プログラマーは,通常は,CPUは各マシンに完璧に指示を実行させるとみなしてかまわない.ハードウェアではエラーは実際生じるのだが,十分稀なので,ほとんどのアプリケーションは,そのエラーを検出するようにデザインされる必要はない.比較的クリーンで安定した環境で働いている多くのコンピュータ科学者やソフトウェアーエンジニアは,機械学習では確率論がどれほどヘビーに使われているか知って驚くことであろう.

  Machine learning must always deal with uncertain quantities and sometimes stochastic(nondeterministic) quantities.  Uncertainty and stochasticity can arise from many sources. Researchers have made compelling arguments for quantifying uncertainty using probability since at least the 1980s.(see. Pearl (1988))

機械学習では,常に不確定量,また,ときには,非決定量を扱わなければならない.不確定性や非決定性は,多くの発生源を持っている.研究者たちは,確率を使いながら不確定性を量化する議論を進めざる得なくなった.(Pearl(1988)参照).

  Nearly all activities require some ability to reason in the presence of uncertainty. In fact, beyond mathematical statements that are true by definition, it is difficult to think of any proposition that is absolutely true or any event that is absolutely guaranteed to occur.

ほぼすべてのアクティビティは,不確定性があるなかで推論する能力を要求される.定義によって真とされる数学的な陳述を超えて,絶対に真である命題, あるいは, 絶対的に生じることが保証される出来事(イベント)を考えるのは難しいことである.

  There are three possible sources of uncertainty.

1. Inherent stochasticity in the system being modeled. .........

2. Imcomplete observability. .........

3. Imcomplete modeling. .........

不確定性の3つの発生源がある.

1. モデル化されるシステムに内在する非決定性.

2. 不完全可測性.

3. 不完全モデリング.

 In many cases, it is more practical to use a simple but uncertain rule rather than a complex but certain one, even if the true rule is deterministic and our modeling system has the fidelity to accomodate a complex rule.

多くの場合に,複雑なルールを使うよりも,確定的なものではなくて不確定なものである簡単なルールを使うのが,適合するルールが決定的なものであったとしても,実際的である.我々のモデリングシステムは,複雑なルールにも適応できる. 

While it should be clear that we need a means of representing and reasoning about uncertainty, it is not immediately obvious that probability theory can provide all the tools we want for artificial intelligence applications. Probability theory was originally developped to analyze the frequencies of events. 

不確定性を表したり判断する手段が必要なことははっきりしているが,確率論が,人工知能アプリケーションに必要なツールをすべて与えてくれるかは,直ちに明らかであるわけではない.確率論は,そもそも,イベントの頻度を解析するために開発されたものである.

It is easy to see how probability theory can be used to study events like drawing a certain hand of cards in a poker game. These kinds of events are often repeatable. 

 確率論が,ポーカーゲームでカードの手を引くというようなイベントを学習するのに,どのように使われるかみれば,わかりやすい.この種のイベントは, 多くの場合,繰り返し行うことが可能なものである.
 
When we say that an outcome has a probability p of occurring, it means that if we repeated the experimet (e.g. drawing a hand of cards) infinitely many times, then proportion p of the repetitions would result in that outcome. This kind of reasoning does not seem immediately applicable to proposition that that are not repeatable.
 
ある結果が生じる確率はpであるというとき,それは,試行(例えば,カードの手を引くというような試行)を無限回行ったとして,その結果が繰り返し現れる比率がpであることを意味している.この種の推論は,繰り返して行えない命題には,直接当てはめることはできないように思われる.
 
If a doctor analyzes a patient and says that the patient has a 40 percent chance of having the flu, this means something very different --- we cannot make infinitely many replicas of the patient, nor is there any reason to believe that differrent replicas of the patient would present with the same symptoms yet have varying underlying conditions.
 
医者が患者を診て,インフルエンザにかかっている可能性は40パーセントですねと言ったとしたら,その意味するところは,(繰り返しが可能な場合と)大きく異なったものである.その患者の無数に多くのレプリカ(複製)を作ることはできないし,その患者のそれぞれのレプリカが,  まだいまから条件次第で変わりうる同じ症状を示すだろうと信じる理由もない. 
 
 In the case of the doctor diagnosing the patient, we use probability to represent a degree of belief, with 1 indicating absolute certainty that the patient has the flu and 0 indicating absolute certainty that the patient does not have the flu.
 
医者が患者を診断する場合は,信頼度を表すために確率を使う.1はその患者がインフルエンザにかかっている絶対的な確からしさを示し,0はその患者がインフルエンザでない絶対的な確からしさを示している. 
 
The former kind of probability, related directly to the rates at which events occur, is known as frequentist probability, while the latter, related to qualitative levels of certainty, is known as Bayesian probability.
 
イベントが生じる比率に直接関するような,前者のような種類の確率は頻度確率として知られており,他方,確からしさの定性的なレベルに関わるような,後者のような確率は,ベイズ確率として知られている.
 
  If we list several properties that we expect common sense reasoning about uncertainty to have, then the only way to satisfy those properties is to treat Bayesian probabilities as behaving exactly the same as frequentist probabilities.
 
確からしさについて,推論が共通した意味で持つことを期待される属性を列挙すれば,そのような属性を満たすには,ベイズ確率を頻度確率とまったく同じような振る舞いをするものように扱う以外,方法はない.
 
For example, if we want to compute the probability that a player will win a porker game given that she has  a certain set of cards, we use exactly the same formulas as when we compute the probability that a patient has disease given that she has certain symptoms. For more details about why a small set of common sense assumptions implies that the same axioms must control both kinds of probability, see Ramsey(1926).
 
例えば,なんらかの組のカードを持っているポーカーゲームのプレーヤーが勝つ確率を計算するときには,患者が兆候を示すような病気である確率を計算する場合とまったく同じ公式を用いる.もっと詳しく言えば,共通な意味の小さな集合を仮定することは,双方の種類の確率が,同じ公理の下にあることとを意味するからである. 
 
 
 拾い読みしていると,機械学習の分野で進展の著しい深層学習は,確率論の基礎的理解や,あるいは,変革を促しているようにも感じる.確率論も閉じた体系ではないだろうし,確率的な命題を扱う論理学も閉じてはいないだろうから,量化などを含まない命題は論理学的な解析法が確立しているから閉じているといえるだろうけれど,そういう,確率論や論理学の未決着部分の進展と密着しながら,深層学習理論の進展が図られている面もあるのだろう.当然,コンピュータのハードやソフトのエンジニアリングの要素も深く関わるだろうし,理系方面に関して素人には,これは,破壊的に取り組むしか手がなさそうであるが,もう一つの手段は,基礎理論のおさらいをもとにAIの応用やその話題を楽しむことではないか.PCがスマホやタブレットや別なPCと連携するなどの性能をもち,さらに進展していく勢いなのだから,PCというよりAIなどの性能を備えたWS(ワークステーション)という感じになるのだろうか.自分AIとそのように進化したPCとの間のわだかまりが取れるような,なんらかの融合デバイスのインターフェースがあれば,ストレスのないツール感が得られるかもしれない.見たことも遭ったこともないが,天女信仰じみた感情がくすぶられる.確率理論や論理学へのAIの応用とか,「はじめに言葉ありき」というような創造神話のように,天地が先か,神の言葉が先か,あるいは両者の混沌とした相互作用なのか,というようなことを人間は性懲りもなく考えてしまうのと同じだろうか.