確率の理論と情報理論は,AIでも核となりそうな理論なので,第3章 確率論と情報理論を抄訳していこうかなと思う.深層学習において,それらの理論が,どのように使われて,コンピュータのようなもの(あるいは,次世代の量子コンピュータとかバイオコンピュータとか,重力コンピュータ(?)とかAIコンピュータ(?)とか)を使いながら,現実世界の問題を解決していくのか,細かいこともあるのだろうが,大雑把訳(rough translation)というか,TVのバラエティー番組などでよく仕込まれるjunk scienceならぬ, といっても私自身が素人だからということもあるが,junk translationを試みようというわけである.
Chap. 3 Probability and Information Theory
In this chapter, we describe probability theory and information theory.
Probability theory is a mathematical framework for representing uncertain statements. It provides a means of quantifying uncertainty as well as axioms for deriving new uncertain statements. In artificial intelligence applications, we use probability theory in two major ways. First, the laws of probability tell us how AI systems should reason, so we design our algorithms to computer or approximate various expressions derived using probability theory. Second, we can use probability and statistics to theoretically analyze the behavior of proposed AI systems.
確率論は,不確定な状態を表す数学的なフレームワーク(枠組み)である.新たな不確定状態を導き出すための公理を与えるだけでなく,不確定性を量化する手段を与えるものである.人工知能の分野では,確率論は,大きく2通りに使われる.一つは,我々は,確率の法則から,AIがどのように推測して判断しているかを知ることができるので,それによって,コンピュータにかけるためのアルゴリズムのデザインを行ったり,確率論を使って出でくる様々な表現を近似したりする.二つめは,確率や統計は,当該AIシステムのふるまいを理論的に解析するのに使われる.
While probability theory allows us to make uncertain statements and to reason in the presence of uncertainty, information theory enables us to quantify the amount of uncertainty in a probability distribution.
確率論は,不確定な状態が許され,不確定な存在を使って推論を行うことができるが,情報理論は,確率分布を使って,不確定性の大きさを量化することができる.
3.1 Why Probability?
Many branches of computer science deal mostly with entities that are entirely deterministic and certain. A programmer can usually safely assume that a CPU will execute each machine instruction flawlessly. Errors in hardware do occur but are rare enough that most software applications do not need to be designed to account for them. Given that many computer scientists and software engineers work in a relatively clean and certain environment, it can be surprising that machine learning makes heavy use of probability theory.
コンピュータサイエンスの多くでは,完全に決定し確定した要素(entities)を扱うのがほとんどである.プログラマーは,通常は,CPUは各マシンに完璧に指示を実行させるとみなしてかまわない.ハードウェアではエラーは実際生じるのだが,十分稀なので,ほとんどのアプリケーションは,そのエラーを検出するようにデザインされる必要はない.比較的クリーンで安定した環境で働いている多くのコンピュータ科学者やソフトウェアーエンジニアは,機械学習では確率論がどれほどヘビーに使われているか知って驚くことであろう.
Machine learning must always deal with uncertain quantities and sometimes stochastic(nondeterministic) quantities. Uncertainty and stochasticity can arise from many sources. Researchers have made compelling arguments for quantifying uncertainty using probability since at least the 1980s.(see. Pearl (1988))
機械学習では,常に不確定量,また,ときには,非決定量を扱わなければならない.不確定性や非決定性は,多くの発生源を持っている.研究者たちは,確率を使いながら不確定性を量化する議論を進めざる得なくなった.(Pearl(1988)参照).
Nearly all activities require some ability to reason in the presence of uncertainty. In fact, beyond mathematical statements that are true by definition, it is difficult to think of any proposition that is absolutely true or any event that is absolutely guaranteed to occur.
ほぼすべてのアクティビティは,不確定性があるなかで推論する能力を要求される.定義によって真とされる数学的な陳述を超えて,絶対に真である命題, あるいは, 絶対的に生じることが保証される出来事(イベント)を考えるのは難しいことである.
There are three possible sources of uncertainty.
1. Inherent stochasticity in the system being modeled. .........
2. Imcomplete observability. .........
3. Imcomplete modeling. .........
不確定性の3つの発生源がある.
1. モデル化されるシステムに内在する非決定性.
2. 不完全可測性.
3. 不完全モデリング.
In many cases, it is more practical to use a simple but uncertain rule rather than a complex but certain one, even if the true rule is deterministic and our modeling system has the fidelity to accomodate a complex rule.
多くの場合に,複雑なルールを使うよりも,確定的なものではなくて不確定なものである簡単なルールを使うのが,適合するルールが決定的なものであったとしても,実際的である.我々のモデリングシステムは,複雑なルールにも適応できる.
While it should be clear that we need a means of representing and reasoning about uncertainty, it is not immediately obvious that probability theory can provide all the tools we want for artificial intelligence applications. Probability theory was originally developped to analyze the frequencies of events.
不確定性を表したり判断する手段が必要なことははっきりしているが,確率論が,人工知能アプリケーションに必要なツールをすべて与えてくれるかは,直ちに明らかであるわけではない.確率論は,そもそも,イベントの頻度を解析するために開発されたものである.
It is easy to see how probability theory can be used to study events like drawing a certain hand of cards in a poker game. These kinds of events are often repeatable.
確率論が,ポーカーゲームでカードの手を引くというようなイベントを学習するのに,どのように使われるかみれば,わかりやすい.この種のイベントは, 多くの場合,繰り返し行うことが可能なものである.
When we say that an outcome has a probability p of occurring, it means that if we repeated the experimet (e.g. drawing a hand of cards) infinitely many times, then proportion p of the repetitions would result in that outcome. This kind of reasoning does not seem immediately applicable to proposition that that are not repeatable.
ある結果が生じる確率はpであるというとき,それは,試行(例えば,カードの手を引くというような試行)を無限回行ったとして,その結果が繰り返し現れる比率がpであることを意味している.この種の推論は,繰り返して行えない命題には,直接当てはめることはできないように思われる.
If a doctor analyzes a patient and says that the patient has a 40 percent chance of having the flu, this means something very different --- we cannot make infinitely many replicas of the patient, nor is there any reason to believe that differrent replicas of the patient would present with the same symptoms yet have varying underlying conditions.
医者が患者を診て,インフルエンザにかかっている可能性は40パーセントですねと言ったとしたら,その意味するところは,(繰り返しが可能な場合と)大きく異なったものである.その患者の無数に多くのレプリカ(複製)を作ることはできないし,その患者のそれぞれのレプリカが, まだいまから条件次第で変わりうる同じ症状を示すだろうと信じる理由もない.
In the case of the doctor diagnosing the patient, we use probability to represent a degree of belief, with 1 indicating absolute certainty that the patient has the flu and 0 indicating absolute certainty that the patient does not have the flu.
医者が患者を診断する場合は,信頼度を表すために確率を使う.1はその患者がインフルエンザにかかっている絶対的な確からしさを示し,0はその患者がインフルエンザでない絶対的な確からしさを示している.
The former kind of probability, related directly to the rates at which events occur, is known as frequentist probability, while the latter, related to qualitative levels of certainty, is known as Bayesian probability.
イベントが生じる比率に直接関するような,前者のような種類の確率は頻度確率として知られており,他方,確からしさの定性的なレベルに関わるような,後者のような確率は,ベイズ確率として知られている.
If we list several properties that we expect common sense reasoning about uncertainty to have, then the only way to satisfy those properties is to treat Bayesian probabilities as behaving exactly the same as frequentist probabilities.
確からしさについて,推論が共通した意味で持つことを期待される属性を列挙すれば,そのような属性を満たすには,ベイズ確率を頻度確率とまったく同じような振る舞いをするものように扱う以外,方法はない.
For example, if we want to compute the probability that a player will win a porker game given that she has a certain set of cards, we use exactly the same formulas as when we compute the probability that a patient has disease given that she has certain symptoms. For more details about why a small set of common sense assumptions implies that the same axioms must control both kinds of probability, see Ramsey(1926).
例えば,なんらかの組のカードを持っているポーカーゲームのプレーヤーが勝つ確率を計算するときには,患者が兆候を示すような病気である確率を計算する場合とまったく同じ公式を用いる.もっと詳しく言えば,共通な意味の小さな集合を仮定することは,双方の種類の確率が,同じ公理の下にあることとを意味するからである.
拾い読みしていると,機械学習の分野で進展の著しい深層学習は,確率論の基礎的理解や,あるいは,変革を促しているようにも感じる.確率論も閉じた体系ではないだろうし,確率的な命題を扱う論理学も閉じてはいないだろうから,量化などを含まない命題は論理学的な解析法が確立しているから閉じているといえるだろうけれど,そういう,確率論や論理学の未決着部分の進展と密着しながら,深層学習理論の進展が図られている面もあるのだろう.当然,コンピュータのハードやソフトのエンジニアリングの要素も深く関わるだろうし,理系方面に関して素人には,これは,破壊的に取り組むしか手がなさそうであるが,もう一つの手段は,基礎理論のおさらいをもとにAIの応用やその話題を楽しむことではないか.PCがスマホやタブレットや別なPCと連携するなどの性能をもち,さらに進展していく勢いなのだから,PCというよりAIなどの性能を備えたWS(ワークステーション)という感じになるのだろうか.自分AIとそのように進化したPCとの間のわだかまりが取れるような,なんらかの融合デバイスのインターフェースがあれば,ストレスのないツール感が得られるかもしれない.見たことも遭ったこともないが,天女信仰じみた感情がくすぶられる.確率理論や論理学へのAIの応用とか,「はじめに言葉ありき」というような創造神話のように,天地が先か,神の言葉が先か,あるいは両者の混沌とした相互作用なのか,というようなことを人間は性懲りもなく考えてしまうのと同じだろうか.