データ解析士を目指すブログ

参考文献

2007-10-19 12:32:18 | 学習の手引き

勉強で参考にしている、テキスト以外の文献を、ここで挙げようと思います。

（１）多変量統計解析法 (Methods of Multivariate Statical Analysis)
田中豊・脇本和昌　（現代数学社）１９８３年

第２単元第２章　回帰に関する検定と推定

2007-10-18 14:44:49 | 第２単元　単回帰分析

ちょっと、間があいてしまいました。勉強を進めてなかったわけではないのですが、テキストのまとめに時間がかかってしまいました

今回は、回帰係数の区間推定と検定を学びます。回帰係数などは推定値ですから、その母集団における値を知ることはとても重要です。

前回は、回帰直線がデータを説明できる程度を学びました。今回は、回帰直線がデータを説明できなかった誤差、つまり残差に存在する変動を学びます。

ところで、今まで、データを回帰直線で表すことを考えました。これを、回帰モデルと呼びます。回帰モデルでは、誤差εを、標準偏差σであらわしておきました。ここで、前回、残差の計算方法を学んだことを思い返しましょう。すると、この計算方法を用いれば、残差の変動、つまり残差分散を計算できることが分かります。そして、いまデータは、サンプリングされた結果です。従って、残差分散が、母集団の値に対して偏りがないないように調整する値が必要です。このように、母集団の値に対して、偏りがないように調整された推定値のことを、一般的に、不偏推定量と呼びます。その意味で、不偏推定量は、母集団と標本との間をつなぐ、とても重要な値といえます。

では、さっそく、残差分散を求めてみましょう

この残差は、標本からのものですから、残差分散の不偏推定量を考える必要があります

最後に、各種平方和の自由度を、以下に示しておきます

LatexからPDF

2007-10-09 02:43:05 | ひとりごと

「第２単元第１章　予測値と残差の性質と決定係数」
では、Latexで原稿を書いて、それをPDFに出力した上で、ブログに
画像データを貼り付けました

さすがにLatexなので、数式は、とても綺麗です
ただ、なれないので、数式を書くのに、非常に手間がかかります
とはいっても、Math typeのような、わずらわしさは全くありません

Latexのコマンドを覚えてしまえば、相当に便利なような気がします
とはえいえ、やっぱり、このブログの作製、勉強以上に、相当大変です。。。。

手書きのノートが、一番扱いやすいです。
ホント。

第２単元第１章　予測値と残差の性質と決定係数

2007-10-09 02:36:32 | 第２単元　単回帰分析

勉強開始から2週間

2007-10-08 02:22:42 | ひとりごと

勉強を始めて、約２週間たちました
現在、第２単元の第３章をを勉強しています
ブログは、まだ第２単元の第１章を作製してる途中ですなのですが

学習のしおりは、標準的なスケジュールを、一単元＝１ヵ月としていました
と言うことなで、まあ、順調な滑り出しと言うところでしょうか

ただし、まだ前半です
後半は、難しくなるかもしれません。
この調子で勉強できるかどうか、ちょっと不安な感じもします
油断は大敵ですね

実は、主だった多変量解析については、過去に勉強したことがあります
勉強したのは、重回帰・主成分・因子分析・ロジスティック回帰・対数線型分析
です。その意味で、今回は、資格取得と復習が主な目的になる気がします
それでも、やはり、初めて知ることも、たくさんあります
本当に、とても勉強になります

テキストは、とても分かりやすいですね
数式の展開や証明も、それほど多くありません
それでも、きちんと理解できるように書いてあると思います
えらそうに言えた義理ではないのですが。

一番大変なのは、ブログの更新です
理解した内容をまとめるのは、やはり大変です
それと、数式の作成
これが目下の一番の悩みです
とりあえず、ワードではなく、今日、昔ちょっとかじったLatexでPDFを出力する方法に変えようと思っています
まあ、ブログに方には、Latexを使っても、何の変化もありませんが

第２単元第１章　回帰係数の求め方

2007-10-08 00:00:21 | 第２単元　単回帰分析

さて、前回は、回帰分析のコンセプトを学びました。そこで、今回は、回帰直線の具体的な求め方を学びます。
母集団から取り出されたn個のサンプル(x,y)があったとします。いま、i番目のデータxiが、一次式でyiを決めると考えます。なお、このyiは、データです。

このβを回帰係数、αを定数項とか切片と呼びます
なお、データから求められた回帰係数や定数項は、多くの場合、記号の上にハット^をつけてあらわします。

第２単元第１章　回帰モデルの概要

2007-10-06 20:36:22 | 第２単元　単回帰分析

第２単元では、いよいよ統計モデルを学びます。ところで、統計モデルを毛嫌いする人って、世の中には、結構いるようです。しかし、思うに、道具は使いようです。とりあえず、知っていて損はないと思うので、頑張って学習してみます。
さて、最初に学ぶのは、回帰分析です。回帰分析とは、散布図で表される（ような）データに対して、尤もらしい（一次）方程式を、数学的に当てはめることです。（一次）方程式を、散布図に当てはめることによって、散布図にあるデータをもちいて、データの出現を予測することが可能になります。
まず、直観的に回帰分析を理解してみましょう。
下の散布図は、身長と体重の関係をプロットしたものです。散布図を見ると、身長が高くなるほど、体重が増える傾向にあるといえそうです。もちろん、この傾向に矛盾したデータがあることは否定できません。がしかし、全体的な傾向としては、身長と体重は、比例関係にあるといっても良さそうです。いや、良いとしましょう。この辺のわり切りは、とても大事です。

散布図を眺めていると、なぜか、次のような疑問が浮かびました

「身長１５０cmの人は、どのくらいの体重になることが多いのか」

身長が１５０ｃｍの時、体重は、大体、４０～４５kgになりそうです。でも、散布図を眺めるだけでは、正確なところは、よく分かりません。身長１５０cmの人の体重の平均値を計算することは、とても簡単です。でも、その場合、色々な人がいるのに、平均値で身長１５０cmの体重を代表させるのは、ちょっと強引な感じもします。そこで、身長１５０cmの人の体重を、その平均値と変動範囲を組み合わせた形で知ることを考えてみます。この場合、単純な平均値よりは、説得力がありそうです。では、どうすべきなのでしょうか。そこで、以下のような関係式を考えてみます。

つまり、「身長が１５０cmである各個人の体重は、その平均に誤差を加えた関係と考えられる」と仮定します。この式で重要なのは、式に「誤差」が含まれているところです。もし、誤差が含まれていなかったら、身長１５０cmの人の平均体重を主張するだけです。これだと物足りないのは、先に書いたとおりです。そこで、誤差を、式の中に含むことにしました。この結果、身長１５０cmである各個人の体重を、その平均値と変動範囲を用いて示すことが可能になります。でも、式(0.1)だけでは、少し使い勝手が悪い感じがします。なぜなら、身長が固定されているからです。あと、体重の平均も計算しなければなりません。どんな身長の時も、体重の平均をいちいち計算せずに、身長と体重の関係をあらわすには、どうすべきなのでしょうか。そこで、下の式のように考えてみることにします

なんだか、訳の分からないアルファベットとギリシャ文字が出てきましたね。でも、落ち着いて、上の式を良く観察します。まず、右辺に出てくるαとβは、未知数です。未知数の計算方法は、この先で学びます。ここでαとβとかいたのは、何か書いておかないと、後で訳がわからなくなるので、勝手なギリシャ文字で表してあるだけです。
左辺は、身長がx cmの各個人の体重です。一方、右辺は、左辺で決めた身長x cmと未知数βとの積に、これまた未知数αと誤差を足しています。さて、式(0.1)と式(0.2)を良く見比べてみましょう。式(0.1)から式(0.2)へは２つの点が変化しています。１つ目は、身長をxであらしたことです。身長をxであらわしたことで、特定の身長だけではなく、全ての身長を考えることが出来るようになりました。さて、問題は２番目です。

は

と変化しました。いま、全ての身長はxで表すことにしました。ということは、式(0.3)にある身長xの体重の平均を、式(0.4)では、身長xと未知数βとの積に、未知数αを加えて、改めて表現しなおしています。つまり、式(0.4)では、適当な未知数βとαを使うことで、身長から、その身長における体重の平均値を計算しようとしているのです。ここで、式(0.2)に、戻りましょう。すると、式(0.1)ｊから式(0.2)の変化とは、全ての身長xにおいて、適当な未知数βとαを用いて、各個人の体重を計算しようとしていることを意味します。

ここで話を転換して、同じ話を、こんどは未知数βとαから考えて見ましょう。いま、もし、未知数βとαを、何がしかの方法で、上手に計算してやることができたとします。すると、式(0.2)を用いて、身長からその身長における体重の平均値を経由して、各個人の体重を、誤差を明示しながら計算できることになります。結局、式(0.2)を用いれば、身長１５０cmのときの体重の平均値と誤差範囲を、数式に基づいて知ることが出来るのです。
そして、未知数β、αが決まった、この計算式こそが、図１の回帰直線です。すなわち、回帰直線とは、散布図上にある個々のデータの傾向を、誤差をも考慮しながら、たった一本の直線によって要約することと言えるのです。このような回帰直線を引くことを目的とした分析手法を、回帰分析といいます。

第１単元第４章２変数のモニタリング

2007-10-04 15:24:03 | 第１単元　データ解析序説

この章では、２変数のモニタリングを学びます。まず、散布図と相関係数との関係を学び、その上で、相関関係と因果関係を学びます

[4.1]散布図と相関係数
（１）散布図
２つの変数の関係は、散布図によって視覚的に確かめられます。散布図を描くとき、横軸（x軸）と縦軸(y軸)に、どの変数を割り当てるかが、最初の問題になります。回帰分析との関連を視野に入れれば、次の基準で軸を選ぶ習慣をつけるのがよいでしょう

○２変数に原因と結果の関係があるときは、x軸に原因となる変数をおきます
○２変数に原因と結果の関係がないときには、予測したい変数をy軸におきます

さらに、散布図を眺めるとき、以下の観点に注意することが重要です
a ) 直線関係か、曲線関係か
b ) 外れ値はないか
c ) 異質な観測値が混ざっていないか（散布図に２系列のデータが認められるか？）

あらかじめ、a) ～　c )に注意する必要がある理由は、これらのデータ傾向が、相関係数の計算結果に大きな影響を与えるからです。相関係数とは、散布図で認めれらるようなデータ傾向を、直線関係で要約する手段です。よって、この前提（直線関係）を満たすデータでなければ、たとえ一定の関係が散布図で認められたとしても、相関係数は低くなります。そして、実は、相関係数をもちいて、変数間の関係をうまく捉えられないデータが、まさにa) ～　c )なのです。よって、a) ～　c )を、あらかじめ確認することで、与えられたデータの関係を、相関係数で表現できるかどうかを、大まかに判断しておくことができるようになります。

（２）相関係数
相関係数とは、相関関係の強さをあらわす指標です。ただし、ここで考える相関関係は、直線関係で表されるものです。よって、曲線関係の相関関係があったとしても、相関係数でうまく表すことはできません。相関係数rは、以下の式で表されます

[4.2]相関係数・相関関係・因果関係
相関係数有意ではないから、2つの変数間に関係がないと判断してはいけません。相関係数は、直線関係の強さを測る指標です。したがって、曲線関係を相関係数で知ることはできません。
また、異質な集団の集まりであるとき、全体としては無相関であっても、層ごとに散布図を描くと相関を発見できることがあります
相関関係と因果関係の関係をまとめたのが、下の図です。下の図を見ると、因果関係があるときは、必ず相関関係がありますが、相関関係があるからといって、因果関係があるとは限らないことが、よく分かります。

ただし、注意すべきことは、関係があるから、すぐに因果関係（原因と結果）があると判断してはならない、ということです。第3の変数が両変数に影響を与えているために、見かけの相関がある場合がある可能性があります。このような相関を、擬似相関といいます
そこで、擬似相関には、下の二つのケースがあります。このような擬似相関関係が見られるとき、x→yというように因果関係を決定してはいけません。

数式

2007-10-02 14:27:22 | ひとりごと

ブログで数式を書くのが、ものすごく大変です
当然、直接ブログに数式を書くことなど不可能です
で、どうしてるかといえば、、、、、

（１）ワードのMath typeで数式を書く
（２）Print Screenで数式を画像として保存
（３）こぎれいに整形して、、、、
（４）文章の間に、画像として貼り付ける

この作業が、非常に、めんどくさい
でも、このほかによい方法を知らないから、しかたないか

そもそも、Math Typeが使いにくい
無料版だから、仕方ないんだろうけど。
Latexでかいて、PDF吐き出すって方法もあると思うけど、Latex自体、ちょこっとしか使ったことないんだよねえ

なんか、よい方法ないかなあ

goo blog お知らせ

	【11/18】goo blogサービス終了のお知らせ
	【PR】ドコモのサブスク【GOLF me！】初月無料
	【コメント募集中】goo blogでの思い出は？
	「#gooblog引越し」で体験談を募集中