goo blog サービス終了のお知らせ 

データ解析士を目指すブログ

財団法人実務教育研究所による「エクセルによる多変量解析講座」を受講して、データ解析士を目指すブログです

第1単元 第4章 2変数のモニタリング

2007-10-04 15:24:03 | 第1単元 データ解析序説
この章では、2変数のモニタリングを学びます。まず、散布図と相関係数との関係を学び、その上で、相関関係と因果関係を学びます

[4.1]散布図と相関係数
(1)散布図
2つの変数の関係は、散布図によって視覚的に確かめられます。散布図を描くとき、横軸(x軸)と縦軸(y軸)に、どの変数を割り当てるかが、最初の問題になります。回帰分析との関連を視野に入れれば、次の基準で軸を選ぶ習慣をつけるのがよいでしょう

○2変数に原因と結果の関係があるときは、x軸に原因となる変数をおきます
○2変数に原因と結果の関係がないときには、予測したい変数をy軸におきます

さらに、散布図を眺めるとき、以下の観点に注意することが重要です
a ) 直線関係か、曲線関係か
b ) 外れ値はないか
c ) 異質な観測値が混ざっていないか(散布図に2系列のデータが認められるか?)

あらかじめ、a) ~ c )に注意する必要がある理由は、これらのデータ傾向が、相関係数の計算結果に大きな影響を与えるからです。相関係数とは、散布図で認めれらるようなデータ傾向を、直線関係で要約する手段です。よって、この前提(直線関係)を満たすデータでなければ、たとえ一定の関係が散布図で認められたとしても、相関係数は低くなります。そして、実は、相関係数をもちいて、変数間の関係をうまく捉えられないデータが、まさにa) ~ c )なのです。よって、a) ~ c )を、あらかじめ確認することで、与えられたデータの関係を、相関係数で表現できるかどうかを、大まかに判断しておくことができるようになります。

(2)相関係数
相関係数とは、相関関係の強さをあらわす指標です。ただし、ここで考える相関関係は、直線関係で表されるものです。よって、曲線関係の相関関係があったとしても、相関係数でうまく表すことはできません。相関係数rは、以下の式で表されます



[4.2]相関係数・相関関係・因果関係
相関係数有意ではないから、2つの変数間に関係がないと判断してはいけません。相関係数は、直線関係の強さを測る指標です。したがって、曲線関係を相関係数で知ることはできません。
また、異質な集団の集まりであるとき、全体としては無相関であっても、層ごとに散布図を描くと相関を発見できることがあります
相関関係と因果関係の関係をまとめたのが、下の図です。下の図を見ると、因果関係があるときは、必ず相関関係がありますが、相関関係があるからといって、因果関係があるとは限らないことが、よく分かります。




ただし、注意すべきことは、関係があるから、すぐに因果関係(原因と結果)があると判断してはならない、ということです。第3の変数が両変数に影響を与えているために、見かけの相関がある場合がある可能性があります。このような相関を、擬似相関といいます
そこで、擬似相関には、下の二つのケースがあります。このような擬似相関関係が見られるとき、x→yというように因果関係を決定してはいけません。


第1単元 第3章 1変数のモニタリング(3)

2007-10-02 14:03:59 | 第1単元 データ解析序説
[3-B]時系列データのデータモニタリングを行う
続いて、時系列データの扱い方を学びます。時系列データとは、時間的経過にしたがって得られるようなデータのことです。

(1)ダービン・ワトソン比
ダービン・ワトソン比(Durbin-Watson Ratio)とは、今期と前期との関係の強さの関係を表した指標です。ダービン・ワトソン比は、隣り合う値が独立であるとき、2前後の値をとります



式を見てすぐに分かるように、隣り合う数値が近ければ近いほど、ダービン・ワトソン比は小さくなります。したがって、同じような傾向を持てば持つほど、この指標は小さな値をとることが分かります。


(2)自己相関係数
同じ時系列データ内で、一定程度、期間をずらし、ずらした期に基づいて計算した相関係数を、自己相関係数と呼びます。期間のずらす程度によって、得られる相関係数が異なります。かりに、ずらした結果、得られた相関係数が正の値をとるならば、ずらした期間において季節変動があると考えることができます
なお、自己相関係数とダービン・ワトソン比との間には



という近似的な関係があります

第1単元 第3章 1変数のモニタリング(2)

2007-10-02 12:00:21 | 第1単元 データ解析序説
[3-A-2]非対称分布を扱う
ところで[3-A-1]のときは、外れ値を除けば、与えられた分布は正規分布に近いという暗黙の仮定がありました。では、そもそも、与えられた分布が正規分布に似ても似つかないときは、どのように対処すべきなのでしょうか。このような分布のことを、非対称分布と呼びます。非対称分布は、外れ値を除いても、正規分布にはなりません。非対称分布は、データを対数変換することで正規分布に変換できることが、経験的に分かっています。対数変換で正規分布になる非対称分布を、対数正規分布と呼びます。対数正規分布の具体例としては、勤労所得世帯の貯蓄調査や、血液検査で得られるコレステロールの分布などがあります。ただし、安易に変数変換すべきでないという意見もあることは、あらかじめ知っておかなければなりません。(変数変換後のデータ解釈が難しくなるため)

(1)中心極限定理と対数正規分布
変数xの変化は、たくさんの原因が積み重なったものであるとします。この関係が



とあらわされるならば、個々の誤差eの分布がどのようなものであっても、それらをたくさん集めたxは正規分布に近づきます
この性質を、中心極限定理(Central Limit Theorem)と呼びます。なお、いま、もし、与えられた関係が和ではなく積のとき、つまり



ならば、xは正規分布になりません。そこで、両辺に自然対数をとります


(2)対数正規分布の性質
対数変換した後のデータの標準偏差は、変動係数(Coefficient of Variation)が1に比べて小さいとき、正規分布の変動係数に近いという性質があります



第1単元 第3章 1変数のモニタリング(1)

2007-10-02 00:47:29 | 第1単元 データ解析序説
第一単元第3章では、1変数によるデータモニタリングを学びます。[3-A]では、簡単なグラフを用いて、具体的なデータモニタリング方法を学びます。その上で、与えられた分布が正規分布でない場合の対処方法についても学びます。[3-B]では、時系列データのデータモニタリング方法を学びます

[3-A] 与えられた分布のデータモニタリングを行う
まず与えられたデータに対して、ヒストグラムを作成してみましょう。ヒストグラムと同時に、基礎統計量も計算します。この結果、与えられたデータの概観を把握することができます。まず、与えられたデータが正規分布をなすかどうかを確認しましょう。もし、与えられた分布が正規分布とはいえないとき、どのように対処すべきでしょうか。まず、分布が正規分布をなさない原因として、次の2つがあげられます

a) 少数個の外れ値が含まれている

b) 分布の形が、全体として正規分布から外れている

与えられた分布が正規分布にならない原因が、a)なのかb)なのかは、ヒストグラムを見ると良く分かります。そして、それでは、各々の場合について、与えられた分布が正規分布になる修正法を学習します

[3-A-1]少数の外れ値が含まれているとき
(1)外れ値とは
ヒストグラムは、データが存在する区間では、棒グラフが連続して存在します。当然、データが途切れると、棒グラフも途切れます。ところが、途切れた棒グラフの先に、再びデータが出現する場合があります。このようなデータを、外れ値(Outlier)と呼びます。外れ値のことを、かつては、異常値と呼んでいました。しかし、以上かどうかは、固有の事情に照らし合わせて判断すべき事柄です。したがって、最近では、単に外れているという状況を表す外れ値と呼ぶようになっています。

(2)修正すべき外れ値の決定
外れている値を、何でもかんでも修正してはいけません。以下では、修正すべきデータの決定基準を学習します

(2-1)ヒストグラムと尖度・歪度を用いる方法
まず、元のデータから外れ値を削除してみましょう。すると、元のデータで計算した尖度・歪度・標準偏差・平均値が変化します。このようにして尖度・歪度の変化を確認することで、正規分布で得られる理論値に近づくように外れ値を削除しましょう

(2-2)残差分散を用いる方法
個々の値から平均値を引いた残差が、残差の標準誤差に比べて、特別に大きいかどうかを判断することができます。残差の平均平方は、

です。このσの代わりに、データから計算した標準偏差sをもちいて

で、が大きくなるときに、外れ値と判断します。は、経験的に2.5くらいが良いとされています

(2-3)4分位数と箱ひげ図を用いる方法
(2-1)と(2-2)の方法では、計算に標準偏差を用いました。よって、データ内に複数の外れ値がある場合、標準偏差自体も大きくなり、外れ値を見逃す恐れがあります。そこで、順位統計量を用いる方法があります。両側4分位値の差を4分位範囲とよびます。この4分位範囲の1.5倍以上離れたデータを外れ値とみなします。データが正規分布に従うとき、限界外に出る確率は約1%。これらの関係を表したのが、箱ひげ図です。




第1単元 第2章 平均値と最小2乗法(1)

2007-09-28 16:33:05 | 第1単元 データ解析序説
最小2乗法(Least Square Method)とは、データ解析の基本的な手法です。通常、統計学のテキストで最小2乗法を最初に学ぶのは、回帰分析です。しかし、統計学の基本概念である平均値は、最小2乗法によって導かれるものです。よって、回帰分析を学ぶ前に、最小2乗法を概観しましょう。

[0]最小2乗法とは?・身近な例で考える
いま、東京、横浜、名古屋、大阪、博多に住んでいる5人の旧友が、久しぶりに飲み会をすることにしました。ところが、5人全員が、自分が住む都市で飲み会を開きたいといって譲りません。でも、それでは、旧交を温めることができません。まさに本末転倒です。ホント、困ったことになったなあと、全員が思いました。まあ、本当にそう考えるなら、自分の主張を譲ればいいのです。が、他人を利するような譲歩ってのは、大人になったところで、できるようになるものでもありません。すると、昔から悪知恵が働く、名古屋に住む一人が、このような解決策を提案しました

「全員の移動量の合計が最小になる場所で、飲み会をしよう」

「全員の移動量が最小になる」とは、移動量が多い人も、少ない人もいるけど、5人全体の移動量から考えば、移動に要する労力が最も小さくなる場所のことです。他の4人は、この提案に対して、ちょっと腑に落ちない感じがしました。なんとなく、全員の中間地点である名古屋の近くで飲み会をすることになる感じがするからです。でも、他によい案もないし、ケチもつけにくい感じもします。結局、名古屋の人の提案を満たす場所で飲み会をすることにしました。では、飲み会の場所は、どの様に決めたらよいのでしょうか。勘と経験で、「うりゃぁーーー」と決めてしまう方法や、念力に頼る方法もあるとは思います。しかし、このブログの目的は、僕が数学的な意思決定を学ぶことにあります。ということで、飲み会をどこで開くべきかを、数学的に決めることを考えようと思います。
ただし、最小2乗法を用いて意思決定するという決断は、たんなる自分の好みによっているということは、肝に銘じておかなくてはなりません。突き詰めれば、本当に中立的な評価など、論理的に成り立ち得ないと思いますので。



[1]最小2乗法の一般的な解き方
さて、一般的にaを求める方法について考えましょう。



よって、飲み会をすべき場所は、東京から

(0 + 29 + 366 + 553 + 1176)/5 = 424.8

の地点です。なお、東名高速東京ICから名神高速八日町ICまでが432kmです。よって、飲み会は、滋賀県の八日町あたりで開催されることになるでしょう。

第1単元 第1章 データ解析の基礎

2007-09-26 17:21:51 | 第1単元 データ解析序説
[1.1]データ解析の対象

(1)サンプル数と変数
データ解析の対象は、n×p行列で表されます
列 ⇒ 調査対象に与えた変数の数:p個
行 ⇒ p個の各変数がもつサンプル数:n個
よって、データ総数は、npです

(2)ランダムサンプル
この講座では、n個のサンプルは独立にとられたものと仮定します。サンプリング対象と、分析対象が異なるデータは扱いません。たとえば、

"サンプリングしたm棟のマンションから、n個の各戸の環境を調べる"

といったデータには、高度な特別の手法が必要です。したがって、この講座では、扱いません。

(3)変数の種類
変数の種類は、量的変数と質的変数の2種類があります
①量的変数
)比例尺度 ⇒ 0点に意味がある(非線形変換が有効)
)間隔尺度 ⇒ 間隔だけに意味がある(非線形変換が無意味)

②質的尺度
)順序尺度 ⇒ カテゴリーの順序に意味がある
)名義尺度 ⇒ カテゴリーの順序に意味はない

(4)欠損値
欠損値は、できるだけはじきましょう。

[1.2]解析の手順
(1)事前解析の重要性
多変量解析では、一度に多くの変数を同時に扱います。そのために、事前にRaw Dataが持つ特性を、1変量解析/2変量解析によって、丹念に調べる必要があります。外れ値の存在や、変数変換・変数追加の必要性は、このプロセスによって初めて把握できるので、とても大切です。なお、このプロセスを、データモニタリングと呼びます。

(2)統計解析とデータ分析
統計解析とデータ解析の大きな違いは、次の通りです

)統計解析
数理統計学に基づいた解析技術。データは、i番目のサンプルのj番目のデータXijのように、抽象的に把握されます

)データ解析
変数やサンプルが持つ、固有の特性を理解したうえで分析を行うのが、データ分析。よって、サンプルが観測された状況は、解析者の頭の中に叩き込まれている必要があります。

つまり、理論的な根拠に基づく数学的なモデリングが統計解析、一方で、解析対象固有の状況を踏まえて分析するのがデータ分析といえるでしょう。その意味で、統計解析は「理論」と言えますが、データ分析はノウハウに基づく「術」に近いものです。したがって、変数の選択や変数変換は、データ分析において、非常に重要な意味を持つことになります。

[1.3]基本統計量
基本統計量は、以下の通りです

平均・標準偏差・変動係数・歪度・尖度
最小値・最大値・中央値・4分位点
相関係数

それぞれの概念については、事前に知識があるものと仮定します。