データ解析士を目指すブログ

財団法人実務教育研究所による「エクセルによる多変量解析講座」を受講して、データ解析士を目指すブログです

第1単元 第2章 平均値と最小2乗法(2)

2007-09-28 18:43:39 | 第1単元 データ解析序説
前回は、最小2乗法の求め方を確認しました
その結果、最小2乗法では、残差の計算がとても重要であることが、よくわかりました。そこで今回は、残差の分散と、残差平方和の自由度について確認します


[3] 残差の分散


[4] 残差平方和の自由度




第1単元 第2章 平均値と最小2乗法(1)

2007-09-28 16:33:05 | 第1単元 データ解析序説
最小2乗法(Least Square Method)とは、データ解析の基本的な手法です。通常、統計学のテキストで最小2乗法を最初に学ぶのは、回帰分析です。しかし、統計学の基本概念である平均値は、最小2乗法によって導かれるものです。よって、回帰分析を学ぶ前に、最小2乗法を概観しましょう。

[0]最小2乗法とは?・身近な例で考える
いま、東京、横浜、名古屋、大阪、博多に住んでいる5人の旧友が、久しぶりに飲み会をすることにしました。ところが、5人全員が、自分が住む都市で飲み会を開きたいといって譲りません。でも、それでは、旧交を温めることができません。まさに本末転倒です。ホント、困ったことになったなあと、全員が思いました。まあ、本当にそう考えるなら、自分の主張を譲ればいいのです。が、他人を利するような譲歩ってのは、大人になったところで、できるようになるものでもありません。すると、昔から悪知恵が働く、名古屋に住む一人が、このような解決策を提案しました

「全員の移動量の合計が最小になる場所で、飲み会をしよう」

「全員の移動量が最小になる」とは、移動量が多い人も、少ない人もいるけど、5人全体の移動量から考えば、移動に要する労力が最も小さくなる場所のことです。他の4人は、この提案に対して、ちょっと腑に落ちない感じがしました。なんとなく、全員の中間地点である名古屋の近くで飲み会をすることになる感じがするからです。でも、他によい案もないし、ケチもつけにくい感じもします。結局、名古屋の人の提案を満たす場所で飲み会をすることにしました。では、飲み会の場所は、どの様に決めたらよいのでしょうか。勘と経験で、「うりゃぁーーー」と決めてしまう方法や、念力に頼る方法もあるとは思います。しかし、このブログの目的は、僕が数学的な意思決定を学ぶことにあります。ということで、飲み会をどこで開くべきかを、数学的に決めることを考えようと思います。
ただし、最小2乗法を用いて意思決定するという決断は、たんなる自分の好みによっているということは、肝に銘じておかなくてはなりません。突き詰めれば、本当に中立的な評価など、論理的に成り立ち得ないと思いますので。



[1]最小2乗法の一般的な解き方
さて、一般的にaを求める方法について考えましょう。



よって、飲み会をすべき場所は、東京から

(0 + 29 + 366 + 553 + 1176)/5 = 424.8

の地点です。なお、東名高速東京ICから名神高速八日町ICまでが432kmです。よって、飲み会は、滋賀県の八日町あたりで開催されることになるでしょう。

第1単元 第1章 データ解析の基礎

2007-09-26 17:21:51 | 第1単元 データ解析序説
[1.1]データ解析の対象

(1)サンプル数と変数
データ解析の対象は、n×p行列で表されます
列 ⇒ 調査対象に与えた変数の数:p個
行 ⇒ p個の各変数がもつサンプル数:n個
よって、データ総数は、npです

(2)ランダムサンプル
この講座では、n個のサンプルは独立にとられたものと仮定します。サンプリング対象と、分析対象が異なるデータは扱いません。たとえば、

"サンプリングしたm棟のマンションから、n個の各戸の環境を調べる"

といったデータには、高度な特別の手法が必要です。したがって、この講座では、扱いません。

(3)変数の種類
変数の種類は、量的変数と質的変数の2種類があります
①量的変数
)比例尺度 ⇒ 0点に意味がある(非線形変換が有効)
)間隔尺度 ⇒ 間隔だけに意味がある(非線形変換が無意味)

②質的尺度
)順序尺度 ⇒ カテゴリーの順序に意味がある
)名義尺度 ⇒ カテゴリーの順序に意味はない

(4)欠損値
欠損値は、できるだけはじきましょう。

[1.2]解析の手順
(1)事前解析の重要性
多変量解析では、一度に多くの変数を同時に扱います。そのために、事前にRaw Dataが持つ特性を、1変量解析/2変量解析によって、丹念に調べる必要があります。外れ値の存在や、変数変換・変数追加の必要性は、このプロセスによって初めて把握できるので、とても大切です。なお、このプロセスを、データモニタリングと呼びます。

(2)統計解析とデータ分析
統計解析とデータ解析の大きな違いは、次の通りです

)統計解析
数理統計学に基づいた解析技術。データは、i番目のサンプルのj番目のデータXijのように、抽象的に把握されます

)データ解析
変数やサンプルが持つ、固有の特性を理解したうえで分析を行うのが、データ分析。よって、サンプルが観測された状況は、解析者の頭の中に叩き込まれている必要があります。

つまり、理論的な根拠に基づく数学的なモデリングが統計解析、一方で、解析対象固有の状況を踏まえて分析するのがデータ分析といえるでしょう。その意味で、統計解析は「理論」と言えますが、データ分析はノウハウに基づく「術」に近いものです。したがって、変数の選択や変数変換は、データ分析において、非常に重要な意味を持つことになります。

[1.3]基本統計量
基本統計量は、以下の通りです

平均・標準偏差・変動係数・歪度・尖度
最小値・最大値・中央値・4分位点
相関係数

それぞれの概念については、事前に知識があるものと仮定します。

学習の手引き

2007-09-26 16:13:45 | 学習の手引き
[1]予備知識
この講座は、初等統計学の知識を前提としています。ただし、基礎統計量などの、初歩的な概念については、第一章で簡単に復習します。
なお、具体的な前提知識は、以下の通りです

期待値と分散
中心極限定理と正規分布
仮説検定・第一種の過誤
区間推定・信頼率

[2]学習する手法
回帰分析(単回帰・重回帰)・数量化1類・ロジスティック回帰
主成分分析

[3]計算
エクセル付属のVBAを用いて計算することで、理論と計算方法の両面をバランスよく学びます

はじめに

2007-09-26 12:19:14 | はじめに
このブログは、実務教育研究所が主催している「エクセルによる多変量解析実務講座」を受講している僕の備忘録です

この先、どうなるか分かりません。
数学的にも、大したことありません
でも、とりあえず、修了を目指して、がんばろうと思います。