Cov(r1、r2)(共分散)
共分散の分子(=偏差積和=偏差を掛け合わせてシグマしたもの)の中にあるXの偏差、Yの偏差に注目してください。
1. Xの偏差とYの偏差が同時に正(両方とも平均値より大きい場合)、および同時に負(両方とも平均値より小さい場合)には分母は正の値をとり、
2. Xの偏差が正でYの偏差が負、もしくはXの偏差が負でYの偏差が正の場合には負の値をとり、
3. その傾向が強いほど、絶対値は大きな値になります。
4. またX、Yをグラフに書くと、偏差積和(偏差を掛け合わせてシグマしたもの)の絶対値が大きな値をとる傾向が強い場合、XとYの間に直線的関係があることが明らかになると思います。
ただし、以上の傾向は、ケース数が増加するにつれ偏差積和(偏差を掛け合わせてシグマしたもの)増加する傾向があるため、偏差積和(偏差を掛け合わせてシグマしたもの)増加が
「相関の度合いの増加を示しているのか」
「ケース数の増加に由来するのか」
分かりません。
そこで、ケース数(n)で割って偏差積和(偏差を掛け合わせてシグマしたもの)平均を求めたものが[共分散]です。すなわち、共分散とは偏差の積、すなわち偏差積の総和(すなわち偏差積和)を計算し、その平均を計算したものです。
このように共分散 Sxyとは、基本的には、平均値を基準とした場合のXとYのペアがどのように変化するか、[その方向と強さ]をを示した値です。
ただし共分散はデータの単位によって大きさが大きく変化します。このため、2変数の直線的関係を測る尺度としては、余り適当ではありません(ためしにエクセルのシートで単位を10倍にして共分散の値がどう変化するか試してみてください)。
そこで、[Xの標準偏差Sx]と[Yの標準偏差Sy]の積で割り、[標準化したもの]が相関係数です。
相関係数は2変数の間の直線的関係の強さを示すものです。ただし、二変数の間に散らばりがあることが前提です。
そして 相関係数correlation coefficient = r =Rとすると・・・
R=
共分散から「測定単位の影響を除去」するため、共分散を「標準偏差の積」で割る。これを相関係数(rもしくはρ)と呼ぶ。相関係数は、2つのデータ(数列)が、どれだけ関連性があるのかを示す係数です。
r12 = ρ12 = [Cov(r1、r2)] ÷ (σ1・σ2)
・相関係数(ρ)は、必ず -1≦ρ≦1 となる。
・2つのデータの関連性が強ければ相関係数は1に近づく(正の相関)
・2つのデータの関連性が低ければ相関係数は0に近づく。
・逆に、2つのデータが正反対の動きをするのであれば-1(逆相関)に近づく。
相関係数は2つの株価の動きの関係を表す際などに用いられる。
株式に分散投資したり、ポートフォリオを組む場合、「相関係数の低い株式を選択」するとポートフォリオ全体のリスク低減効果が得られやすい。
正の相関とは、XとYが同じ方向に動くことをいう
負の相関とは、XとYが反対の方向に動くことをいう
相関係数の問題点
相関係数は2変数の間の直線的関係の強さを示す-曲線的相関は把握できない。
見せかけの相関(偽相関)かもしれない
・2つの変数の間に相関がないことは、必ずしも本当に「関連がない」ことを示しているとはいえません。
・また関係の形は直線だけであるとは限りません。もし曲線的な関係がある場合には、それがどんなに重要かつクリアーな関係であっても、相関係数で把握することはできません。
・また、相関係数が大きいこと、またプラス、マイナスの方向性を示していることが、必ずしも相関の度合い、方向を正しく反映しているとは限りません。
正の相関があれば共分散の値は正になる。逆に負の相関があれば共分散は負となる。
○回帰分析のポイント
■分析の前提・次のアクションにつながるかを押さえる
回帰分析は、現象の傾向を表すのに非常に有効なツールです。しかし、回帰分析はやり方次第で、いくらでもそれらしい線を引くことができます。うまく近似曲線をひけたとしても、その近似線で説明できる前提を押さえたり、その近似曲線がわかることで次にどんなアクションにつなげられるかを考えたりすることが重要です。
■相関があるからといって因果関係があるわけではない
回帰分析で高い相関が発見できても、それらに因果関係があるとまでは言い切れないません。実際にグラフに示したみたり、定性的に考えて第3の因子を考えたりすることが重要になります。
■相関から外れたところの扱いに注意
回帰分析をしてグラフを見ると、近似線から明らかに外れたデータが出てくる場合があります。こうしたデータにはビジネス上の大きなヒントが隠されている場合があります。掘り下げてみることも必要です。もちろん単なるノイズとして、データを省ける場合もあります。
■相関の高低の判断はビジネスの種類によって違う
相関があるというためには、相関係数が上述のように一般的に絶対値で0.7くらい(R2値だと0.5くらい)必要ですが、ビジネスの性質によってはそれ以下でも相関関係を深堀して考える場合があります。例えば相関があった場合のリスクが極めて大きい場合などは、相関係数(r=R あるいは R2 値)が低くてもしっかり内容を調査していきます。
共分散の分子(=偏差積和=偏差を掛け合わせてシグマしたもの)の中にあるXの偏差、Yの偏差に注目してください。
1. Xの偏差とYの偏差が同時に正(両方とも平均値より大きい場合)、および同時に負(両方とも平均値より小さい場合)には分母は正の値をとり、
2. Xの偏差が正でYの偏差が負、もしくはXの偏差が負でYの偏差が正の場合には負の値をとり、
3. その傾向が強いほど、絶対値は大きな値になります。
4. またX、Yをグラフに書くと、偏差積和(偏差を掛け合わせてシグマしたもの)の絶対値が大きな値をとる傾向が強い場合、XとYの間に直線的関係があることが明らかになると思います。
ただし、以上の傾向は、ケース数が増加するにつれ偏差積和(偏差を掛け合わせてシグマしたもの)増加する傾向があるため、偏差積和(偏差を掛け合わせてシグマしたもの)増加が
「相関の度合いの増加を示しているのか」
「ケース数の増加に由来するのか」
分かりません。
そこで、ケース数(n)で割って偏差積和(偏差を掛け合わせてシグマしたもの)平均を求めたものが[共分散]です。すなわち、共分散とは偏差の積、すなわち偏差積の総和(すなわち偏差積和)を計算し、その平均を計算したものです。
このように共分散 Sxyとは、基本的には、平均値を基準とした場合のXとYのペアがどのように変化するか、[その方向と強さ]をを示した値です。
ただし共分散はデータの単位によって大きさが大きく変化します。このため、2変数の直線的関係を測る尺度としては、余り適当ではありません(ためしにエクセルのシートで単位を10倍にして共分散の値がどう変化するか試してみてください)。
そこで、[Xの標準偏差Sx]と[Yの標準偏差Sy]の積で割り、[標準化したもの]が相関係数です。
相関係数は2変数の間の直線的関係の強さを示すものです。ただし、二変数の間に散らばりがあることが前提です。
そして 相関係数correlation coefficient = r =Rとすると・・・
R=

共分散から「測定単位の影響を除去」するため、共分散を「標準偏差の積」で割る。これを相関係数(rもしくはρ)と呼ぶ。相関係数は、2つのデータ(数列)が、どれだけ関連性があるのかを示す係数です。
r12 = ρ12 = [Cov(r1、r2)] ÷ (σ1・σ2)
・相関係数(ρ)は、必ず -1≦ρ≦1 となる。
・2つのデータの関連性が強ければ相関係数は1に近づく(正の相関)
・2つのデータの関連性が低ければ相関係数は0に近づく。
・逆に、2つのデータが正反対の動きをするのであれば-1(逆相関)に近づく。
相関係数は2つの株価の動きの関係を表す際などに用いられる。
株式に分散投資したり、ポートフォリオを組む場合、「相関係数の低い株式を選択」するとポートフォリオ全体のリスク低減効果が得られやすい。
正の相関とは、XとYが同じ方向に動くことをいう
負の相関とは、XとYが反対の方向に動くことをいう
相関係数の問題点
相関係数は2変数の間の直線的関係の強さを示す-曲線的相関は把握できない。
見せかけの相関(偽相関)かもしれない
・2つの変数の間に相関がないことは、必ずしも本当に「関連がない」ことを示しているとはいえません。
・また関係の形は直線だけであるとは限りません。もし曲線的な関係がある場合には、それがどんなに重要かつクリアーな関係であっても、相関係数で把握することはできません。
・また、相関係数が大きいこと、またプラス、マイナスの方向性を示していることが、必ずしも相関の度合い、方向を正しく反映しているとは限りません。
正の相関があれば共分散の値は正になる。逆に負の相関があれば共分散は負となる。
○回帰分析のポイント
■分析の前提・次のアクションにつながるかを押さえる
回帰分析は、現象の傾向を表すのに非常に有効なツールです。しかし、回帰分析はやり方次第で、いくらでもそれらしい線を引くことができます。うまく近似曲線をひけたとしても、その近似線で説明できる前提を押さえたり、その近似曲線がわかることで次にどんなアクションにつなげられるかを考えたりすることが重要です。
■相関があるからといって因果関係があるわけではない
回帰分析で高い相関が発見できても、それらに因果関係があるとまでは言い切れないません。実際にグラフに示したみたり、定性的に考えて第3の因子を考えたりすることが重要になります。
■相関から外れたところの扱いに注意
回帰分析をしてグラフを見ると、近似線から明らかに外れたデータが出てくる場合があります。こうしたデータにはビジネス上の大きなヒントが隠されている場合があります。掘り下げてみることも必要です。もちろん単なるノイズとして、データを省ける場合もあります。
■相関の高低の判断はビジネスの種類によって違う
相関があるというためには、相関係数が上述のように一般的に絶対値で0.7くらい(R2値だと0.5くらい)必要ですが、ビジネスの性質によってはそれ以下でも相関関係を深堀して考える場合があります。例えば相関があった場合のリスクが極めて大きい場合などは、相関係数(r=R あるいは R2 値)が低くてもしっかり内容を調査していきます。