裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

なぜ統計学が最強の学問なのか--週刊ダイヤモンド 2013/3/30(4)

2013年04月05日 | 統計学

クロス集計

与えられたデータのうち,複数の項目を掛け合わせてデータ分析を行うこと。クロスさせるデータに上限はないが,増えすぎるとサンプル数が減ってしまう。

-----

クロス集計というのは文字通り「集計」で,まだ「分析」までは行かないだろう。

複数の項目を掛け合わせて」というのは,複数の変数を対象にして(クロスさせて)ということだろう。前に述べた「分割表」を一般的には「クロス集計表」と呼ぶ人が多い。

一番簡単なのは,二重クロス集計。二次元の度数分布表を作るということ。前に述べた,四分表は更に単純な場合(2行2列しかない)。行方向に一方の変数のカテゴリー(カテゴリー変数でない連続変数の場合はカテゴリー化して使用),列方向にもう一方の変数のカテゴリーをとり,それぞれのカテゴリーに該当するデータ数を数え,セルに記入する。期待値や行方向・列方向のパーセントを付けたりもする。

Excel のピボット関数(?)でも集計できるだろう。

 二重クロス表の例

 三重クロス表の例

クロスさせるデータに上限はない」というのは,「クロスさせる変数の個数に上限はない」ということだろうか。3変数について3重クロスをすれば,3次元の度数分布表になるが,まあ,紙に印刷して提示するためには,二次元にして表示することになる。以下,n変数についてのn重クロスも同じことである。
あるいは,次とも関連するが,変数のカテゴリー数のことか?もともとカテゴリー数がほどほどのカテゴリー変数ならよいが,連続変数をカテゴリー化してクロス集計を使用として,階級幅を狭くする(結果として,カテゴリー数が大きくなる)とか,そもそもカテゴリー数が大きいと,集計結果が入る延べのセルの数が大きくなるので,必然的にセルあたりのデータ数が少なくなるというような,次の項のようなことが生じる。

上限はないが,増えすぎるとサンプル数が減ってしまう」これは,集計表のセルに該当するデータの個数が少なくなってしまうということ。
「サンプル数」という言葉も微妙。

コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« なぜ統計学が最強の学問なの... | トップ | なぜ統計学が最強の学問なの... »
最新の画像もっと見る

コメントを投稿

統計学」カテゴリの最新記事