クロス集計
与えられたデータのうち,複数の項目を掛け合わせてデータ分析を行うこと。クロスさせるデータに上限はないが,増えすぎるとサンプル数が減ってしまう。
-----
クロス集計というのは文字通り「集計」で,まだ「分析」までは行かないだろう。
「複数の項目を掛け合わせて」というのは,複数の変数を対象にして(クロスさせて)ということだろう。前に述べた「分割表」を一般的には「クロス集計表」と呼ぶ人が多い。
一番簡単なのは,二重クロス集計。二次元の度数分布表を作るということ。前に述べた,四分表は更に単純な場合(2行2列しかない)。行方向に一方の変数のカテゴリー(カテゴリー変数でない連続変数の場合はカテゴリー化して使用),列方向にもう一方の変数のカテゴリーをとり,それぞれのカテゴリーに該当するデータ数を数え,セルに記入する。期待値や行方向・列方向のパーセントを付けたりもする。
Excel のピボット関数(?)でも集計できるだろう。
二重クロス表の例
三重クロス表の例
「クロスさせるデータに上限はない」というのは,「クロスさせる変数の個数に上限はない」ということだろうか。3変数について3重クロスをすれば,3次元の度数分布表になるが,まあ,紙に印刷して提示するためには,二次元にして表示することになる。以下,n変数についてのn重クロスも同じことである。
あるいは,次とも関連するが,変数のカテゴリー数のことか?もともとカテゴリー数がほどほどのカテゴリー変数ならよいが,連続変数をカテゴリー化してクロス集計を使用として,階級幅を狭くする(結果として,カテゴリー数が大きくなる)とか,そもそもカテゴリー数が大きいと,集計結果が入る延べのセルの数が大きくなるので,必然的にセルあたりのデータ数が少なくなるというような,次の項のようなことが生じる。
「上限はないが,増えすぎるとサンプル数が減ってしまう」これは,集計表のセルに該当するデータの個数が少なくなってしまうということ。
「サンプル数」という言葉も微妙。
※コメント投稿者のブログIDはブログ作成者のみに通知されます