吉田忠「(第11章)農業統計を利用する基本」『農業統計の作成と利用(食糧・農業問題全集 20)』農山漁村文化協会,1987年
記述統計の基礎的で主要概念である算術平均(代表値)の社会科学分野における位置づけと,この概念を分岐点とした2つのその利用方向について解説した論稿。
構成は次のとおり。「1.「中」と「代表値」「2.算術平均-代表としての「真中」①団体・集団を代表する構成要素,②数値の集合を「真中の値」で代表させる-算術平均」「3.算術平均の性質-「帰らざる河」か「戻りうる河」-;①算術平均は唯一無二の「真中」ではない,②算術平均と分散,③分岐点にたつ算術平均」「4.算術平均の使い方(1)-社会科学的実証分析へ-;①専兼業別農家を算術平均から見る,②専業農家は等質か-分類してから算術平均を見る-」「5.算術平均の使い方(2)-確率モデルと数理的利用-;①統計的規則性-その主要形態,②確率変数の平均と分散-確率モデルの導入-,③最良の推定量としての標本平均-「帰らざる河」への舟出-」
社会には諸団体や諸集団があり,それぞれを代表するものがある。法人や団体の形をとる実在的存在がひとつ考えられるが,他に社会的集団をある構成要素で形式的に代表させる場合がある。筆者はこの代表者を定める4つの基準をあげている。第一はマックス基準(最大,最高,最強など),第二はベスト基準(条件付きの最良),第三はモースト基準(最多を占めるもの),第四はミッド基準(中位のもの)である。統計学で使われる平均ないし算術平均は,このうちのミッド基準を基礎に,その数学的精緻化をはかったものである。
ミッド基準で代表を考えるときには,個性的要素からなる集団のなかの数値集団が前提となる。その位置づけの仕方を考慮すると,ミッド基準は「中ごろ」「中位」といった曖昧な表現ではすまず,「真中の数値」で代表させなければならない。しかし,「真中」といってもメジアンもあればモードもある。またある「真中」に関し,それを上回る分と下回る分とが相殺されるようにそれを決める方法もある。確認しておきたいのは,各数値の偏差和をゼロとする値が各数値の和を総度数で割った値,すなわち算術平均と一致することである。
統計資料は社会的集団現象のある側面に関する数量的全体像を与えるだけでなく,形式論理的に厳密な比較や推論を可能にする数量的表現をもつ。また,統計資料が数値の集合の形をとっていることは,統計調査の前提である社会的集団現象や社会構造概念を棚上げし,数値の集合そのものへの算術的演算の導入,さらにはより高度な演算を可能にする。
算術平均は,上記のように,数値の集合に関して「偏差和をゼロとする値」という数理的形式的約束事のもとに成立する概念である。ところがこの算術平均が唯一無二の指標に受けとられることがしばしばある。しかし,それは誤りである。筆者はその例証として幾何平均でなければ成立しない場合をあげ,このことを裏付けている。算術平均が普及しているのは,それが幾何学や力学上の重心と結びついているからであり,また数値の集合のバラツキを示す指標(分散や標準偏差)と関係づけることができるからである。
筆者はここから算術平均を手掛かり(分岐点)に,数値の集合からその母胎である統計資料に,さらにその背後にある社会的集団現象へ遡っていくことができるとし,その方向を構想する。対極で,数理統計学の世界では,算術平均は確率モデル導入の前提としておかれ,その数理的利用がはかられている(「帰らざる河」)。
筆者は前者の方向を農家・農業経営の諸特徴を示す数値の算術平均,とくに専兼業別のそれからスタートさせる。示されている統計資料は,「専兼業別に見た農家の諸特徴(1980年)」で専業農家,第一種兼業農家,第二種兼業農家,男子生産年齢人口有無別専業農家について,経営耕地面積,借入耕地面積,農業専従者数,農産物販売金額の算術平均を一覧した表である。筆者はその中に合点がいかない数値がある,と述べている。それは第一種兼業農家の経営耕地面積が専業農家のそれより広いことである。このような数値の矛盾にぶつかったときには,表示単位の定義,表示事項とその分類基準,さらに調査単位や調査事項を見直さなければならない。
筆者がここで強調するのは,算術平均の組み合わせで農家のような,構造をもつものの集団を代表させるさい重要な前提があり,それは集団が均質な要素からなっていること,かつ変異を示す特徴に関してできるだけ中位に集中していること,である。前掲の表の例で言うと,専業農家には男子生産年齢人口がいる世帯といない世帯,すなわち高齢専業農家(一部母子世帯を含む)とがある。専業農家のなかのこの区分は,この種の実証分析で不可欠である。事実,経営耕地面積の算術平均はこの高齢者専業農家を考慮して見直すと,男子生産年齢人口がいる専業農家,第一種兼業農家,第二種兼業農家,高齢専業農家の順に広大きく,納得のいく資料になる。1980年からの専業農家数を第一種兼業農家数が上回ったという逆転現象は,この高齢者専業農家数の増加によるものである。関連して筆者は高齢者専業農家をめぐる顕著な事実として,その地域分布に偏りがあること(西日本で比較的高い),離農の温床としてこの高齢者専業農家があることを指摘している。
算術平均のもうひとつの使い方は,その数理的利用である。単一あるいは複数の統計資料の数値を配列するとそこに形式的秩序があらわれ,それは統計的規則性と呼ばれる。統計的規則性の現れ方の主要形態として,度数分布の形態にあらわれるもの,時系列や場所的系列(地理的系列)にあらわれるものとがある。
算術平均は,中位集中型の統計的規則性を前提としている。数値の集合が算術平均によって代表される根拠は,偏差和ゼロというミッド基準で説明できるが,その集合では算術平均こそが本来の数値であることになる。このことを示すために,筆者は誤差理論の説明から入り,測定値の集合の各数値と偶然誤差の和とみなすことが確率モデル導入の契機となるとが,測定値とみなせない場合にはこれを確率モデルの仮定的擬制と呼ぶとし,こうした場合に算術平均をもとめることがその真値を知る最良の手続きであることが数学的に証明できると述べている。
証明のために必要とされるのは,離散的確率変数の確率分布,平均,分散についての知識であるが,それはわかっているとして,筆者は「一個の歪んだサイコロを5回投げた結果をもとに,この確率分布の平均をもっともありうるべきものとして推定する」という問いを,いる。推定の基準は,標本に関する線形の関数型で,かつ不偏であるもののうち最良のものになるが,この基準を充たす関数型は最良線形不偏推定量(BLUE)と呼ばれる。上記の問いに対する解答は,「標本に関するBLUEがその算術平均」であるということになる。
数値の集合にみられる統計的規則性を拡大解釈して確率モデルを擬制し,そこに想定された母集団の平均を,最良を意味する最良線形不偏推定量という基準で推定しようとすると,算術平均がまさにそれにあたる。この場合の算術平均は,偏差和ゼロを「真中」とするミッド基準から一歩進んで,最良線形不偏推定量という基準に関するかぎり,算術平均が唯一無二のものである,と解釈される。しかし,人はこのように踏み出された数理統計学的論証の道から社会的事実の論理や社会諸科学の理論を導きの糸として実証分析の道に戻ることは不可能である。数理解析の道が「帰らざる河」(オットー・プレミンジャー監督,ロバート・ミッチャム・マリリン・モンロー主演,1954年)である所以である。(p.280)
記述統計の基礎的で主要概念である算術平均(代表値)の社会科学分野における位置づけと,この概念を分岐点とした2つのその利用方向について解説した論稿。
構成は次のとおり。「1.「中」と「代表値」「2.算術平均-代表としての「真中」①団体・集団を代表する構成要素,②数値の集合を「真中の値」で代表させる-算術平均」「3.算術平均の性質-「帰らざる河」か「戻りうる河」-;①算術平均は唯一無二の「真中」ではない,②算術平均と分散,③分岐点にたつ算術平均」「4.算術平均の使い方(1)-社会科学的実証分析へ-;①専兼業別農家を算術平均から見る,②専業農家は等質か-分類してから算術平均を見る-」「5.算術平均の使い方(2)-確率モデルと数理的利用-;①統計的規則性-その主要形態,②確率変数の平均と分散-確率モデルの導入-,③最良の推定量としての標本平均-「帰らざる河」への舟出-」
社会には諸団体や諸集団があり,それぞれを代表するものがある。法人や団体の形をとる実在的存在がひとつ考えられるが,他に社会的集団をある構成要素で形式的に代表させる場合がある。筆者はこの代表者を定める4つの基準をあげている。第一はマックス基準(最大,最高,最強など),第二はベスト基準(条件付きの最良),第三はモースト基準(最多を占めるもの),第四はミッド基準(中位のもの)である。統計学で使われる平均ないし算術平均は,このうちのミッド基準を基礎に,その数学的精緻化をはかったものである。
ミッド基準で代表を考えるときには,個性的要素からなる集団のなかの数値集団が前提となる。その位置づけの仕方を考慮すると,ミッド基準は「中ごろ」「中位」といった曖昧な表現ではすまず,「真中の数値」で代表させなければならない。しかし,「真中」といってもメジアンもあればモードもある。またある「真中」に関し,それを上回る分と下回る分とが相殺されるようにそれを決める方法もある。確認しておきたいのは,各数値の偏差和をゼロとする値が各数値の和を総度数で割った値,すなわち算術平均と一致することである。
統計資料は社会的集団現象のある側面に関する数量的全体像を与えるだけでなく,形式論理的に厳密な比較や推論を可能にする数量的表現をもつ。また,統計資料が数値の集合の形をとっていることは,統計調査の前提である社会的集団現象や社会構造概念を棚上げし,数値の集合そのものへの算術的演算の導入,さらにはより高度な演算を可能にする。
算術平均は,上記のように,数値の集合に関して「偏差和をゼロとする値」という数理的形式的約束事のもとに成立する概念である。ところがこの算術平均が唯一無二の指標に受けとられることがしばしばある。しかし,それは誤りである。筆者はその例証として幾何平均でなければ成立しない場合をあげ,このことを裏付けている。算術平均が普及しているのは,それが幾何学や力学上の重心と結びついているからであり,また数値の集合のバラツキを示す指標(分散や標準偏差)と関係づけることができるからである。
筆者はここから算術平均を手掛かり(分岐点)に,数値の集合からその母胎である統計資料に,さらにその背後にある社会的集団現象へ遡っていくことができるとし,その方向を構想する。対極で,数理統計学の世界では,算術平均は確率モデル導入の前提としておかれ,その数理的利用がはかられている(「帰らざる河」)。
筆者は前者の方向を農家・農業経営の諸特徴を示す数値の算術平均,とくに専兼業別のそれからスタートさせる。示されている統計資料は,「専兼業別に見た農家の諸特徴(1980年)」で専業農家,第一種兼業農家,第二種兼業農家,男子生産年齢人口有無別専業農家について,経営耕地面積,借入耕地面積,農業専従者数,農産物販売金額の算術平均を一覧した表である。筆者はその中に合点がいかない数値がある,と述べている。それは第一種兼業農家の経営耕地面積が専業農家のそれより広いことである。このような数値の矛盾にぶつかったときには,表示単位の定義,表示事項とその分類基準,さらに調査単位や調査事項を見直さなければならない。
筆者がここで強調するのは,算術平均の組み合わせで農家のような,構造をもつものの集団を代表させるさい重要な前提があり,それは集団が均質な要素からなっていること,かつ変異を示す特徴に関してできるだけ中位に集中していること,である。前掲の表の例で言うと,専業農家には男子生産年齢人口がいる世帯といない世帯,すなわち高齢専業農家(一部母子世帯を含む)とがある。専業農家のなかのこの区分は,この種の実証分析で不可欠である。事実,経営耕地面積の算術平均はこの高齢者専業農家を考慮して見直すと,男子生産年齢人口がいる専業農家,第一種兼業農家,第二種兼業農家,高齢専業農家の順に広大きく,納得のいく資料になる。1980年からの専業農家数を第一種兼業農家数が上回ったという逆転現象は,この高齢者専業農家数の増加によるものである。関連して筆者は高齢者専業農家をめぐる顕著な事実として,その地域分布に偏りがあること(西日本で比較的高い),離農の温床としてこの高齢者専業農家があることを指摘している。
算術平均のもうひとつの使い方は,その数理的利用である。単一あるいは複数の統計資料の数値を配列するとそこに形式的秩序があらわれ,それは統計的規則性と呼ばれる。統計的規則性の現れ方の主要形態として,度数分布の形態にあらわれるもの,時系列や場所的系列(地理的系列)にあらわれるものとがある。
算術平均は,中位集中型の統計的規則性を前提としている。数値の集合が算術平均によって代表される根拠は,偏差和ゼロというミッド基準で説明できるが,その集合では算術平均こそが本来の数値であることになる。このことを示すために,筆者は誤差理論の説明から入り,測定値の集合の各数値と偶然誤差の和とみなすことが確率モデル導入の契機となるとが,測定値とみなせない場合にはこれを確率モデルの仮定的擬制と呼ぶとし,こうした場合に算術平均をもとめることがその真値を知る最良の手続きであることが数学的に証明できると述べている。
証明のために必要とされるのは,離散的確率変数の確率分布,平均,分散についての知識であるが,それはわかっているとして,筆者は「一個の歪んだサイコロを5回投げた結果をもとに,この確率分布の平均をもっともありうるべきものとして推定する」という問いを,いる。推定の基準は,標本に関する線形の関数型で,かつ不偏であるもののうち最良のものになるが,この基準を充たす関数型は最良線形不偏推定量(BLUE)と呼ばれる。上記の問いに対する解答は,「標本に関するBLUEがその算術平均」であるということになる。
数値の集合にみられる統計的規則性を拡大解釈して確率モデルを擬制し,そこに想定された母集団の平均を,最良を意味する最良線形不偏推定量という基準で推定しようとすると,算術平均がまさにそれにあたる。この場合の算術平均は,偏差和ゼロを「真中」とするミッド基準から一歩進んで,最良線形不偏推定量という基準に関するかぎり,算術平均が唯一無二のものである,と解釈される。しかし,人はこのように踏み出された数理統計学的論証の道から社会的事実の論理や社会諸科学の理論を導きの糸として実証分析の道に戻ることは不可能である。数理解析の道が「帰らざる河」(オットー・プレミンジャー監督,ロバート・ミッチャム・マリリン・モンロー主演,1954年)である所以である。(p.280)