統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

Copilot(AI)で統計データ作成(1)

2024-05-08 11:53:35 | 日記・エッセイ・コラム

Copilot(AI)で統計データ作(1)

Copilotに、
自分→
 「異なる母集団から正規分布の2つの標本を50個作って下さい」・・とすると、

回答→
 次の様な2つのファイルが作成されました。

 ・data1.csv、・data2.csv

***
「data1.csv」
-1.01E+00
-2.71E+00
-3.90E+00
-2.65E+00
-1.88E+00

「data2.csv」
9.05E-01
9.15E-01
1.93E+00
5.69E+00
-1.35E+00


***
さらに、「ヒストグラムを作成して下さい」・・とすると、図1と図2の様なヒストグラムが作成されました。

図1:「data1.csv」のヒストグラム

 (赤色縦線=平均値(Mean)、緑色縦線=中央値(Median)がほぼ同じの分布)

図2:「data2.csv」のヒストグラム

 (赤色縦線=平均値(Mean)、緑色縦線=中央値(Median)が異なる分布)

ここでは、
上記のデータをExcelで図3の様なデータに編集して見ました。

図3 Excel で編集したデータ

[AI_dat-A]
mean(平均値)=2.075, sd(母集団標準偏差)=0.949

[AI_dat-B]
mean(平均値)=2.065, sd(母集団標準偏差)=2.508

以上から、分散の√である標準偏差が大きく異なっていることが分かります。

このExcel編集データを用いて「独立2群の平均値の差の検定」を行って見ましょう。

検定の方法は、情報統計研究所(閲覧のみ)の下記URLからアクセスして下さい。
 https://kstat.sakura.ne.jp/

[医学統計手法の開設]→[やさしい医学統計手法]→最下段の[10. 統計技術(ここをクリック)]

[統計技術(目次) 第Ⅰ部 パラメトリック法の技術]

[第7章-2]の[link]をクリック
 http://toukei.sblo.jp/article/187281663.html

ここでは、
検定対象である2つの標本の分散が等しいとみなされるか(等分散)か、等しくないとみなされるか(非等分散)で検定の方法が異なることについて述べています。

2標本の等分散性については「第7章-1」(http://toukei.sblo.jp/article/187266646.html)を参考にして下さい。

それでは、
2標本([AI_dat-A]と[AI_dat-B])について、「独立2群の平均値の差の検定」をやって見ましょう。

まずは、
「Excel」で等分散性の検定方法を「=F.TEST」でやって見よう。

   「=F.TEST」は p<0.0001(両側確率)であり”等分散とは言えない”、すなわち、2つの標本の分散は異なると判断される。

したがって、
[Excel]→[データ]→[データの分析]→[t検定:分散が等しくないと仮定した2標本による検定] を選択し実行。実行(検定)結果は図4の通りです。

図4 Excel の結果

「独立2群の平均値の差の検定」(不等分散)の結果は、「P(T<=t)両側 0.978009066」であり、
 2つの標本の平均値に差はないと判断され、「Welch's t-test」と同じである。

また、
下記URLのFree online soft を使用方法に従い実行すれば、より多くの統計量を得ることが出来るので試して見て下さい。

アクセス先(URL):
 https://www.wessa.net/rwasp_twosampletests_mean.wasp

図5 ノッチ付き箱ひげ図(BoxPlot)


次回に続く!