統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

閲覧数などの推移

2024-06-23 14:34:03 | 日記・エッセイ・コラム

本ブログに掲載中の記事(主として統計)の「トータル閲覧数:306,381 PV」、「トータル訪問者数:211,694 UU」となっています。5月から6月のPV・UUの推移は図の通りです。情報統計研究所は閉所となりましたが、本ブログは続けて行きたいと思っていますので、よろしくお願いします。

 


Copilot(AI)で統計データ作成(2)

2024-05-25 10:56:06 | 日記・エッセイ・コラム

Copilot(AI)で統計データ作成(2)

Copilotに、
自分→
 「統計学のノンパラメトリック検定に適した2つの標本データを作成して下さい」・・と聞いて見ました。

回答→
***
もちろんです!ノンパラメトリック検定に適した2つの標本データを作成します。ノンパラメトリック検定は、
通常の正規分布を仮定しない統計的手法で、対応のある2標本(ペアのデータ)や対応のない2標本(独立したデータ)の差を評価します。

以下に、対応のある2標本と対応のない2標本のデータを作成します。

1. **対応のある2標本データ**:
    - 例えば、特訓前と特訓後の50m走タイムを考えましょう。
    - データは以下のようになります:

        | No. | 特訓前50m走タイム (s) | 特訓後50m走タイム (s) |
        | --- | ---------------------- | ---------------------- |
        | 1   | 10.0                   | 9.0                    |
        | 2   | 8.5                    | 8.0                    |
        | 3   | 7.0                    | 9.0                    |
        | 4   | 9.5                    | 7.0                    |
        | 5   | 6.5                    | 6.5                    |
        | 6   | 7.5                    | 7.0                    |

    - データの差を求め、順位を付与します。差が0のデータは除外します。
    - 正の値の合計順位と負の値の合計順位を計算し、検定統計量を求めます。

2. **対応のない2標本データ**:
    - 例えば、2つのグループの身長データを考えましょう。
    - データは以下のようになります:

        | グループ1 | グループ2 |
        | --------- | --------- |
        | 170       | 175       |
        | 165       | 180       |
        | 175       | 172       |
        | 168       | 178       |
        | 172       | 176       |

    - データの大小を比較し、符号を付与します。等しいデータは除外します。
    - 正の値の合計順位と負の値の合計順位を計算し、検定統計量を求めます。

これらのデータを使って、ウィルコクソンの符号付き順位検定や符号検定を実施できます。

どちらの検定も、データが正規分布を仮定しない場合に有用です
***

ここでは、
上記の「2. **対応のない2標本データ**」について検証して見ましょう。
さて、
ここでの「Gooブログ#統計技術」では、"Free Online Calclator" による方法を紹介しています。

***
統計技術;
第2章-1 第Ⅱ部:独立2標本の有意差検定について
  http://toukei.sblo.jp/article/188692882.html

Wessa.net - Web-enabled scientific services & applications
   https://www.wessa.net/rwasp_Reddy-Moores%20Wilcoxon%20Mann-Witney%20Test.wasp 

(使用方法に従い実行して下さい)
[出力結果]
  Wilcoon Mann-Whitney Tesat: Statistics=7 , p=0.29333

Statistics Kingdom
 https://www.statskingdom.com/170median_mann_whitney.html

(使用方法に従い実行して下さい)
[出力結果]
Rank=22 , 33
U=18 , 7 
Statistics[Z=-1.0509 , p=0.2933]

R Code
The following R code should produce similar results:

x1<-c(170,185,175,168,172)
x2<-c(175,180,172,178,176)
wilcox.test(x1, x2, alternative = "two.sided", paired = FALSE, exact = FALSE, correct = TRUE)

方法:
マン・ホイットニーの u 検定計算ツールでは 3 つの方法を使用できます。 「自動」方法を使用することをお勧めします。
自動 - n1≤20 および n2≤20 で、データにタイがない場合、ツールは正確な値を使用します。それ以外の場合、ツールは Z 近似を使用します。
正確 - n1≤20 および n2≤20 の場合、ツールは考えられるすべての組み合わせに基づいて計算された正確な値を使用します。それ以外の場合、ツールは Z 近似を使用します。
Z 近似 - ツールは Z 近似を使用します。
***

以上の結果から、
「グループ1と グループ2」のグループ間に有意な差があるとは言えない。

 


Copilot(AI)で統計データ作成(1)

2024-05-08 11:53:35 | 日記・エッセイ・コラム

Copilot(AI)で統計データ作(1)

Copilotに、
自分→
 「異なる母集団から正規分布の2つの標本を50個作って下さい」・・とすると、

回答→
 次の様な2つのファイルが作成されました。

 ・data1.csv、・data2.csv

***
「data1.csv」
-1.01E+00
-2.71E+00
-3.90E+00
-2.65E+00
-1.88E+00

「data2.csv」
9.05E-01
9.15E-01
1.93E+00
5.69E+00
-1.35E+00


***
さらに、「ヒストグラムを作成して下さい」・・とすると、図1と図2の様なヒストグラムが作成されました。

図1:「data1.csv」のヒストグラム

 (赤色縦線=平均値(Mean)、緑色縦線=中央値(Median)がほぼ同じの分布)

図2:「data2.csv」のヒストグラム

 (赤色縦線=平均値(Mean)、緑色縦線=中央値(Median)が異なる分布)

ここでは、
上記のデータをExcelで図3の様なデータに編集して見ました。

図3 Excel で編集したデータ

[AI_dat-A]
mean(平均値)=2.075, sd(母集団標準偏差)=0.949

[AI_dat-B]
mean(平均値)=2.065, sd(母集団標準偏差)=2.508

以上から、分散の√である標準偏差が大きく異なっていることが分かります。

このExcel編集データを用いて「独立2群の平均値の差の検定」を行って見ましょう。

検定の方法は、情報統計研究所(閲覧のみ)の下記URLからアクセスして下さい。
 https://kstat.sakura.ne.jp/

[医学統計手法の開設]→[やさしい医学統計手法]→最下段の[10. 統計技術(ここをクリック)]

[統計技術(目次) 第Ⅰ部 パラメトリック法の技術]

[第7章-2]の[link]をクリック
 http://toukei.sblo.jp/article/187281663.html

ここでは、
検定対象である2つの標本の分散が等しいとみなされるか(等分散)か、等しくないとみなされるか(非等分散)で検定の方法が異なることについて述べています。

2標本の等分散性については「第7章-1」(http://toukei.sblo.jp/article/187266646.html)を参考にして下さい。

それでは、
2標本([AI_dat-A]と[AI_dat-B])について、「独立2群の平均値の差の検定」をやって見ましょう。

まずは、
「Excel」で等分散性の検定方法を「=F.TEST」でやって見よう。

   「=F.TEST」は p<0.0001(両側確率)であり”等分散とは言えない”、すなわち、2つの標本の分散は異なると判断される。

したがって、
[Excel]→[データ]→[データの分析]→[t検定:分散が等しくないと仮定した2標本による検定] を選択し実行。実行(検定)結果は図4の通りです。

図4 Excel の結果

「独立2群の平均値の差の検定」(不等分散)の結果は、「P(T<=t)両側 0.978009066」であり、
 2つの標本の平均値に差はないと判断され、「Welch's t-test」と同じである。

また、
下記URLのFree online soft を使用方法に従い実行すれば、より多くの統計量を得ることが出来るので試して見て下さい。

アクセス先(URL):
 https://www.wessa.net/rwasp_twosampletests_mean.wasp

図5 ノッチ付き箱ひげ図(BoxPlot)


次回に続く!

 


歌舞伎「義経千本桜」イメージ

2024-04-21 17:43:23 | 日記・エッセイ・コラム

生成AIによる歌舞伎「義経千本桜」の下記作詞のイメージを"Copilot"で作成してみました。

一.静かなる吉野の山に、桜花舞い散る
  義経の影、ひそやかに月に問
  弁慶の力強き足音、遠く響く

二.渡海屋の銀平、知盛の魂を宿し
  海の男、復讐の炎に身を焦がす
  静御前、恋しさに鼓を打ち鳴らす

三.狐の忠心、義経を守りし
  その忍び足、春の夜に紛れて
  吉野の桜、儚く散りゆく命を惜しむ

"Copilot"は日本語を一度、英訳するのでしょうか・・? 多分、この様な英訳かも知れません・・?(笑)
***
Silent Yoshino's mountains cherry blossoms scatering.
Yoshitsune's shadow secretly asks the moon.
Benkei's powerful footsteps echo far away.
***

AI を目指すなら、統計技術の知識も必要かも・・知れませんね!

 


「アトリエりりゅ」のご紹介

2024-03-16 10:44:02 | 日記・エッセイ・コラム

情報統計研究所を閉鎖(令和5年12月31日)して、統計分析関係の仕事を止めたけど、これと言った趣味もないので月2回で詩吟を習っているけど・・、特に何もしていないのに1日が速い・・、
インターネットで見つけたサイトを紹介します。
***
「アトリエりりゅ」
アート作家、小松凪衣(こまつなぎ)の作品などがみられます。 以前はデジタル系商業イラストを描いていたようで、今は手描き原画のギャラリー展示などを緩やかに行っているようです。

https://note.com/atelierliryu/
***

統計技術に関しては構想中です。