まず，驚くところは，Julia の k-means 関数では，データを ncol x nrow であたえるところ。
よく，help も読まないでやると，戸惑う所の騒ぎではない。
ということで，データを transpose して与えないといけない。
これくらいのこと，ユーザに強いるなよ！！

using RDatasets
iris = dataset("datasets", "iris");
a = Matrix(iris[!, 1:2]);
using Clustering, Plots
ncluster = 3;
R = kmeans(a', 3;  maxiter=200) # データを transpose して与えること！！！　a'  よりは，わかりやすく transpose(a) とする
a = assignments(R);
c = counts(R);
M = R.centers;
println(a) # 結果として，どこに分類されたか

[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3 ...

M[1,:] # 各クラスターの平均値

3-element Array{Float64,1}:
 5.800000000000001
 6.823913043478258
 5.003921568627451

図に描いてみよう

分類結果

3×3 Named Array{Int64,2}
 Dim1 ╲ Dim2 │  1   2   3
────────────────────────────
setosa        │  0   0  50
versicolor    │ 38  12   0
virginica     │ 15  34   1

 R ではどんな風にやるのかな？？

R"""
a = kmeans(iris[1:2], 3)
plot(iris[,1], iris[,2], col=rep(1:3, each=50))
points(a$centers, pch=17, col=c(1,3,2), cex=2)
"""

RObject{IntSxp}
            a$cluster
iris[, 5]     1  2  3
  setosa     50  0  0
  versicolor  0 38 12
  virginica   0 15 35

using HypothesisTests

x = [2,1,3,2,4,3,2,3,4,5];

y = [3,2,3,4,5,6,3,2,3,3,3,4,3,2,6];

UnequalVarianceTTest(x, y)

Two sample t-test (unequal variance)
------------------------------------
Population details:
    parameter of interest:   Mean difference
    value under h_0:         0
    point estimate:          -0.566667
    95% confidence interval: (-1.6209, 0.4876)

Test summary:
    outcome with 95% confidence: fail to reject h_0
    two-sided p-value:           0.2760

Details:
    number of observations:   [10,15]
    t-statistic:              -1.1192102478745312
    degrees of freedom:       20.56776717709893
    empirical standard error: 0.506309397848002

using RCall

R"""
options(digits=15)
a = t.test($x, $y)
print(a)
print(a$statistic)
print(a$p.value)
"""

	Welch Two Sample t-test

data:  `#JL`$x and `#JL`$y
t = -1.119210247875, df = 20.5677671771, p-value = 0.275951369175
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.620943659272958  0.487610325939624
sample estimates:
       mean of x        mean of y 
2.90000000000000 3.46666666666667 

                t 
-1.11921024787453 
[1] 0.275951369174595

RObject{RealSxp}
[1] 0.275951369174595

R"a"

RObject{VecSxp}

	Welch Two Sample t-test

data:  `#JL`$x and `#JL`$y
t = -1.119210247875, df = 20.5677671771, p-value = 0.275951369175
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.620943659272958  0.487610325939624
sample estimates:
       mean of x        mean of y 
2.90000000000000 3.46666666666667

R"""
group = rep(factor(c("x", "y")), c(length($x),length($y)))
value = c($x, $y)
a = boxplot(value ~ group)
"""

RObject{VecSxp}
$stats
     [,1] [,2]
[1,]    1    2
[2,]    2    3
[3,]    3    3
[4,]    4    4
[5,]    5    5
attr(,"class")
        x 
"integer" 

$n
[1] 10 15

$conf
                 [,1]             [,2]
[1,] 2.00072025938679 2.59204575419949
[2,] 3.99927974061321 3.40795424580051

$out
[1] 6 6

$group
[1] 2 2

$names
[1] "x" "y"

	Model	Cyl	MPG	WT
	String	Int64	Float64	Float64
1	Mazda RX4	6	21.0	2.62
2	Mazda RX4 Wag	6	21.0	2.875
3	Datsun 710	4	22.8	2.32
4	Fiat 128	4	32.4	2.2
5	Honda Civic	4	30.4	1.615
6	Toyota Corolla	4	33.9	1.835
7	Fiat X1-9	4	27.3	1.935
8	Porsche 914-2	4	26.0	2.14
9	Lotus Europa	4	30.4	1.513
10	Ford Pantera L	8	15.8	3.17
11	Ferrari Dino	6	19.7	2.77
12	Maserati Bora	8	15.0	3.57
13	Volvo 142E	4	21.4	2.78

Model	WT
"Mazda RX4"	2.62
"Mazda RX4 Wag"	2.875
"Datsun 710"	2.32
"Fiat 128"	2.2
"Honda Civic"	1.615
"Toyota Corolla"	1.835
"Fiat X1-9"	1.935
"Porsche 914-2"	2.14
"Lotus Europa"	1.513
"Ford Pantera L"	3.17
⋮	⋮

	【gooブロガー・先着】dアカウント連携でdポイント2,000pt
	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム，コンピュータ・サイエンス，統計学

Julia で k-means クラスター分析

Julia のデータフレームで Query

Julia と R のコラボレーションを jupyter notebook で記録

PVアクセスランキングにほんブログ村

プロフィール

最新記事

バックナンバー

カレンダー

カテゴリー

最新コメント

雨雲の動き

goo blog お知らせ

goo blog おすすめ

2021年1月
日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム，コンピュータ・サイエンス，統計学

Julia で k-means クラスター分析

Julia のデータフレームで Query

Julia と R のコラボレーションを jupyter notebook で記録

PVアクセスランキング にほんブログ村

プロフィール

最新記事

バックナンバー

カレンダー

カテゴリー

最新コメント

雨雲の動き

ログイン

goo blog お知らせ

goo blog おすすめ

PVアクセスランキングにほんブログ村