裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

もっと簡単な方法がある

2010年08月30日 | ブログラミング
こんな風なcsvファイルがあったとする。
hoge, 2
fuga, 3
piyo, 1

これは文章中にhogeが2回、fugaが3回、piyoが1回出てきたというようなものを表わしている。ここで、このcsvの情報から単語 の登場回数の密度推定をやって欲しいとか言われたとする(ex:自然言語処理特論)。この情報から密度推定をしようと思うと、Rなら次のようなベクトルが 必要になる。

c(hoge, hoge, fuga, fuga, fuga, piyo)

これを,こんな風にしている
unlist(apply(d, 1, function(x){rep(x[1], x[2])}), use.names = FALSE)


もっと簡単な方法がある。以下のようにすればよい。
> rep(as.character(d$word), d$count)
[1] "hoge" "hoge" "fuga" "fuga" "fuga" "piyo"
コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 大域変数への代入 | トップ | 黄金四角形(黄金長方形)を ... »
最新の画像もっと見る

コメントを投稿

ブログラミング」カテゴリの最新記事