ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

Huahin FrameworkでWordCount

2012-06-30 02:25:37 | PG(分散処理)

Huahin(ほあひん) FrameworkというHadoopをラップしたフレームワークをryu_kobayashiさんが公開されたので、早速WordCountを作ってみた

2011年のHadoop Conference Japanのryu_kobayashiさんのLTで「Pig/HiveAsakusaFWの中間のフレームワークが欲しい」(確かあの当時、新しいフレームワークか何かが出そうって話があって、それが望むものかどうか様子を見る)と言っていたような気がするけど、結局自分で作っちゃったんだなw すごい。

レコードを区切り文字で区切って各フィールドに名前を付けて値を取得する、という考え方はCascadingと似ている気がするけど、実際にコーディングしてみると、Cascadingよりずっとシンプル。
MapReduceの薄いラッパーなのでどう動作するかイメージしやすいし、CSVやTSVファイルを対象にした簡単なMapReduceをちょろっと作りたいようなときには、確かに便利そう。


コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« Oracle Loader for Hadoop | トップ | SqoopのSQL »
最新の画像もっと見る

コメントを投稿

PG(分散処理)」カテゴリの最新記事