ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

Apache Hadoop on Windows Azureの片鱗

2012-01-10 21:55:55 | PG(分散処理)

蒼の王座というサイトにApache Hadoop on Windows Azureの操作例その1という記事が載っているのを発見。

マイクロソフトがDryadを諦めてAzure上でHadoopを使えるようにすると聞いて どんな風になるのか興味があったんだけど、この記事のおかげで片鱗が分かった気がする。

円周率算出やWordCountのサンプルを実行するコマンドが
call hadoop.cmd jar hadoop-examples-0.20.203.1-SNAPSHOT.jar pi 16 10000000
call hadoop.cmd jar hadoop-examples-0.20.203.1-SNAPSHOT.jar wordcount /example/data/davinci.txt DaVinciAllTopWords

という具合。

やはりJavaだから、基本はUNIX版と同じ。
Hadoopのバージョンは0.20.203がベースっぽい。
ファイルシステムもHDFSであることは変わらないようだし、ブラウザーから参照する為の管理用ポートも50030・50070で、同じだ(笑)
Azureの「call」がDOSと同じ意味のコマンドなら、hadoop.cmdはバッチファイルかな。
UNIX版ならhadoopシェルを使って起動するところだから、さすがにCygwinを使ったりせず(笑)、ちゃんとWindows用に置き換えているわけだ。

Azure用のHadoop本体のソースはきっと公開されていないと思うけど、Windows向けに色々改造しているんだろうなぁ。
そもそも元のHadoopがWindowsで動かす際にCygwinを使う必要があったのは、内部でchmodやdfといったUNIXコマンドを呼び出しているからだと思う。他にも色々あるだろうけど、そういった所を全部洗い出して修正するのは、個人ではやる気がしないが^^;、マイクロソフトが本気を出せばちょろい事だよなーきっと。



最新の画像もっと見る

コメントを投稿