2012年12月のブログ記事一覧-ひしだまの変更履歴

AZAREA Tips

2012-12-24 21:27:13 | PG（分散処理）

AZAREA-Cluster Framework 0.9.0の現時点でのTipsを書いてみた。
（ついでに、思い付くポイントでAsakusa Frameworkと比較してみた）

ところで、AZAREAはフローを別々に定義して1つのアプリケーションにまとめることが出来る。（AsakusaFWがBatch DSLで複数のFlowをまとめるような感じ）
1つの入力から4種類の集計を行うサンプルが落ちたのはフロー1つに処理をまとめ過ぎた所為かもしれないと思ったので、フローは分けた上でアプリケーションで1つにまとめてみた。
しかし、アプリケーション内のフローをまとめてMapReduceジョブにするようで、（それはそれで最適化としてはよく出来ていると思うけれども）結果は同じになった。

結局のところ、AZAREAもAsakusaFWも“大規模で複雑な基幹バッチを対象にしている”と謳っているが、「大規模」「複雑」の指している内容が違うのかもしれない。
4種類の集計程度でも実際に動かしてみるとAZAREAアプリは落ちたりするんで、現時点のAZAREAは大規模なアプリケーションには実用的でないような気がする。
ただ、GUIでフローを描けるのは面白いので、小規模なMapReduceアプリを作りたいんだったらAZAREAは便利だと思う。（WordCountは今までで一番早く作ることが出来たし（たぶん15分くらいで作れるｗ））

（※あくまで個人の意見です。何か見逃しがあるような気がするので、他の人の検証結果も聞いてみたいなぁ）

AZAREAの実行速度

2012-12-21 23:59:45 | PG（分散処理）

Hadoopアドベントカレンダー2012 #hadoopAC12jpの21日目です。

今までHadoop関連のツール・フレームワークが出る度に、それで作ったアプリケーションの実行時間を計ってきたので、AZAREA-Cluster Frameworkでも計ってみました。
（あ、ついでにAsakusa Frameworkも0.2のbatchapp版で古かったので、0.4のDirect I/O版に修正しました）

まずはWordCount。
AZAREAはけっこう速いです。
素のMapReduce（Java）とC言語によるストリーミング（とCacading）が一番速いのですが、それに次ぐ順位に来ました。
Combinerは使ってなさそうなのに効率が良いのは、Hiveの様に何か特別な処理をしているのかもしれません。

次は1つの入力から4種類の集計を行うアプリ。
ところが、これは落ちましたorz
最適化を行って3つのMapReduceジョブに集約されているのですが、落ちたのは1つ目です。
スタンドアローンモードで動かすと「Unexpected key」というエラーで、分散環境ではOutOfMemoryErrorでした。
スタンドアローンモードと同じデータをシミュレーターで実行するとちゃんと通るんですけどねぇ。
（あ、ちなみにこのアプリのフローの図は偏差値のサンプルと違ってちゃんと出ました。横に長くなって線がかぶってしまうのは仕方ないと思います(笑)）

コメント (1)

AsakusaFW DirectI/O版偏差値算出サンプル

2012-12-19 23:59:21 | PG（分散処理）

Hadoopアドベントカレンダー2012 #hadoopAC12jpの19日目です。

Asakusa FrameworkでDirect I/O版の偏差値算出サンプルを書きました。

昨日、AZAREA-Clusterフレームワークで偏差値算出サンプルを作ってみたので、AsakusaFW版と比較してみようと思って久しぶりに見てみたのですが、CoGroupを使っていてびっくり＾＾；
元々、AsakusaFWを初めて試せるようになった頃にWordCountの次に作ったのが偏差値算出サンプルなので、まだ演算子についてもよく分からず、とりあえず何でも出来て便利なCoGroupを使いまくっていたのでした(苦笑)
しかしCoGroupは最適化の妨げになるのでなるべく使わないようにすべき！という訳で、CoGroupを使わないバージョンを作ってみたのでした。

で、出来るには出来たんですが、意外と面倒でしたね＾＾；
どういうデータモデルを用意してどう演算していけばいいかを考えるのは大変でした。
この辺りはAZAREAでも悩んだので、フローの図が描けるかどうかはあまり関係ないですね＾＾；

ただ、久しぶりにAsakusaFWがDSL（ドメイン特化言語）を意識していることを実感しました。
Operatorでメソッドを書く（メソッド名を決める）のは、そのドメインの語彙を用意することに相当します。
今回の例で言えば、「偏差値を算出する（というドメイン）」で使う用語（「平均を算出する」とか「標準偏差を算出する」とか）を定義しているわけです。
そして、Jobの定義では（基本的に）その語彙だけを使って処理を記述することが出来ます。
（Eclipseを使うという制約からJavaをホスト言語としているので、くどい表記になっている部分もありますが＾＾；この辺りはScalaで書けるといいですよね～ｗ）
（ただし、今回作ったものは自分の命名能力が貧弱なせいであまり良い語彙になっていませんがorz）
（ついでに言えば、Operatorで入出力データの型を決めているので、ジョブを書く際には間違ったデータを入れようとするとコンパイルエラーになるので、誤りは減りますね。型付け万歳！ｗ）

AsakusaFWはフローをGUIで描く機能はありませんが、Graphvizを使って図を生成することは出来ます。
AZAREAのフローに相当するフローグラフと、どのようなMapReduceジョブに変換されるかを表すステージグラフの2種類が出せます。（実際はもっと色々な種類があります）
これらのグラフには前述の“語彙（Operatorのメソッド名）”が表示されるので、ちゃんとした命名をしていれば、グラフを見るだけでおおよそ何をしているか分かるはずです。

で、偏差値算出のプログラムはAsakusaFW版もAZAREA版も似た感じになったのですが、AZAREAのMapReduceは6個でAsakusaFWは4個でした。
一般的にはMapReduceジョブ数が少ない方が全体の実行時間は短くなると思われるので、AsakusaFWは最適化をけっこう頑張ってますよね。
個々のMapReduce処理の効率が分からないので、実際にどちらが速いかは、実行してみないことには何とも言えないのですが。

AZAREAを試してみた

2012-12-18 23:59:10 | PG（分散処理）

Hadoopアドベントカレンダー2012 #hadoopAC12jpの18日目です。

AZAREA-Clusterの疑問点をブログに書いていたら回答をいただきました。まさか反応があると思っていなかったので、びっくり！ありがとうございます！
で、個人でもダウンロードの申込が出来るとのことだったので、申し込んで無事ダウンロードできました。

早速インストールして試してみました。
GUIは思っていたより動作が軽いですね！（もっとも、僕のPCはEclipseのScalaプラグインも特に問題なく動くスペックなので、参考になるかどうか微妙ですが＾＾；）

WordCountは今までで一番簡単に作れたかも(笑)
（どの処理クラスを使うかについてはさすがにちょっと迷いましたが）

また、WordCountより複雑なものとして、例によって偏差値算出のサンプルも作ってみました。
やはりWordCount程度では分からない問題がいくつか出てきましたね。
集計処理用のGroupが入力と出力で同じ種類のEntityしか受け付けられないようなので、事前にConversionで変換しておかないといけないのが面倒なところ。そのせいでフロー上のステップがだいぶ増えてしまった印象です。
あと、分岐・結合しているのに再表示されたフローがそういう風にならない（見えない）のはさすがにどうかと…。
AZAREAのバージョンはまだ0.9なので、その辺りは今後に期待というところでしょうか。

さて、コーディングしていて非常に気になった点が、ライセンスについてです。
評価版が評価にのみ使用できるというのは問題ありませんね。まさに試したくて使っているわけですし(笑)
AZAREAの存在および評価を第三者に開示できるというのも有り難いです。試した結果をウェブページに書いて公開したいですし(笑)（わざわざ「存在を開示してよい」と書いてあるのは珍しい気がしましたが、商用製品だと、存在すら秘密にするような事もあるのでしょう、きっと）
問題なのは、リバースエンジニアリング禁止ですね。普通のソフトウェア（WordとかExcelとか）だったら特に問題ないのですが、ソースを生成するタイプのフレームワークではどうなのでしょう。生成されるソースで使っているクラスやメソッドは、どういう仕様（使い方）なのか知りたいところです。しかし、親クラスはAZAREAの提供するクラスです。ダウンロードしたアーカイブの中にソースは当然ありませんでしたし、Javadocも入っていませんでした。そこでクラスを調べようとしたら、リバースエンジニアリングになる可能性があるのでは？という懸念が出てくると思うのです。
また、AZAREAで作ったプログラムはデバッガーでテストできますが、例えば間違って変なデータを渡してAZAREAフレームワーク内部で例外が発生してデバッガーで停止したりしたら、それもリバースエンジニアリングの範疇に入ってしまう？？
すると、作ったアプリで例外が発生したら、開発者が自分で調査せずに即サポート行きにするしかないんでしょうか。それだと解決までに時間がかかって開発者も大変だし、つまらない問い合わせが増えてサポートの人も大変だと思うのですが…。
もっとも、評価版のライセンスがこうだというだけで、商用ライセンスだと違うのかもしれませんね。

そう考えると、OSSって有り難いですね(笑)
最近は何かあるとソースを見るのが当たり前になっていて、気付きませんでした＾＾；

コメント (1)

分散キャッシュの例

2012-12-15 23:58:59 | PG（分散処理）

Hadoopで分散キャッシュのコーディング方法を試して、irofさんによってmzpさんを量産するサンプルを作ってみました。

当ブログでは、なんでそうなったか…を書いておきますｗ

Hadoopアドベントカレンダーのネタがさすがに尽きたなぁと思っていたところに、skrbさんがJavaFX Advent Calendarでいろふさんのネタを使ってるじゃないですか！
他にもいろふカレンダーに触れているものがあるらしいし、これはHadoopもいろふさんに絡めるしか…！と思いつつも、難しいかなぁと思ったのですが、mike_neckさんが良いアイデアを出してくれましたｗ
これに以前見かけたみずぴーさん量産の話をくっつけたのが今回のネタです。

ちなみにどこかではぶれいすさんの量産に成功したらしいですが、自分の技術力では出来ませんでした…＾＾；

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

2012年12月
日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

前月

次月

バックナンバー

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#ガーデニング」をチェック