2011年8月のブログ記事一覧-ひしだまの変更履歴

AsakusaFWをScalaで記述するライブラリー

2011-08-30 07:11:08 | PG（分散処理）

AsakusaFWをScalaで記述するライブラリー（不確定名：AfwHS）を作ったので、仮公開。

本当はもうちょっと動作確認・修正してから公開したかったんだけど、EclipseのScalaプラグインがご乱心でコンパイルできなくなってしまったので、出来た部分まででとりあえず仮公開する。
最小限、WordCountと偏差値算出サンプルの為にcogroupとsummarizedとconvertは作ったので、動く、はず(汗)

独自ドライバーをモデル生成時に実行する方法

2011-08-28 21:18:38 | PG（分散処理）

AsakusaFWのデータモデルドライバーを拡張して独自の処理を行えるが、ドライバーのMainクラスを直接実行する方法しか知らなかった。
が、通常のモデルクラス生成時に独自ドライバーを組み込む（実行させる）方法が分かったので、メモ。

正統な(?)方法としては、やはりMavenのpom.xmlに依存関係を追記する。
独自ドライバーはMavenのローカルリポジトリーに登録しておけばよい。

ただ、Mavenに慣れていない身としてはちょっと大仰に感じるのでｗ、慣れたAntのbuild.xmlを修正する方法もある。

Mavenから「mvn generate-resources」を実行すると、巡り巡ってasakusa-build.xmlのモデル生成タスクが呼ばれる。
これがドライバーのMainクラスを実行しているので、ここの引数にプラグインとして自分のドライバーのパスを追加しておくだけ。

ほんと、AsakusaFWの拡張性は素晴らしい。

AsakusaFWテストドライバー

2011-08-28 03:17:18 | PG（分散処理）

第4回AsakusaSCRで聞いたテストドライバーを早速試してみた(笑)

作ってみたのはJavaクラス内に直接値を保持しちゃうサンプルだけど、ループさせれば大量データは簡単に作れるね。

第4回Asakusaソースコードリーディングのメモ

2011-08-27 07:39:14 | PG（分散処理）

第4回Asakusaソースコードリーディングに参加しましたので、そのメモです。
資料： TestDriver/CI
Togetter： Asakusaソースコードリーディング第4回（#AsakusaReading）
今回のテーマはテストドライバーとCI（継続的インテグレーション）。

発表者は@apirakunさん。テストドライバーの設計/実装の担当者で、AsakusaFWのCIの仕組みも作ったそうです。

まずはテストドライバーの概要・方針から。

AsakusaFWでは、各DSLのテスト方法を提供している。
Operator…通常のJavaとしてテスト
FlowPart…DSLをコンパイルしたMapReduceに対してテスト
JobFlow…外部インターフェース（ThunderGate）と連携したテスト
Batch……ワークフローエンジン連携機能と連携したテスト（ワークフローエンジンとは、例えばMonkeyMagic）

＃“外部インターフェースとの連携”はFileImporterやExporterのこと
＃＃FlowPartとJobFlowの違いがあまり分かっていなかったが、入出力が異なるんだ！これは明快な差だなぁ
＃“ワークフロー連携機能”というと、何か連携用の機能を持ってる？
＃＃ほとんどJobFlowのテストしか動かしてないからイメージが湧かないや＾＾；

テストデータの作成をExcelで実装していることには賛否両論あったそう。でもDBUnit使うと大変だとか。

AsakusaFWの最終的な入出力対象はDBとSequenceFileだが、テスト時には違いを隠蔽している。

テスタビリティーの追求として、
１．テストが自動化できること→CIに乗せる（迅速なフィードバックを行う）・過剰な機能は削る
２．各DSLが同じ方法でテストできること
３．テスト実装方法を迷わないこと→分かりやすいようにする（シンプルにする。ただし自由度は下がる）
４．通常のJava開発と同様にテストできること→Eclipse＋JUnit
５．ローカルでテストできること→最初はCI環境・擬似分散モードでテストするつもりだったが、擬似分散環境はフィードバックが遅いので、スタンドアローンベースに方針転換した

↓↓↓↓↓↓↓↓

で、これらの方針はAsakusa Test Driver 0.1でほぼ達成できている。
しかし0.1では汎用性が無い（外部連携はThunderGateのみ、テストデータの記述はExcelのみ）ので、0.2でリアーキテクト（アーキテクトを変更）した。
0.2のNew APIは「XXXTester」というクラス名になっている。
・ThunderGate以外にも対応
・JSON・Excelに対応
・ExcelファイルはCalc（OpenOffice.orgの表計算ソフト）でも使えるようになった
・（Ashigelコンパイラーと同じく）SPIで拡張できるようにした

ExcelファイルがCalcでも扱えるようになったというのは地味に重要なようで、Windows環境以外だとExcelファイルを扱おうと思ったらOpenOfficeで使えると便利だということらしい。
ただ、今でもSI企業では基本がWindowsなので、通常のJava（Webアプリとか）の開発でもWindowsで単体テストし、結合テスト以降をUNIX機で行うことが多い。（うちの会社も典型的にそれですよorz）
なので、それを踏襲した方が受け入れやすくなるのは確かだろう。
ただ、Hadoopに限らず、今後新たな分散環境アーキテクチャーも出てくるだろうから、それも考慮して開発環境（テスト方法）を考えた方がよいとのこと。

TestDriver 0.2は、
Compiler（バッチのコンパイル）→Preparator（プリパレイター：データのインポート）→Executor（実行）→Inspector（検証）
順で機能が動作する。

↓↓↓↓↓↓↓↓

今後の機能強化として、テストを短時間で終了させるようにしたい。方法は2通り考えられる。
・Distributed Testing…テストを複数マシンで並列実行させる（現時点で行うなら、Jenkinsのスレーブを複数起動させてそれぞれ別のテストケースを実行させる。→Jenkinsでなくフレームワークでやりたい）
・Cloud Testing（AWSと連携）

＃これは目から鱗。確かにテストケースが違えば並列実行できるはずで、今はクラウドで一時的に大量の（仮想）マシンを借りることが出来るから、すごく現実的だよね！

その他の機能強化案は
・データの制約（正当な値の範囲）が決められるケースでは、チェックを自動化したい（例えばCOBOLのMOVEのような単純なデータ移送は基幹業務では多い。これは入力と出力が等しいことをチェックするだけなので、手で一々テストを書くのは面倒だし自動化できるはず。むしろテストと言うよりは、実行時に（他の要因によって）思わぬデータ更新がされていないかチェックする為のアサートを入れたい。DMDLの記述（演算子の種類）によっては制約が決められるのではないか）
・テストの仕様を追いやすくする（後から見て分かるようにする←これ同意。重要だｗ）
・テストデータのパターンを記述してテストデータを生成する（今はテストデータの「値」を記述している）

次に、「Asakusa CI on AWS」について。
＃自分は不勉強な人間なもんだから、CI？何それ？って感じだったんだけど、聞いてみたらすごく興味深い。ソース修正→ビルド→テスト→ドキュメント生成といった一連の流れをなるべく自動化して実行するということらしい。

AsakusaFW自体の開発はAWS（Amazon EC2/S3）上で行われており、CI（継続的インテグレーション）のツールとしてJenkinsを使っている。

開発環境からGitHubへpushすると、「Post Receive URLs」というフックが動いてEC2上のJenkinsマスターに通知される。
JenkinsマスターはJenkinsスレーブを起動（別のEC2インスタンスを起動）し、スレーブがビルドを行う。そしてS3上のMavenリポジトリーやドキュメントを更新する。（MavenのアーキタイプもS3上に置かれている）
また、開発環境からpushした際やビルド結果をTwitterに送っている（@asakusa_ciというユーザー。@apirakunさんと@ashigeruさんくらいしか見てないらしいｗ）。

JenkinsマスターはEC2マイクロインスタンスで起動しっぱなし。Webフロントとして使っている。
Jenkinsスレーブは当初はスモールインスタンスだったが、High-CPUミディアムインスタンスを使うことで、値段は2倍になったがビルドにかかる時間は半分になった。AmazonEC2プラグインを使うことで、30分アイドルだったら（何もする事が無かったら）自動的にインスタンスが閉じる。

「Post Receive URLs」での通知はURLが固定なので、修正された対象のブランチが分からない。そこでJenkinsのプラグインを用いて変更があるブランチだけビルドしている。
ビルドもビルドジョブを分けて多段（パイプライン）で実行している。

最後に、実際のソースコードを見てみた。

テスト実行方法はどのDSLも基本的には同じ仕組み。
最初にAshigelコンパイラーを使ってコンパイルしているが、テストでは（実際の実行とは異なり、）簡易実行計画（トポロジカルソートされたもの）を使っている。

SPIによる拡張ポイントは以下の通り。
・SourceProvider（データを読み込む。拡張子を見て実装を切り替える。0.2ではJsonSourceProviderとExcelSheetSourceProvider）
・ImporterPreparator（テストデータを入力ファイルに書き込む。ImporterDescriptionの種類（ファイル・DB）に応じて実装を切り替える）
・ExporterRetriever（出力結果ファイルを読み込む）
・VerifyRuleProvider（検証ルールを読み込む）
検証ルールはModelVerifierを継承して自分で作ることも出来る。

例として、検証データをテーブルから読み込むTableSourceProvider。「bulkloader:」というスキーマのURLのときに使われるようになっている。
AsakusaFWのissuesの64番に登録されていて、0.2.2で取り込まれるらしい。
例えばHadoopへ移植する現行システムのデータと突き合わせて結果が一致しているかどうかを検証する事を想定しているらしい。なるほど、それは需要がありそう。

テストデータの読み込みとかも自作できるようになっているのは何かに使えそう。
CIについても、Jenkinsの名前は聞いたことがあったが、内容は初めて。興味深い話が聞けたものです。

ありがとうございました。

Scalaのソースファイル分割

2011-08-26 01:23:45 | PG（Scala）

Scalaのちょいネタ。
Scalaでクラス定義のソースファイルの分割っぽいものが出来た。

まぁ、ただ単にクラス内のメソッドを別のトレイトに移して、ミックスインしただけのことなんだけど。そもそもトレイトは実装を持てるのでそういう目的に使うものだろうし。
ポイントは、トレイトから元のクラス内のメンバーにアクセスできるってことだね。自分型アノテーションまじ便利！

これを試してみようと思ったのは、クラス内の一部のメソッドだけオーバーロードを作りまくって数が多くなるので、ソース内の見通しが悪くなるから別ファイルに切り出したかったという理由。
これなら切り出したソースファイルを自作ツールで自動生成することもできるようになるので、良さそう。

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

2011年8月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

前月

次月

バックナンバー

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#ガーデニング」をチェック