ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

HDP1.1.0 GA

2013-05-26 15:05:57 | PG(分散処理)

Hortonworksから『Hortonworks Data Platform 1.1 for Windows(HDP1.1)』のGA(正式版)が出たので、Windows7にインストールしてみた。

HDPはWindows Serverにしか正式対応していないが、Windows7でもスタンドアローンモード(円周率算出のサンプル)は動いた。


インストール方法はベータ版のときから変わらず、msiexecコマンドをコマンドプロンプトから叩く方式。ベータ版のときは、途中でエラー終了してたんだけど…。
ただ、ベータ版のときに「不可解なエラー」で終了していたのは、コマンドプロンプトを管理者権限で起動していなかった所為のような気がする。
とはいえ、そこをクリアしても、今回も結局エラー終了だったのだが(爆)

どうやら この方式では、Hadoopクラスターの定義も一緒に行うようだ。だからclusterproperties.txtみたいなクラスター情報を書いたファイルが必要になる。
インストールして作られたhadoop/confも分散環境用の定義になっていた。
Windows Serverしか対応していないというのも、クラスターを組む為なんじゃないかと思う。
Windows7でのインストールの失敗も、Hadoopのサービス(UNIXでいうデーモン)を定義したり起動したりする関連のような気がする。
なので、クラスターを組まない(スタンドアローンでよい)なら、Windows7でも動くんじゃないかな?


自分がWindows版Hadoopに期待しているのは開発環境(スタンドアローン)として使う為なので、クラスターとかどうでもいいんだよね~w

インストーラーを実行せずにmsiファイルを直接解凍してHadoopのアーカイブだけ取り出す方法もやってみたけど、これならhadoop/confも今まで通りの空(つまりスタンドアローン用)だったので、これで充分な気がする。


地味ストに嬉しいAsakusaFW0.5.0

2013-05-10 23:12:51 | PG(分散処理)

Asakusa Framework0.5.0が出たので、例によってどんな変更があったのか見てみた。
リリースノートChangelogs

が、 今回は開発版リリースということもあって、大きな目玉機能は無いようだ。(某所で発表のあったRDBMSでの実行機能は今回は入っていない)
しかし修正点は多い、地味かもしれないが。
という訳で今回は、某ゲームでバージョンアップの度に発表される『細かすぎて伝わらない地味な修正点コーナー』の様相を呈している(地味すぎるので、説明されないと分からない)w
(ちなみに、地味な変更が好きな人のことを「地味スト」と呼ぶらしい^^;) 

CDH4対応
対応プラットフォームに(試験的ながらも)CDH4が追加。
(しかし、CDH4ってどれくらい使われているのかなぁ? ベースになっているApache Hadoop2.0は、いまだにアルファ版のはずだし。そういう意味では、最近Apache Hadoopが何か変化しているのかも疑問。Windows版もまだ出ないし、Java7対応もしないし)

Framework Organizer
今回の変更の中で一番大きいと思うのがFramework Organizer。AsakusaFWの環境構築用ツール。
今まではアーキタイプからプロジェクトディレクトリーを作り、そこから「mvn assembly:single antrun:run」によってASAKUSA_HOMEを構築していた。
0.5.0からはそれは無くなり(実行しても何も起こらない)、Framework Organizerを使って構築するようになった。(CDH4用の環境もこれを使って構築する)

しかしJinrikishaを使う場合は、表面上は従来と何の違いも無い。(中身はFramework Organizerを使うよう変更されている)
つまり、Jinrikishaを使う人は全く気付かないが、環境構築をする人は軒並み影響を受ける。まさに大きな地味変更だろうw
(なお、Node0 DBRを使うと、環境構築の手間も省けるわけです(笑) #ステマ) 

ちなみに、Jinrikishaのバージョン番号の振り方は今まで独自の体系だったが、今回からAsakusaFWのバージョン番号に統合したようだ。 

バッチ注釈の属性追加
Batch DSLの「@Batch」には今までname属性しか無かったが、他にも色々な属性が書けるようになった。
特にparameterが重要。
今までもバッチ引数を定義することが出来たが、そのチェック(有無とか形式とか)は使用時に行っていた。
そのバッチ引数(parameter)の定義を@Batchで書けるようになったので、バッチ起動時にチェックすることも可能になるということだ。(現時点ではYAESSにそういう機能は追加されていないが)

●YAESSのトラッキングID表示
YAESSのログにtrackingIdというものが表示されるようになった。これはそのままHadoopのジョブ名になる。
つまり、AsakusaFWのYAESSとHadoopのジョブの対応付けが容易になる。

●Direct I/O TSV
WindGateのTSVファイル連携は以前からsandboxで公開されていたと思うが、Direct I/OのTSVファイル連携も加わった。
このTSVファイルの特徴は、MySQLのTSVファイルと互換性があるということ。データ量にもよるだろうが、WindGate JDBCでMySQLに書き込むより、TSVファイルを作ってバルクロードする方が速いらしい。 

●その他さらに地味な変更点
WindGateの設定パラメーターにprocess.basic.retryIntervalが追加された。
・OperatorFactoryのクラスやメソッドに新たなアノテーションが付くようになった。
・環境変数HADOOP_HOMEを使わないようになった?


ああそうだ、ついでなので、AsakusaFW0.4.0のときに書き忘れていた機能も書いておこう。

#222
日付フォーマットがYYYYMMDDのときだけ高速動作するパーサーを導入。

#225
Summarize演算子のデフォルトがCombinerを使うようになった。

#202
Direct I/Oでファイル名に「*」が使えるようになった。
ファイル数が毎回変わりうる為、出力ディレクトリー自体を毎回削除する方が無難。DSLのgetDeletePatterns()で削除ファイルを指定できる。

#226
$ASAKUSA_HOME/VERSIONというバージョン情報ファイルが作られるようになった。

#227
$ASAKUSA_HOME/batchapps/バッチID/etc/build.logにタイムスタンプ等の情報が追加された。


そうそう、AsakusaFW0.5.0で個人的に一番大きな地味変更を忘れていた!

Jinrikishaのインストール手順の一番下に「Eclipseのカスタマイズ」という欄が加わっている。
Eclipseの日本語化としてPleiadesプラグインのインストール方法が書かれている。個人的にはいつもPleiades All in One Eclipseを使っているのでPleiadesプラグイン単体のインストールはあまりやらないのだが、インストール手順の書いてある場所が分かりにくいので、そのリンクとして有用w
というのは本命ではなくて、本命はその下のやつ。たぶん、こういうページが出来たと指摘されないと誰も気付かないと思う(爆)