「PG（分散処理）」のブログ記事一覧(15ページ目)-ひしだまの変更履歴

既存プログラムからAsakusaFWへの変換

2019-12-02 00:00:00 | PG（分散処理）

Asakusa Framework Advent Calendar 2019の2日目です。

Asakusa Frameworkをいきなり採用しようという人は稀（というか居ないのでは？＾＾；）であり、大抵は「既存の遅い処理をAsakusaFWに置き換えてみよう」というところから始まると思います。

しかし、どんなプログラムでもAsakusaFWに置き換えられるかというと、やはりそんな事は無く。
特に面倒なのは、処理の途中で（条件によって）SQLを実行するようなタイプです。（そういう作りだからこそ、N+1問題を引き起こして実行が遅くなりがちな訳ですが…）
AsakusaFWはまとめて（分散して）処理を行うので、条件によって必要性が変わるデータでも、全て事前に結合しておく方がコーディングが楽です。
なので、結合条件が細かく変わるケースや、結合するデータが複数レコードになるケースでは、AsakusaFW化するのは面倒になります。

ただ、単独のSQL文（SELECTやUPDATE）であれば、ほぼAsakusaFW化することが出来ると思います。
明日以降のアドベントカレンダーで、SQLをAsakusaFW化する際のポイントを説明していきたいと思います。

Asakusa Frameworkとは（2019版）

2019-12-01 00:00:00 | PG（分散処理）

Asakusa Framework Advent Calendar 2019の1日目です。

アドベントカレンダーの初日ということで、2019年時点のAsakusa Frameworkの紹介を書いておきたいと思います。

Asakusa Frameworkは、分散バッチアプリケーションを開発・実行する為のフレームワークです。
同一のソースをリコンパイルするだけで異なる実行基盤、すなわちHadoop（MapReduce）, Spark, M3BP, Vanilla用のバイナリーを生成することが出来ます。
また、分散処理とは別に、ファイル同士を結合して処理するにはとても便利だと思います。

2019年に出た新バージョン0.10.3だけですかね＾＾；
バグフィックスの他は、Direct I/O JSON（jsonファイルの読み書き）が追加されました。

個人的な注目点は、AsakusaFWが依存しているHadoopのバージョンアップです。
HadoopがJava8までしか対応していないのでAsakusaFWもJava8でしか使えないのですが、Hadoop3.3.0でJava11対応するらしいので、これがリリースされたらAsakusaFWのJavaの対応バージョンも上がると思います。
が、現状ではHadoop2系が対象なので、Hadoop3系になって大丈夫なのかなぁという思いが無くも無いです＾＾；（少なくとも、現在AsakusaFWを運用しているシステムであれば、動いている環境はHadoop2系のはずなので、バージョンアップは簡単ではないでしょう）
また、Asakusa on Sparkの為にはApache SparkもHadoop3.3.0およびJava11に対応してくれないといけないので、簡単にはいかなさそうな気がします…。

AsakusaFW 0.10.3 Direct I/O JSON

2019-06-14 23:17:53 | PG（分散処理）

2019/6/12にAsakusa Framework0.10.3がリリースされた。→リリースノート

一番の目玉はDirect I/OでJSONファイルの読み書き（のExporter/Importerが生成される）が出来るようになったことかな？
もちろんAsakusaFWはデータモデルというシンプルなクラスしか扱えない為、配列やらネストしたJSONは扱えないと思うけど。

これに伴って、DMDL EditorXの入力補完機能にdirectio.jsonを追加した。

後は例によって細かいバグ修正等。

ロギング演算子で上限境界の無い型引数が指定できるようになった。
…ロギング演算子を使おうと思ったことが無かったので、全然気付かなかった＾＾；

Hiveの入出力データ（orcファイル）のカウント情報のバグ修正。
レコード数とバイト数に同じ値が出力されていた＾＾；さすがにそんなデータは無かろうてｗ

Asakusa on Sparkで、Direct I/Oの出力ファイル名のパターンに「ランダムな値」を指定できるようになった。
ランダムな値とは「[0..9]」みたいなやつ。ワイルドカード「*」とかは以前からちゃんと使えていた。

com.asakusafw.bridge.api.Reportがdeprecatedになった。
ちょっと前のブログで書いた、パッケージ違いのReportクラスがあって紛らわしいという問題。ユーザーが使ってはいけない方にdeprecatedが付けられた為、間違ってimportするとコンパイル警告が出るようになった。
（このdeprecatedはまさにユーザーが使うのは非推奨という意味であり、廃止予定という意味では無い）

BinaryStreamFormat.createInputで使うDelimiterRangeInputStreamがdeprecatedになった。
これは将来廃止予定という意味のdeprecated。今後はLineFeedDelimitedInputStreamを使う。

BinaryStreamFormat.getMinimumFragmentSizeでLong.MAX_VALUEを返すのは駄目になった。
というか、Long.MAX_VALUEが返された場合の挙動がバグだったらしい。
getMinimumFragmentSizeは、入力ファイルを分割しない場合は-1を指定する。基本的には親クラスのデフォルトメソッドを使っておけばいいようだ。

AsakusaFW Reportクラス

2019-06-02 16:51:48 | PG（分散処理）

Asakusa FrameworkのReport APIで使用するReportクラスでハマったのでメモ。

OperatorクラスではReportクラスを使って「Report.info("message");」のようにログ出力することが出来るが、Reportクラスには以下の2つがあり、前者を使うのが正しい。

com.asakusafw.runtime.core.Report
com.asakusafw.bridge.api.Report

後者はAsakusaFW内部のクラスらしいのだが、誤ってimportしてもOperatorクラス上は普通にコーディングできてしまうので、間違いに気付きづらい＾＾；
Operatorのテストを実行すると例外が発生するが、知らないと意味不明な感じの内容だ…。
（最初はAsakusaFWのバージョンアップによってReport APIの初期化方法が変わったのかと勘違いしたよorz）

DMDL テンプレートSPI

2018-12-24 00:07:46 | PG（分散処理）

Asakusa Framework Advent Calendar 2018の24日目、拙作DMDLのテンプレート機能の紹介です。

これはだいぶ昔に作った機能なのですが、AsakusaFWのSPIの機能を利用して独自のDMDL属性（@template）を作り、テンプレートにその属性の内容を埋め込むものです。
つまり、これを使ってImporter・Exporter（FromCsv, ToCsv）のソースファイルを生成することが出来ます。

DMDL EditorXにはImporter・Exporterを生成するウィザードもありますが、個人的には微妙に使いづらく、結局、既存のクラスをコピペして修正して使うことが多いです。

その点、このテンプレート機能を使う方が楽そうです。（なお、テンプレートエンジンにはFreeMarkerを使っています）

ただ、AsakusaFW0.7の頃に作った物なので依存関係が古く、build.gradleに記述する際はAsakusaFWやHadoopの依存関係をexcludeしないといけません。
この辺り、Gradleでライブラリー化（Mavenのpomを生成）するときに依存関係を除外する方法があればいいんですけどねぇ。

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

前月

次月

バックナンバー

2025年04月

2024年12月

2024年09月

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	【11/18】goo blogサービス終了のお知らせ
	【PR】ドコモのサブスク【GOLF me！】初月無料
	【コメント募集中】goo blogでの思い出は？
	「#gooblog引越し」で体験談を募集中