「PG（分散処理）」のブログ記事一覧(10ページ目)-ひしだまの変更履歴

Asakusa Frameworkとは（2020版）

2020-12-01 00:00:00 | PG（分散処理）

Asakusa Framework Advent Calendar 2020の1日目です。

アドベントカレンダーの初日ということで、2020年時点のAsakusa Frameworkの紹介を書いておきたいと思います。

Asakusa Frameworkは、分散バッチアプリケーションを開発・実行する為のフレームワークです。
同一のソースをリコンパイルするだけで異なる実行基盤、すなわちApache Spark, M3BP, Vanilla用のバイナリーを生成することが出来ます。（実行基盤Hadoop（MapReduce）は非推奨になりました）
また、分散処理とは別に、ファイル同士を結合して処理するにはとても便利だと思います。

2020年に出たAsakusaFWの新バージョンは無いですね＾＾；もうだいぶ枯れてますから…。

以前から個人的に注目していた、対応するJavaのバージョンですが、今年はHadoop3.3.0がリリースされて、ついにJava11対応しました！
これでHadoopに依存してJava8止まりだったAsakusaFWもJava11に対応できる…はずですが、まだ対応されていませんorz
これには、AsakusaFWの開発者がTsurugi DBの開発で忙しいという面があるようです＾＾；
来年辺り、Java11対応するといいなぁ…。

embulk-parser-poi_excel 0.1.10

2020-09-13 00:13:11 | PG（分散処理）

embulk-parser-poi_excel 0.1.10をリリースしました。
（本当は0.1.8なんだけど、リリースをミスって0.1.10になりましたorz）

機能的には、cell_addressを追加しました。
cell_addressは現在の行以外のセルの値を取得できるものです。

その修正のために久しぶりにGitHubを見たら（なんとびっくり）issueが上がっていたので、それも対応しました。

（特にxlsxファイルにおいて）結合セルが多いと、処理がとても遅くなるというものです。
POIというかExcelの結合セルの仕様上仕方が無いんですが、TreeMapを使ってキャッシュを作ることで高速化しました。
メモリー使用量的に問題になるかもしれないので、search_merged_cellオプションで元の方式と切り替えることが出来ます。
（このオプションは昔からあった（ドキュメントには書いてなかった＾＾；）もので、元々はfalse,trueで切り替えていたが、今回none,linear_search,tree_searchに変更した）

（追記：よく考えたらあの実装ならTreeMapでなくHashMapでも良かったので、ver0.1.11でhash_searchも追加した）

さらについでに、POIのバージョンを新しくしました。
3.13だったので、3系の最新である3.17に。

既に4系が出ていますが、それはいずれ変更したいと思います。

embulk-parser-poi_excel not available ver 0.1.8-0.1.9

2020-09-12 23:32:03 | PG（分散処理）

embulk-parser-poi_excel 0.1.8や0.1.9をインストールしても使えません。生成されたgemファイルの中が足りない（classpathディレクトリーしか存在しない）為、インストールしても正しく認識できないようです。

RubyGems上は0.1.8と0.1.9を非公開にしました。

どうも、Cygwin上でgradlewのgemタスクを実行すると正しいgemファイルが生成されないようです。（昔はこれで出来たはずなのに）
コマンドプロンプトからgemタスクを実行すると正しいgemファイルが生成されました。

というわけで、本来0.1.8として公開したかったバージョンは0.1.10で公開されています。

SQL to AsakusaFW：UNION

2019-12-24 00:00:00 | PG（分散処理）

Asakusa Framework Advent Calendar 2019の24日目、SQLをAsakusaFWに変換するポイントについてです。

SQLのUNIONには、「UNION」と「UNION ALL」があります。
UNIONは重複データが有る場合はそれを排除して1レコードのみ出力しますが、UNION ALLは重複があっても構わず全て出力します。

UNION ALLはAsakusaFWではcore.confluent演算子がすばりそのものです。

UNIONは重複排除をするので、MasterCheck演算子で（全カラムをキーとして比較し）存在しないものだけ出力すれば良い、ような気がしますが、厳密には違います。
s1 UNION ALL s2 UNION s3の様に、複数のSELECTをUNION ALLでつないで最後だけUNIONになっている場合、それまで重複ありで複数レコード出力されていたものが、最後に重複排除されてしまうのだそうです。
そのため、UNIONはFold演算子で（全カラムを集計キーとして使用し）集計キー毎に1レコードだけ出力するのが良さそうです。

SQL to AsakusaFW：分析関数

2019-12-23 00:00:00 | PG（分散処理）

Asakusa Framework Advent Calendar 2019の23日目、SQLをAsakusaFWに変換するポイントについてです。

SQLでサブクエリーと並んで少々やっかいな（と思う）のが、row_number等の分析関数です。

これはGroupViewで簡単に…というわけにいきませんが、GroupSort演算子を使えば実現できます。
複数の分析関数が使われている場合、パーティションキー（集約キー）とソートキーが同一であればひとつのGroupSortで実現できると思いますが、そうでない場合は、複数のGroupSortを使わざるを得ないでしょう。

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

前月

次月

バックナンバー

2025年04月

2024年12月

2024年09月

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	【11/18】goo blogサービス終了のお知らせ
	【PR】ドコモのサブスク【GOLF me！】初月無料
	【コメント募集中】goo blogでの思い出は？
	「#gooblog引越し」で体験談を募集中