ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

embulk-parser-poi_excel 0.1.6 セルのキャッシュ値の取得

2017-01-28 17:04:05 | PG(分散処理)

きっかけは、Embulkで新しくExcelファイルを読もうと思ったら、プラグインが固まった(ように見えた)こと。
(超どうでもいいが、「きっかけは」って書くと、LINDBERGのLITTLE WINGが頭の中で始まるw)

トレースログを埋め込んで(自分で作ったプラグインだから、何とでもなるw)見てみたら、セルの数式の計算でやたらと時間がかかっている。1セル7分。おいおい(汗)
SUMIFのような関数で列全体とかが指定されていると、1行目~1,048,576行目までの全てを探しに行く実装になっているようだorz 関数がネストしているような“神エクセル”だと、そりゃ遅いわ…。
(POIでは実データの有る最大行数は取れるんだから、それを考慮してくれればいいのに(苦笑))

まぁPOIの実装は置いといて、Excelでファイルを開いたときは値が表示されているので、これが取れればいいのになぁと思って試しにPOIで値を取得するメソッドを呼んでみたら、取れたし!
後はその値がどの型(数値か文字列か)が分かる方法があれば…と思ってCellクラスを眺めてみたら、ばっちりgetCachedFormulaResultTypeというメソッドがあった!これは知らなかった。。
計算の結果がキャッシュされていないExcelファイルではどうしようもないだろうけど、とりあえず今回の目的にはこれでOK。

という訳で、embulk-parser-poi_excelプラグインに、キャッシュされている値を取得できるようにするオプションを追加した。

ついでに、シート名の指定でワイルドカードを使えるように修正。 

コメント
この記事をはてなブックマークに追加

Embulk xlsxファイルプレビューの注意

2017-01-27 23:55:06 | PG(分散処理)

Embulkembulk-parser-poi_excelプラグイン)で新しくxlsxファイルを読み込もうとしたら、例外が発生
エラーメッセージがEOFExceptionでend of ZLIB input streamとのことだったので、最初はxlsxファイルが大きすぎたのかと思った。

で、別途Apache POIのサンプルを作ってそのxlsxファイルを読み込んでみたら例外が発生した。
inflate ratio(圧縮率?)のチェックに引っかかったらしい。
ただ、これをチェックする閾値は設定できるので、問題解決!

と思ったのだが、よく見るとエラーメッセージが全然違う(汗)

WorkbookFactory.createメソッドでxlsxファイルを読み込むのだが、引数がFileのメソッドとInputStreamのメソッドでは挙動が違うらしい…。
Embulkのxlsxファイルを読み込むプラグインではInputStreamを使う方式なのだが、ratioのエラーになるのはFileを使う方式だけで、InputStreamを使う方式だとエラーにならなかった。
Embulkでも、previewだとエラーになるが、同じファイルをrunで読み込むとエラーにならない。

ということは、EmbulkとPOIの相性の問題と思われる。
プレビューだから、ファイルの全データを読み込んでいないのではないかと思う。
しかしxlsxファイルはzip圧縮されている形式なので、先頭データだけでは解凍できない^^;

まぁプレビューだけの問題だから、注意喚起だけでいいかな~。

(追記)他のプラグインでも同様の問題が起きているらしい。previewだと32kBしか読まないそうで。
previewでも全データを読むように修正されるなら、この問題も解決しそう。

コメント
この記事をはてなブックマークに追加

2016秋アニメについて一言

2017-01-22 14:07:50 | Weblog

2016年10~12月期のアニメの感想。

私事だが、この期から録画機器を導入したので、好きな時間に見られるようになったのが大きいw
(これで、「『Re:ゼロから始める異世界生活』を見る為に朝4:00まで起きていた」なんてことは無くなるのだ…!)
特にPM8:00台はテレビでろくなものがやっていないので(ニュースは19:00や21:00だし)、その時間帯に見るのがちょうどいい。
実際に見るのはだいたい1~2週間遅れになってしまうけど、「次回はどうなってるんだろう!」と思ったときに、他のアニメを飛ばして次回を見るということが出来て、良かったw

  • 終末のイゼッタ
    • 始まる前のCMを見て一番期待していたアニメ。期待通り良かった。
    • 使える魔法が物を動かすだけなので、戦闘機は槍(ランス)で落とせるけど、戦車の装甲は貫けない。代わりに戦車そのものをひっくり返す。というアイデアが良かった。
    • 大国から狙われる小国ということで(よくある)絶望的状況だったけど、(意外と早く)陥落してびっくり。
    • 最後、イゼッタの表情は映されなかったけど、ちゃんと生きてるのか不安だ…。
  • オカルティック・ナイン
    • 主要な登場人物が9人だからナインなのかと思ったけど、そういう訳では無かった。
    • 人数が多いしテンポが早いので最初はびっくりしたけど、慣れてくるとなかなか良い感じにw
    • 最後には謎や人物の関連が明かされてけっこうすっきりしたけど、残った謎はゲームに持ち越し?(買おうか悩むw 『シュタインズゲート・ゼロ』や『うたわれるもの』はアニメを見てゲームを買ったが面白かったし)
  • ViVid Strike!
    • 途中ちょっと重かったけど、ええ話やったわ~>< 「どうしたらお前を救ってやれるんや」
  • ブレイブウィッチーズ
    • 面白かった。(ハッピーエンドに終わるだろうと)安心して見ていられるのが良いw
  • 装神少女まとい
    • 仲間が協力していく話は好き。装神少女ゆまちんのオープニングが良かった。ああいう遊び大好きw
  • フリップフラッパーズ
    • なんと言えばいいのかよく分からん(幻想的な?)雰囲気で良かった。
  • ステラのまほう
    • (前期の『NEW GAME』に続いて、)ほのぼのゲーム製作ネタ。面白かった。
  • ろんぐらいだぁす!
    • ほのぼの自転車もの。良かった。
    • 赤信号で止まってたシーンに驚天動地。左右から車が来そうに無い交差点で、現実のロードレーサーが(ママチャリも)赤信号で止まってることなんて、年に2~3回しか見かけないぞ。僕が赤信号で止まってるのに、抜かして行くからな奴ら。
  • ジョジョの奇妙な冒険 ダイヤモンドは砕けない
    • ジョジョの中でほぼ唯一原作の連載を読んでいたやつ。(康一のファンなので、もっと活躍してほしかった←無茶言うなw)
  • SHOW BY ROCK!!#
    • 各話は悪くない(面白い方だ)と思う。
  • 魔法少女育成計画
    • ほのぼのした話かと思っていたら、殺し合いとは(苦笑)
  • Lostorage incited WIXOSS
    • これも何人か消えたりして重い話だったが、最後はまだ救われた…のかなぁ?
  • ブブキ・ブランキ 星の巨人
    • 『幼年期の終わり』みたいな話につながるとは!
    • 最終話、ああいうのやるの珍しいね。
  • レガリア
    • 普通。(本来前期に放映予定だったのが延びて今期に入ったが、おかげで他のアニメより先に終わった。同時に放送しているとピークが同じになるので、ずれるのはそれはそれで面白かった)
  • 文豪ストレイドッグス
    • 主人公が決意するシーンや活躍するシーンは格好良くて好き。だが、なんで文豪を表に推す必要があるのか…?
  • TRICKSTER -江戸川乱歩「少年探偵団」より-
    • 小林や花岡がどうなるのか気になる。けど、なんで江戸川乱歩(少年探偵団)を表に推す必要があるのか?
  • WWW.WORKING!!
    • 面白いw
  • 斉木楠雄のΨ難
    • 喋るテンポが良かった。原作の週刊ジャンプの方では読み飛ばしているんだが(爆)、アニメで楠雄の喋りやツッコミを聞いていると心地よいw 声優ってほんとすごい。
  • ナンバカ
    • 技を駆使して色々な牢から脱獄するという話かと思ったら、ぜんぜん違った。面白い方だとは思うけど。
  • 灼熱の卓球娘
    • 予想に反して面白かった。熱い!w(スポーツものだと、リアル指向かとんでも指向になることが多いけど、これはちょうど良いバランス)
  • ALL OUT!!
    • 男ばかりで萌えキャラが一切出てこないラグビーアニメ(リアル指向・スポ根に近い)だが、見ていると引き込まれていつの間にか時間が経っているという、不思議なアニメ。
  • DAYS
    • サッカーアニメ。主人公は嫌いじゃないが、(仲間とかに)恵まれすぎなんだよなー。
  • 競女
    • あかんアニメw 原作は知ってたけど、よくアニメ化したなこれw Fateのギルガメッシュの宝具っぽい演出とか、超うけたw
  • 刀剣乱舞-花丸-
    • 『艦これ』と同様に有名なゲームが元なので一応見ていたが、男向けじゃないねこれ。楽しそうな雰囲気ではあった。
  • Bloodivores
    • 設定を盛っている割に謎を解明させるストーリーが進まず戦闘ばっかりで、いまいち…。
  • アイドルメモリーズ
    • アニメは前半15分だけで後半15分は声優がクイズか何かやってたけど、前半しか見なかった。
  • ソードアートオンライン(再放送)
    • 途中から、「ああこれ見たことある」ってなった(自爆魔法が全く役に立たなかった辺り。なんてかわいそうな><)。昔見たときは途中からだったので状況が分からなかったけど、そういうことだったんだなぁ。
  • MONSTER
    • 前期もやってて来期も続く。引き続き注視。

どのアニメも、音楽は良かったな~。聞いているだけで盛り上がってくるw

あと、この期は終わるのが12月なので、最後にクリスマス特番をやっているものがいくつかあったけど。
声優はすごいと思うし尊敬するけど、声優が出てくるバラエティー番組にはあまり食指が動かない。
『装神少女まとい』は総集編をやってて、そういうのの方が面白かった。


さて、2016年の感想を書き終わったので、ようやく2017年のアニメを見始められるw
しかし今期はやたら多くて、録画予約が上限を超えた(爆)
仕方が無いので、再放送のものは(見たことなくても)泣く泣くカットorz

アニメーターの給料が安くて大量に作らないと食っていけないといった事情はあるらしいけど、待遇を良くして正常化してもらいたい。 

コメント
この記事をはてなブックマークに追加

2016年の(自分の)ゲーム事情

2017-01-17 22:35:32 | ゲーム

2016年のゲームの振り返り。

まず、ドラクエ10は継続して遊んでいる。
今はver3.4で、うっかりクリアしてしまった。今までのパターンだとボスが強すぎて、バージョンアップでレベル上限が開放されたりスキルが強くなってからようやくクリアできるという感じだったのだが。
それと、レベルも現時点(96)でカンスト。特訓はまだ終わってないけど、特訓が上がっても冒険日誌には記録が残らないんだよね~。

2016年の初期は『ドラクエビルダーズ』をやってたのかな?
ストーリーがドラクエ1関連ということで始めたんだけど、フリービルドの方も意外とハマってしまった(笑)

その後、やるゲームが無かったので『ソードアートオンライン ホロウ・フラグメント』を始めたんだけど、ゲームバランスがいまいち…。スキルの使い方がよく分からなくて単調な割にマップ広いし。未クリア。

8月に入って『イース8』。
面白かったよ。まぁ、イース4より後は、そのときは面白いんだけど、けっこう記憶に残ってないんだけどね…。

あと、『うたわれるもの二人の白皇』。前作やってたから、期待して待ってた。けど、発売日を一週間勘違いしてて、買おうと思ったら売り切れの店ばかりでなかなか買えなかったんだけどねorz
メインストーリーは期待通り面白くてクリアしたけど、その後のおまけが強すぎて、クリアできる気がしない…。 

今やっている最中なのがFF15。
今年ドラクエ11が出るのでPS4を買ったから、ついでにやり始めた。まだ序盤なんだけど、確かに噂どおり、メインストーリーの唐突さはなんだかなー^^;
サブクエストが自由に出来るのは良いと思うんだけど。

コメント
この記事をはてなブックマークに追加

Asakusa on M3BPの環境変数

2016-12-24 00:00:00 | PG(分散処理)

Asakusa Framework Advent Calendar 2016の24日目です。

Asakusa on M3BPでは、バッチ(YAESS)実行時のオプションを環境変数で指定することが出来ます。

まずASAKUSA_M3BP_OPTS。これはjavaコマンドに渡すオプションを指定します。

$ export ASAKUSA_M3BP_OPTS='-Xmx64g'

M3BP本体はC++なのでOSネイティブのバイナリーで実行されますが、Asakusa on M3BPはJava部分もあるので、javaのヒープ容量もそれなりに必要です。
(かといって64GBは多すぎですが^^; メモリーが512GBもあると、JavaVMのヒープも「てきとーに64GBにしとけばいっかー」みたいな感じになります(爆))


それからASAKUSA_M3BP_ARGS。これはM3BPのパラメーターを指定します。
特にm3bp.propertiesで記述するような内容は、--engine-confオプションを(複数)使って指定します。

$ export ASAKUSA_M3BP_ARGS="--engine-conf com.asakusafw.m3bp.output.buffer.size=4194304 --engine-conf com.asakusafw.m3bp.output.buffer.flush=0.8"

あとASAKUSA_M3BP_LAUNCHER。
これについてはアドベントカレンダー2日目(バッチのメモリー使用量の確認方法)を参照して下さい。 

コメント
この記事をはてなブックマークに追加

Asakusa on M3BPの出力バッファーサイズ

2016-12-23 02:55:36 | PG(分散処理)

Asakusa Framework Advent Calendar 2016の23日目です。

Asakusa on M3BPでは、各vertex(演算子)の出力バッファーサイズと1レコードの最大サイズ(バイト数)の関係も気にしないといけません。
出力バッファーの使用量が閾値を超えるとフラッシュされるのですが、フラッシュ直前までデータが入っている状態で残り容量より大きいサイズのレコードが来ると、バッファーに入れられず、例外が発生します。

デフォルトでは出力バッファーサイズは4MB、閾値はその0.8倍なので、レコードサイズが800kBを超える場合は注意が必要です。
(フラッシュ前のバッファー使用量にも依るので、運が良ければ大きなレコードを出力しようとしても落ちないのですが、バッチ処理で運に頼るのもどうかと(爆))
(てゆーか、1レコード800kBは結構大きい方だと思います。普通はそうそう超えないですよね^^;) 

コメント
この記事をはてなブックマークに追加

Asakusa on M3BPの入出力バッファーのアクセス方式

2016-12-22 00:00:00 | PG(分散処理)

Asakusa Framework Advent Calendar 2016の22日目です。

Javaでは、意外と2GBの壁があります。例えばbyte配列は2GBより多いサイズを扱えません。これは、配列の添え字がintなので、Integer.MAX_VALUEより大きな値を指定できない為です。
普通のJavaアプリケーションならそんな大きなサイズのデータは扱わないかもしれませんが、ビッグデータを扱う分散処理フレームワークでは結構有名な問題のようです。(例えばSparkにそんなIssueがある

で、Asakusa on M3BPも同様の問題があります。
デフォルトでは、各演算子の出力やファイル出力で1ファイル当たり2GBを超えると、エラーが発生します。
ファイル出力の場合は、Direct I/OのExporterでファイル分割するように指定してあれば、分割された個々のファイルがそれぞれ2GBを超えなければ大丈夫です。(「*」で自動分割する場合は問題なし)

どうしても2GBを超えたい場合は、ASAKUSA_HOME/m3bp/conf/m3bp.propertiesでcom.asakusafw.m3bp.buffer.access(デフォルトはnio)にunsafeを指定すると、2GBを超えるデータを出力できます。
(unsafeというのは、sun.misc.Unsafeを使っている?これだとすると、これはsunパッケージなので非推奨であり、Java9辺りで無くなるという話もある)

コメント
この記事をはてなブックマークに追加

Asakusa on M3BPの複数ジョブフローのCPU設定

2016-12-21 00:00:00 | PG(分散処理)

Asakusa Framework Advent Calendar 2016の21日目です。

Batch DSLでは複数ジョブフローを並列実行するように記述できます
Asakusa on M3BPではバッチが使用するCPU数を設定できます
では、複数ジョブフローが並列実行できるよう記述されているバッチに対してCPU数を指定するとどうなるでしょうか?

CPU数の指定は、厳密にはバッチに対してではなく、ジョブフローに対して効くものです。したがって、並列で実行されるジョブフローそれぞれに(同一の)CPU数が設定されます。
なので、ジョブフローを並列に実行するバッチでは、そのことを勘案してCPU数を指定する必要があります。

(今のところ、バッチ内の個別のジョブフローに対して別々のCPU数を指定する方法は無いようです)

コメント
この記事をはてなブックマークに追加

Asakusa on M3BPのCPU設定

2016-12-20 00:00:00 | PG(分散処理)

Asakusa Framework Advent Calendar 2016の20日目です。

Asakusa on M3BPはマルチスレッドで動作します。スレッド数は、デフォルトでは(最大で)全ての論理CPUが使われます。
が、データ量によっては、そんなにCPU数があってもあまり意味が無いことがあります。(Hadoop(MapReduce)Sparkでタスク数を多くしても意味が無い場合があるのと同様です)
そうした場合は、ASAKUSA_HOME/m3bp/conf/m3bp.propertiesのcom.asakusafw.m3bp.thread.maxで、使用するCPU数(スレッド数)を指定することが出来ます。

上で「論理CPU」とわざわざ書いたのは、M3BPにおいては、物理CPUを意識してどれを使うのかを指定することが出来るからです。
CPU関連の用語については詳しくないのですが、マザーボードに物理的に設置できる個数がソケット数、1ソケットの物理CPUに対して複数コアが有り、1コアに対してハイパースレッディングで論理的に複数コアあるように見えているのが論理CPU。かな?
それぞれのレイヤーにキャッシュがあるそうです。
で、 com.asakusafw.m3bp.thread.affinity(デフォルトはnone)にcompactを指定すると同一ソケット上のコアから順番に割り当て、scatterを指定すると異なるソケットから順番に割り当てていくということが出来ます。
正直、どの方式が良いのかよく分からないので、興味があるなら試してみると良いでしょう。
(ただし、クラウド等の仮想マシン上で動いている場合は物理CPUの情報は正しく取れないでしょうから、意味が無いと思われます)

ちなみに、この物理CPUの情報を使用する為に(だと思いますが)、Linuxのライブラリーのバージョンがある程度高い必要があります。CentOSで言うなら、7以上ならOKです。6だとライブラリーを手動でバージョンアップしないと駄目そうですが、バージョンアップに成功した例を聞いたことがありません。下手するとLinuxの標準的なコマンド(cdとかlsとか)すらも使えなくなります(爆) 自分はそれで仮想マシンを1つ駄目にしましたorz

コメント
この記事をはてなブックマークに追加

Asakusa Framework StringOptionUtil

2016-12-19 00:00:00 | PG(分散処理)

Asakusa Framework Advent Calendar 2016の19日目です。

(当時は全く気付いていなかったのですが、)AsakusaFW 0.8.0からStringOptionUtilというクラスが追加になっていました。StringOptionの操作を行うユーティリティークラスです。
AsakusaFWのDateやDateTimeに対するDateUtilみたいなものですかね。(命名ルールがちょっと違いますが、一度提供したクラスはクラス名をなかなか変えられませんからねぇ^^;)

今のところ、StringOptionUtilには「Readerを返すasReader」…はあまり使い道がなさそうだからまぁ置いておくとして、「StringOptionの両端の空白を除去するtrim」と「StringOptionの末尾に文字列を追加するappend」があります。
StringOptionは内部ではTextクラスで文字列を保持している為、StringOptionからgetAsStringやorでStringを取り出して加工してStringOptionに戻すという処理は、それなりにコストがかかります。
StringOptionUtilではTextとして処理を行うようになっているので、一度Stringに変換して処理するより効率が良いと思います。 

コメント
この記事をはてなブックマークに追加