中野智文

中野智文(VOYAGE GROUP)のコンピュータなどのメモ

EMR(Elastic MapReduce)でAMI3.X(Hadoop2.X)を使うと遅くなる場合

2014-09-24 11:17:28 | AWS
背景 EMR(Elastic MapReduce)でAMI3.X(Hadoop2.X)を使うと、同じインスタンス構成でも、時間がかかることがある。 原因 YARN Hadoop2.Xのリソース管理は、従来の1.Xのスロットによる管理とは異なるYARNと呼ばれるコンテナを用いたリソース管理を用いる。 ざっくり説明すると、ノード(インスタンス)全体のリソース量(メモリサイズとCPU数)から、 . . . 本文を読む

Hadoopでstream.num.reduce.output.key.fieldsを使うとき(combinerで複数fieldのkey)

2014-06-13 14:55:00 | AWS
背景 HadoopのStreamingにてkeyが複数のfieldで構成(stream.num.map.output.key.fieldsで2以上を指定)されるときで、combinerを使うと、なぜかreducerに入力されるデータは複数のfieldとするkeyでソートされない。 解決策 reduceに入る前にソートして欲しいキーの数を、謎※のパラメータstream.num.reduce.o . . . 本文を読む

AWS CLI でフォルダ(ディレクトリ)の名前変更(mv)を行う方法

2014-06-12 14:05:26 | AWS
背景 と述べるほどでもないが、AWS CLIのmvのドキュメントにははっきりと書かれていない。(実は(7)が最も近い) 結論 ない。ただし、--recursive オプションで、ファイル単位でmvすることができる。例 aws s3 mv s3://mybucket/folder1 s3://mybucket/folder2 --recursive 上記のコマンドを実行した場合 . . . 本文を読む

EMR入門用 コマンドラインでの作業ログ

2014-05-27 15:03:01 | AWS
背景 EMRの手順がWebで調べてもよくわからない。おそらくWebのインターフェイスを使っていることが、メモをしにくくしているのだと思われる。 このページでは、コマンドラインインターフェイス(CLI)でのサンプル実行と確認までのメモを載せる。 手順 AWS CLI s3のデータを確認するため、まずは、こちらをインストールする。EMRとしては必須ではない。 こちらはこのページでは紹介しな . . . 本文を読む