背景
EMR(Elastic MapReduce)でAMI3.X(Hadoop2.X)を使うと、同じインスタンス構成でも、時間がかかることがある。
原因
YARN
Hadoop2.Xのリソース管理は、従来の1.Xのスロットによる管理とは異なるYARNと呼ばれるコンテナを用いたリソース管理を用いる。
ざっくり説明すると、ノード(インスタンス)全体のリソース量(メモリサイズとCPU数)から、 . . . 本文を読む
背景
hadoopでErrorが発生したが、原因が簡単に特定できない。mapフェイズでコケているのに、job trackerのログの最後には、「# of failed Reduce Tasks exceeded allowed limit\. FailedCount: 1\. LastFailedTask: task_*****_0001_r_000030」というエラーが表示される(タスクの名前 . . . 本文を読む
背景
毎度、hadoop@... とか、yesを選択したりとか、port forwardとかコマンドライン(のオプション)で書くのは面倒。
ssh/config例
自分は次のように作っている。
Host *.compute.amazonaws.com # EMR以外と被るかも
IdentityFile ~/.ssh/your-aws.pem # 毎回鍵を指定するのは . . . 本文を読む
背景
HadoopのStreamingにてkeyが複数のfieldで構成(stream.num.map.output.key.fieldsで2以上を指定)されるときで、combinerを使うと、なぜかreducerに入力されるデータは複数のfieldとするkeyでソートされない。
解決策
reduceに入る前にソートして欲しいキーの数を、謎※のパラメータstream.num.reduce.o . . . 本文を読む
背景
と述べるほどでもないが、AWS CLIのmvのドキュメントにははっきりと書かれていない。(実は(7)が最も近い)
結論
ない。ただし、--recursive オプションで、ファイル単位でmvすることができる。例
aws s3 mv s3://mybucket/folder1 s3://mybucket/folder2 --recursive
上記のコマンドを実行した場合 . . . 本文を読む
背景
EMRの手順がWebで調べてもよくわからない。おそらくWebのインターフェイスを使っていることが、メモをしにくくしているのだと思われる。
このページでは、コマンドラインインターフェイス(CLI)でのサンプル実行と確認までのメモを載せる。
手順
AWS CLI
s3のデータを確認するため、まずは、こちらをインストールする。EMRとしては必須ではない。
こちらはこのページでは紹介しな . . . 本文を読む