「AWS」のブログ記事一覧-中野智文

EMR(Elastic MapReduce)でAMI3.X(Hadoop2.X)を使うと遅くなる場合

2014-09-24 11:17:28 | AWS

背景 EMR(Elastic MapReduce)でAMI3.X(Hadoop2.X)を使うと、同じインスタンス構成でも、時間がかかることがある。原因 YARN Hadoop2.Xのリソース管理は、従来の1.Xのスロットによる管理とは異なるYARNと呼ばれるコンテナを用いたリソース管理を用いる。ざっくり説明すると、ノード（インスタンス）全体のリソース量（メモリサイズとCPU数）から、 . . . 本文を読む

HadoopのJob Trackerのログをtsvファイルに変換するrubyスクリプト

2014-06-18 18:48:49 | AWS

背景 hadoopでErrorが発生したが、原因が簡単に特定できない。mapフェイズでコケているのに、job trackerのログの最後には、「# of failed Reduce Tasks exceeded allowed limit\. FailedCount: 1\. LastFailedTask: task_*****_0001_r_000030」というエラーが表示される（タスクの名前 . . . 本文を読む

EMR(Elastic MapReduce)用sshのconfig設定例

2014-06-16 12:45:12 | AWS

背景毎度、hadoop@... とか、yesを選択したりとか、port forwardとかコマンドライン（のオプション）で書くのは面倒。 ssh/config例自分は次のように作っている。 Host *.compute.amazonaws.com # EMR以外と被るかも IdentityFile ~/.ssh/your-aws.pem # 毎回鍵を指定するのは . . . 本文を読む

Hadoopでstream.num.reduce.output.key.fieldsを使うとき(combinerで複数fieldのkey)

2014-06-13 14:55:00 | AWS

背景 HadoopのStreamingにてkeyが複数のfieldで構成(stream.num.map.output.key.fieldsで2以上を指定)されるときで、combinerを使うと、なぜかreducerに入力されるデータは複数のfieldとするkeyでソートされない。解決策 reduceに入る前にソートして欲しいキーの数を、謎※のパラメータstream.num.reduce.o . . . 本文を読む

AWS CLI でフォルダ(ディレクトリ)の名前変更(mv)を行う方法

2014-06-12 14:05:26 | AWS

背景と述べるほどでもないが、AWS CLIのmvのドキュメントにははっきりと書かれていない。（実は(7)が最も近い）結論ない。ただし、--recursive オプションで、ファイル単位でmvすることができる。例 aws s3 mv s3://mybucket/folder1 s3://mybucket/folder2 --recursive 上記のコマンドを実行した場合 . . . 本文を読む

EMR入門用コマンドラインでの作業ログ

2014-05-27 15:03:01 | AWS

背景 EMRの手順がWebで調べてもよくわからない。おそらくWebのインターフェイスを使っていることが、メモをしにくくしているのだと思われる。このページでは、コマンドラインインターフェイス（CLI）でのサンプル実行と確認までのメモを載せる。手順 AWS CLI s3のデータを確認するため、まずは、こちらをインストールする。EMRとしては必須ではない。こちらはこのページでは紹介しな . . . 本文を読む

プロフィール

自己紹介: 専門は人工知能、特に機械学習。現在はVOYAGE GROUPのfluctに所属し、Web広告関連のデータ分析、最適化システム構築業務に従事する。

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！