第1回EMR勉強会のメモ

2011-12-15 23:24:50 | PG（分散処理）

Amazon Elastic MapReduceの勉強会『第1回EMR勉強会（Hadoop on AWS）』に参加しましたので、そのメモです。（Twitterのタグ→#emrstudy_jp、他の人のメモ→くろのさん）
（会場の最寄り駅はテレコムセンター駅。ゆりかもめは国際展示場正門以外で初めて降りたかもｗ）

最初はクリエーションライン株式会社の李さん。

まずAmazon Web Service（AWS）の簡単な紹介として、AWSはWeb系・業務系・Highパフォーマンス（並列）・BigData等、色々な分野で使われている。
EMRはクラウド型Hadoopサービス。

プログラムや入出力ファイル・ログはS3に格納する。（HiveのメタデータはRDSに置く）
プログラムはStreaming・Hive・Pig・Custom JAR（自作Map/Reduce）・Cascadingが使える。
◆●初めてEMRのコマンドを見たけど、自分のローカルPC上にEMRのコマンドをインストールしておくのかな？
「elastic-mapreduce --create ～」を実行するとHadoopクラスターが構成される。その引数に入出力ファイルのパスとかプログラムのファイル名を指定する。
実行するプログラムや入出力ファイル名をJSON形式のファイルに書いておき、それを指定することも出来る。
◆●ファイルは、「s3://～」で直接S3の場所が指定できるんだねぇ。

運用面は、ジョブ管理にAWSコンソール・Ruby CLI（コマンドライン）・APIが使える。
Gangliaで統計情報も見られる。

EC2インスタンスタイプによりインスタンス当たりのMapper数・Reducer数が決まっている。
BootStrapにより、Hadoopの個別の設定をすることも出来る（起動前に設定が読み込まれる）。

次に、Amazon Data Services Japanの大谷（shot6）さん。EMR利用事例。

Foursquare（スマートフォン）
- 機械学習・データ分析・トレンド分析等に使用
- 平均40ノード（増減する）
- RubyでStreaming
- ログ収集はApache Flume、ログ保存はS3、ログ解析はEMR、結果を見るときはHive
Razorfish（広告のSI）
- 1日35億レコード、170万広告
- 100ノード
- 処理時間：2日かかっていたのが8時間に
- HBaseを使ってるみたい
Sonet
- 広告配信ログの分析
- 1日平均10GB、年3.65TB
Etsy（巨大小売業）
- 434GB
- Ruby（Sinatra）
Yelp（地理データ）
- 1日400GB
- 全部EMR。1週間毎にノード数を変更している
名前は明かせないけど、金融系
- 100％AWS
- 60年分のデータ（100万ロケーション）
- 1200～1800インスタンス
Hatena
- Perl

Streaming・Hiveが多く使われていて、MapReduce直接は少ない。
Cascadingもけっこう使われている（日本では少ないが）。

Hadoopクラスターを起動したら、最初にS3からHDFSへデータをコピーする必要がある。
（EMRを起動しないと何も存在しない状態だから）
EMRを起動させっぱなしであれば、HDFS上にずっとデータを置いておくことも可。

次はクックパッドの佐々木（sasata299）さん。→資料（からあげ！ｗ）

“たべみる”で1年分の検索データを分析。
2009/09：MySQLのGROUP BYを使って処理しようとしたら、7000時間（約1年）かかるという見積もりｗ
2009/10：Hadoop（CDH1）のStreaming（Ruby）をEC2上で実行、30時間で出来た。
2010/07：CDH1のバグに遭遇（大きいデータを扱うとSocketTimeoutExceptionが頻発）。解決策はCDH2かEMRを使うこと。比較した結果、コストはEMRの方が少し高いが安定性やバージョンアップが自動で行われる点でEMRを選択。
「環境構築をしたいのではなく、データ分析をしたい」
2010/08：EMR使用

2010/4にブログで「EMRを使わない3つの理由」を書いたが、「使う理由」に訂正したいとのこと(笑)

MySQLで出来ることはMySQLでやり、出来ないことをEMRでやる。

クックパッドさんの中では、各エンジニア（全エンジニアは40人で、その中の10人くらい）がRubyでそれぞれEMRを使っている。（クックパッドのエンジニアは皆Rubyを使える。EMRの使い方ドキュメントは用意してある）
また、エンジニア以外でも使えるようにI/Fを用意している。

次はヴェルク株式会社の津久井（quarterkota）さん（インフラ設計）・石田（o918）さん（アプリ設計）。→資料

ログ解析で、アクセスログをS3に転送し、EMRで処理して集計結果をS3に格納する。
集計管理サーバー（ELB/EC2/EBS/RDS）でEMRを監視している。
利用時のみ起動しているので、運用コストが安い。1時間8.8円なので、8台2時間で140円程度。

アプリとしては、Hiveを使用。
EMRを常時起動させてはいないので、CREATE TABLE・INSERTでデータを保持しておく方法は使えない。
S3上にHiveが認識できる形でディレクトリーを作り、データを格納しておく。

バケット/ACCESS_LOG ←テーブル用ディレクトリー
- ACCESS_YM=201111 ←パーティション用ディレクトリー
- ACCESS_YM=201112
  - ログ1 ←パーティション項目は入っていない
  - ログ2

パーティションは、「パーティション項目名=値」というディレクトリー名にする。

そして、elastic-mapreduceコマンドでHadoopクラスターを作成する。同時にHiveのスクリプトを指定して実行する。
まず「CREATE EXTERNAL TABLE ～ LOCATION 's3://～'」でS3上のディレクトリーを指定したテーブルを作成する。
ただしそれだけだとパーティションが認識されないので、「ALTER TABLE テーブル名 RECOVER PARTITION」でパーティションを認識させる。
そしてINSERT DIRECTORY ～ SELECTでHQLを実行する。

◆●Hiveのパーティションは使ったことが無かったけど、RECOVERなんて命令があるのか。

最後は株式会社gumiの本間（CkReal）さん。ソーシャルゲームのEMR活用事例。→資料

今までのgumiの課題として、

ユーザーが（GREE経由で）カスタマーサポート（CS）に問い合わせをする。
CSはエンジニアに調査を依頼する。
エンジニアはNFSサーバーにあるログを調査する。
しかし、NFSサーバー上のログは毎日ギガバイト単位（最大18GB、圧縮して2.4GB）で発生するので、grepするのも大変。

そこで、MongoDBにJSON形式で格納することとし、EMRで変換している。

gumiは全てAWSを使っているので、EMRにするかEC2にするかという問題もあったが、EC2で構築するのは大変（あと、たまにEC2が再起動されたりする）なので、EMRに。

使用している言語はPython。（gumiのアプリは全てPythonで動いているし）
（Pigは習得コストがかかる。HiveはSELECTする為にある程度ログが整形されている必要があり、最終的にJSONに変換するという目的に合わない）

◆●Hiveを選択しなかった理由が「目的に合致しているかどうか」なのはいいね。
◆●Pigは自分も覚えるの面倒だと思ってたけど、やってみたらそんなに難しくは無かったけど…。

システム構成は、

NFSサーバー（複数）からバッチサーバーへログを転送
バッチサーバーでgzip圧縮し、S3に溜めておく（2千万件）
EMRで処理（2時間くらい）し、S3に集計ログ（30万件）を保存
（EMR起動時にBootStrapでPython2.7をインストールしている）
バッチサーバーでS3からMongoDBへ格納

EMRの感想としては

S3上のファイルをいつでも利用できる（EC2⇔S3は20MB/sで転送できる）
Hadoopクラスターを管理する必要が無い
変化する要件に対応しやすい（データはS3上にあるので、そのまま使える）
たまにジョブが失敗する（Reduceが終わらない？集計ログを回収しきれない？）
CPU使用率：リニアにスケールさせるのは難しい
※チューニング方法模索中（Hadoopにあまり詳しくない）

◆●Reduceが終わらないというのは自分も経験したことあるけど、仮想環境の設定がおかしかった為だからなぁ。EMRがそのレベルで設定が足りないとは思えないけど。

BigDataの各自の定義
大谷さん：持っているのが苦しくなってきたらBigData
津久井さん：MySQLが動かなくなる数千万レコード（少ないならMySQLを使う方が楽）

EMRの説明だけでなく、具体的な（細かい）使い方を知ることが出来たので面白かった。

ただ、Hadoopはちょっとかじっているので少しは分かっているつもりだけど、AWS用語は不勉強で分からないものがあった(汗) EC2やS3は有名なので知っていたが、RDSって何だろう？けっこう頻繁に出てきてた感じがするが…。
「elastic-mapreduce」コマンドは初めて見たが、分かりやすかった(笑)（自分は実際に見てみないと理解できないんだな(苦笑)）

最後に、VELCの銘が入ったチロルチョコおいしかったです(笑)
ありがとうございました。

最新の画像［もっと見る］

DMDL EditorX 5年前
ドラクエビルダーズ2にて 5年前

コメントを投稿

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

前月

次月

バックナンバー

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	dアカウント連携で最大2,000ptのdポイントプレゼント
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！