1～100を合算するHadoopプログラム

2012-03-26 22:40:17 | PG（分散処理）

1～100を合算するC言語のプログラムに続いて、Hadoopでも作ってみた。さすがに変数1個では無理だったが＾＾；
しかもこんなもんHadoopでやるなという格好の例だけどね！(爆)
数が超大きくなったらHadoopで分散させる意味もあるかもしれないが、そんなのintの範囲に収まらないし＾＾；

とは言え、SequenceFileを使ったサンプルとしては真面目に役立つかもしれない。かも。

プログラムの構造としては、SeqFileに1～100までのレコードを出力し、それをReducerで合算するだけ。
SeqFileも大きくなればHDFS上で分散してくれるはずなので、こういう使い方はアリだと思う。

合算部分はWordCountでよく出てくるIntSumReducerそのものが使える。
また、Mapperでは特に何もせずReducerにそのまま値を渡せばよい為、Mapperクラスそのものを指定している。（新API（Hadoop0.20以降）ではMapperクラスは入力をそのまま出力に渡すようになっている。旧APIのIdentityMapperに相当する。なお、HadoopではReduce処理だけしたくても必ずMap処理を経由する必要がある）
Mapperの入力やReducerの出力はTextFileだろうがSeqFileだろうがMapper/Reducerには関係ないので、Mapper/IntSumReducerクラスがWordCountと同様にそのまま使える。

入力をTextFileにしても構わなかったんだけど、そうするとMapperを自作してTextからIntWritableへ変換したりする必要があるので、TextFileにはしなかった。
同様に出力をTextFileにしても良かったんだけど、ファイルのまま中を見るならTextの方が便利だが、値を取得するならSeqFileでもいいかなーと。
ちなみに、jobにセットするOutputFormatをTextOutputFormatに変えるだけで、後は何も変えなくても自動的にTextFileになる。こういった疎結合の仕組みは楽でいいよね～。
（TextOutputFormatでは、キーや値がNullWritableやnullだと何も出力されない。今回はキーが常にNullWritableなので、値（がtoString()されたもの）だけが出力される）
（今回のプログラムでは、最後の結果読み込み部分をSeqFile用からTextFile用に変えないといけないけど）

2024年7月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

ひしだまの変更履歴

ひしだまＨＰの更新履歴。 主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

1～100を合算するHadoopプログラム

コメントを投稿

ひしだまＨＰの更新履歴。
主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。