米アマゾンの子会社、Amazon Web Services(AWS)は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。
Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使える。
Webブラウザの管理コンソール「AWS Management Console」に新たに「Amazon Elastic MapReduce」のタブが追加 「Job Flow」をウィザードで作成して実行させる 入出力の場所や、Map、Reduceを記述した実行形式の場所を指定する
ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはインターネット上のデータも指定できる。
マスターノードが入力データを分割し、スレーブノードに割り振る。スレーブノードでは「Map」と呼ばれる処理を細切れのデータに適用し、その結果は「Reduce」と呼ばれる処理で統合されてから、Amazon S3上に保存される。処理を記述する言語として、Java、Ruby、Perl、Python、PHP、R、C++が使えるほか、サードパーティ製のライブラリも利用可能という。ただし、Java言語をコンパイルしたjarファイルでは、Hadoopの機能がフルに使えるが、そのほかの言語では1ステップのMap/Reduceだけが実行可能という違いがある。
マスターノードにフェイルオーバーの機能はないが、スレーブノードに何らかの障害があった場合には、自動的に該当ノードをシャットダウンして再起動、自動的に別ノードにジョブやデータを再配備する耐障害性を備えている。
起動できるノード数に制限はないが、20インスタンス以上利用する場合には、事前に申請が必要。価格はインスタンスの計算リソースによって異なるが、1仮想コア、メモリ1.7GB、ハードディスク160GBの場合、1インスタンス当たり0.015ドルから。これにAmazon EC2の価格やAmazon S3の利用料が加わる。Amazon EC2のインスタンスは1時間0.1ドルから。例えば、Amazon Elastic MapReduceで100インスタンスを起動して1時間以内で処理が終わった場合には、MapReduceに1.5ドル、Amazon EC2に10ドルの課金が発生することになる。
大量データの解析や計算量の多い統計処理が低価格で可能となった。
Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使える。
Webブラウザの管理コンソール「AWS Management Console」に新たに「Amazon Elastic MapReduce」のタブが追加 「Job Flow」をウィザードで作成して実行させる 入出力の場所や、Map、Reduceを記述した実行形式の場所を指定する
ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはインターネット上のデータも指定できる。
マスターノードが入力データを分割し、スレーブノードに割り振る。スレーブノードでは「Map」と呼ばれる処理を細切れのデータに適用し、その結果は「Reduce」と呼ばれる処理で統合されてから、Amazon S3上に保存される。処理を記述する言語として、Java、Ruby、Perl、Python、PHP、R、C++が使えるほか、サードパーティ製のライブラリも利用可能という。ただし、Java言語をコンパイルしたjarファイルでは、Hadoopの機能がフルに使えるが、そのほかの言語では1ステップのMap/Reduceだけが実行可能という違いがある。
マスターノードにフェイルオーバーの機能はないが、スレーブノードに何らかの障害があった場合には、自動的に該当ノードをシャットダウンして再起動、自動的に別ノードにジョブやデータを再配備する耐障害性を備えている。
起動できるノード数に制限はないが、20インスタンス以上利用する場合には、事前に申請が必要。価格はインスタンスの計算リソースによって異なるが、1仮想コア、メモリ1.7GB、ハードディスク160GBの場合、1インスタンス当たり0.015ドルから。これにAmazon EC2の価格やAmazon S3の利用料が加わる。Amazon EC2のインスタンスは1時間0.1ドルから。例えば、Amazon Elastic MapReduceで100インスタンスを起動して1時間以内で処理が終わった場合には、MapReduceに1.5ドル、Amazon EC2に10ドルの課金が発生することになる。
大量データの解析や計算量の多い統計処理が低価格で可能となった。