OpenStackCompute=Python+Tornado+Twisted+AMQP+Redis

2010-07-20 17:22:53 | Twitter

　Twitterで、気になったもの。
　idがその発言のID,screen_nameが発言した人で、下の行が発言内容

id:18674266954 　　 screen_name:HPLinuxJP
2010年度日本OSS貢献者賞、IPAが候補者の推薦募集を開始だそうです http://ht.ly/2ck7J (ITPro)

id:18593004498 　　 screen_name:HPLinuxJP
システムバックアップソリューションとして開発されました。→ http://ht.ly/2bMVH ミラクル・リナックスが、日本HPの協力を受け、エンタープライズ向けシステム・バックアップ製品を開発

id:18927245176 　　 screen_name:shot6
え、SQL Azureって分散トランザクション使えないのは知ってたけど、そのおかげでTransactionScopeって使えないの？既存のコードまんま動くとかいってたけど、だめじゃん。

id:18925509207 　　 screen_name:shot6
Rackspaceが仕掛けてきた感じかな。逆に言えば相当数のベンダを巻き込まないと今後が危ういシビアな戦いだということ。

id:18925196754 　　 screen_name:shot6
協賛企業とかCommunity。 > http://openstack.org/community/

id:18921698095 　　 screen_name:shot6
OpenStack ComputeはPython + Tornado + Twisted + AMQP + Redisですよ、と。 > http://openstack.org/projects/compute/

id:18807792196 　　 screen_name:shot6
biometricsの例。HDFSをストレージとしてつかうのが結構よかったのかな。

id:18807625011 　　 screen_name:shot6
ZettaVoxの例。なんかサポート団体が物々しいぞｗ DARPA/NSFなど・・・なんか軍隊関連なんでしょか。Hadoop + GPUは強そう。

id:18807329672 　　 screen_name:shot6
BigSheetsの紹介、ってことかな。Hadoop、Pigをベースに拡張可能なUDFをつけてサービスに。RESTのAPIで分析、可視化をみれる。Nikonさんでの事例？

id:18807150122 　　 screen_name:shot6
BigData analytics/Web browser based application platform/Mobile、この3つを抑えることが技術的には重要。ハイハイ、承知しておりますよ。

id:18805818811 　　 screen_name:shot6
よくわからないRiffle annotations > http://github.com/cwensel/riffle

id:18805735229 　　 screen_name:shot6
Cascadingの上でうごくマイニングツールキットBixo > http://bixo.101tec.com/

id:18805608962 　　 screen_name:shot6
む。HiveでJDBCだすのか。あとCost-based optimizerとか面白そう。

id:18805288671 　　 screen_name:shot6
.@okachimachiorz はい、そういうイメージです。>業務ソリューション + 最適なクラウド環境をチョイスできる技術基盤。　　どちらにしても垂直結合で上から下まで高いレベルが求められると思います。双方の観点からの要求をぶつけあえる土壌が必要。

id:18804740210 　　 screen_name:shot6
Honu、7末にOSSでgithubに公開。HBase/Cassandra連携も視野とのこと。

id:18804552438 　　 screen_name:shot6
基本はEMRとS3ですね。Client SDKがついてて、log4jとかTomcatのログとかを収集するみたい。まあ考えることは同じですね、と。

id:18804464275 　　 screen_name:shot6
Honu, streaming data & log collection based on Hadoop, Hive, Thrift.

id:18804381837 　　 screen_name:shot6
@okachimachiorz MR本もやりたいコンテンツですよね。確立されたパターンという点では同意です。

id:18803824318 　　 screen_name:shot6
Cassandraのベンチマークが出てる。仮想化すると5-15%くらいのパフォーマンスペナルティがみられる、とのこと。なるほど。

id:18803568349 　　 screen_name:shot6
@toshi_miura やはり日本の書籍販売はあまりに特殊なモデルでガチガチなので、少しでもほころびが出ると危ないという危機感が既得権益の人にはあると思います。ほんと読者のことを考えていないなあと思うしだい。

id:18768984868 　　 screen_name:shot6
CascalogはClojureで書いたHadoopでのデータ処理のためのDSL。

id:18763912896 　　 screen_name:shot6
Oozie2 + Pigがいけそうな感じ。

id:18763765006 　　 screen_name:shot6
Oozie2 > http://yahoo.github.com/oozie/releases/2.0.0/

id:18763612815 　　 screen_name:shot6
@okachimachiorz ええ、それは同意です。逆にAmazonが最近異常なスピードなんですよね。まじで月6件重要な機能追加とか、なんですかそれ？ってレベルです。Hadoop、Amazonだけ突出して早い。他は割とゆっくりめです。

id:18763382812 　　 screen_name:shot6
インデックス構築を4日間から6時間に短縮。現状Oozieユーザは50、ワークフローアプリは約5000、最大ワークフローは2000アクション、平均18アクションくらい。アクションをPigで書く人多し。

id:18763174947 　　 screen_name:shot6
Oozie。構成要素は2つ。workflow engine/coordinator engine。

id:18763109757 　　 screen_name:shot6
@kudoh_shigenori http://www.slideshare.net/ydn/3-hadoop-pigattwitterhadoopsummit2010　のp12, 13です。入力データはtweetなどのMySQLに格納されたデータですね。

id:18762811811 　　 screen_name:shot6
今年当初くらいに思ってたのは、夏くらいにDryad登場→Hadoopに足りないところあるね→んじゃあ機能を足すか→DryadでもHadoop+αでも同等機能の提供。こういうシナリオ。

id:18762315912 　　 screen_name:shot6
Piglet > http://github.com/ningliang/piglet 名前がひどいなあｗ

id:18762205256 　　 screen_name:shot6
Analysisi。Pig先生の出番です。PigにするとMRの5%のコードで、実行時間は30%ましなだけ。まあPigだよね。。。

id:18761720515 　　 screen_name:shot6
TweetデータはMySQL。MySQL to HDFS, MySQL to HBase, MySQL to MySQLを行う必要があって、それはCraneという自前のでやってるらしい。

id:18761485311 　　 screen_name:shot6
input-> Scribe, Crane, storage -> ElephantBird, HBase, analysis -> Pig, Oink, products -> Birdbrainてかんじ。Crane, Elephant BirdはTwitterのOSS

id:18761421806 　　 screen_name:shot6
Twitterの事例。Twitterのライフサイクルは4つ。Data input/Data storage/Data analysis/Data products

id:18761192640 　　 screen_name:shot6
次。Facebookでは、WarehouseでHBase+Hiveを使ってる。20ノード、gzip圧縮6TBデータを初期ロード。その後は時間当たり30GBをHive経由で。

id:18759552927 　　 screen_name:shot6
MVCCについては、既存のOSSのRDBMSでホントのところを確認するのが個人的には王道かなあと思ってます。逆説的やもしれないですが、Hadoopで上の層を重ねたいならRDBMSを見なさい、という直感があります。

id:18759281856 　　 screen_name:shot6
.@okachimachiorz KarmashepreのってHadoopも意識させない感じですね。生Hadoopはつらいという認識は方向性はありと思います。Thriftもいらない。全然いらない。

ランキングに参加中。クリックして応援お願いします！

アクセス
閲覧	1,105	PV
訪問者	764	IP
トータル
閲覧	34,586,117	PV
訪問者	8,555,890	IP
ランキング
日別	867	位
週別	639	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）