ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

OpenStackCompute=Python+Tornado+Twisted+AMQP+Redis

2010-07-20 17:22:53 | Twitter


 Twitterで、気になったもの。
 idがその発言のID,screen_nameが発言した人で、下の行が発言内容




id:18674266954    screen_name:HPLinuxJP
2010年度日本OSS貢献者賞、IPAが候補者の推薦募集を開始だそうです http://ht.ly/2ck7J (ITPro)

id:18593004498    screen_name:HPLinuxJP
システムバックアップソリューションとして開発されました。→ http://ht.ly/2bMVH ミラクル・リナックスが、日本HPの協力を受け、エンタープライズ向けシステム・バックアップ製品を開発

id:18927245176    screen_name:shot6
え、SQL Azureって分散トランザクション使えないのは知ってたけど、そのおかげでTransactionScopeって使えないの?既存のコードまんま動くとかいってたけど、だめじゃん。

id:18925509207    screen_name:shot6
Rackspaceが仕掛けてきた感じかな。逆に言えば相当数のベンダを巻き込まないと今後が危ういシビアな戦いだということ。

id:18925196754    screen_name:shot6
協賛企業とかCommunity。 > http://openstack.org/community/

id:18921698095    screen_name:shot6
OpenStack ComputeはPython + Tornado + Twisted + AMQP + Redisですよ、と。 > http://openstack.org/projects/compute/

id:18807792196    screen_name:shot6
biometricsの例。HDFSをストレージとしてつかうのが結構よかったのかな。

id:18807625011    screen_name:shot6
ZettaVoxの例。なんかサポート団体が物々しいぞw DARPA/NSFなど・・・なんか軍隊関連なんでしょか。Hadoop + GPUは強そう。

id:18807329672    screen_name:shot6
BigSheetsの紹介、ってことかな。Hadoop、Pigをベースに拡張可能なUDFをつけてサービスに。RESTのAPIで分析、可視化をみれる。Nikonさんでの事例?

id:18807150122    screen_name:shot6
BigData analytics/Web browser based application platform/Mobile、この3つを抑えることが技術的には重要。ハイハイ、承知しておりますよ。

id:18805818811    screen_name:shot6
よくわからないRiffle annotations > http://github.com/cwensel/riffle

id:18805735229    screen_name:shot6
Cascadingの上でうごくマイニングツールキットBixo > http://bixo.101tec.com/

id:18805608962    screen_name:shot6
む。HiveでJDBCだすのか。あとCost-based optimizerとか面白そう。

id:18805288671    screen_name:shot6
.@okachimachiorz はい、そういうイメージです。>業務ソリューション + 最適なクラウド環境をチョイスできる技術基盤。  どちらにしても垂直結合で上から下まで高いレベルが求められると思います。双方の観点からの要求をぶつけあえる土壌が必要。

id:18804740210    screen_name:shot6
Honu、7末にOSSでgithubに公開。HBase/Cassandra連携も視野とのこと。

id:18804552438    screen_name:shot6
基本はEMRとS3ですね。Client SDKがついてて、log4jとかTomcatのログとかを収集するみたい。まあ考えることは同じですね、と。

id:18804464275    screen_name:shot6
Honu, streaming data & log collection based on Hadoop, Hive, Thrift.

id:18804381837    screen_name:shot6
@okachimachiorz MR本もやりたいコンテンツですよね。確立されたパターンという点では同意です。

id:18803824318    screen_name:shot6
Cassandraのベンチマークが出てる。仮想化すると5-15%くらいのパフォーマンスペナルティがみられる、とのこと。なるほど。

id:18803568349    screen_name:shot6
@toshi_miura やはり日本の書籍販売はあまりに特殊なモデルでガチガチなので、少しでもほころびが出ると危ないという危機感が既得権益の人にはあると思います。ほんと読者のことを考えていないなあと思うしだい。

id:18768984868    screen_name:shot6
CascalogはClojureで書いたHadoopでのデータ処理のためのDSL。

id:18763912896    screen_name:shot6
Oozie2 + Pigがいけそうな感じ。

id:18763765006    screen_name:shot6
Oozie2 > http://yahoo.github.com/oozie/releases/2.0.0/

id:18763612815    screen_name:shot6
@okachimachiorz ええ、それは同意です。逆にAmazonが最近異常なスピードなんですよね。まじで月6件重要な機能追加とか、なんですかそれ?ってレベルです。Hadoop、Amazonだけ突出して早い。他は割とゆっくりめです。

id:18763382812    screen_name:shot6
インデックス構築を4日間から6時間に短縮。現状Oozieユーザは50、ワークフローアプリは約5000、最大ワークフローは2000アクション、平均18アクションくらい。アクションをPigで書く人多し。

id:18763174947    screen_name:shot6
Oozie。構成要素は2つ。workflow engine/coordinator engine。

id:18763109757    screen_name:shot6
@kudoh_shigenori http://www.slideshare.net/ydn/3-hadoop-pigattwitterhadoopsummit2010 のp12, 13です。入力データはtweetなどのMySQLに格納されたデータですね。

id:18762811811    screen_name:shot6
今年当初くらいに思ってたのは、夏くらいにDryad登場→Hadoopに足りないところあるね→んじゃあ機能を足すか→DryadでもHadoop+αでも同等機能の提供。こういうシナリオ。

id:18762315912    screen_name:shot6
Piglet > http://github.com/ningliang/piglet 名前がひどいなあw

id:18762205256    screen_name:shot6
Analysisi。Pig先生の出番です。PigにするとMRの5%のコードで、実行時間は30%ましなだけ。まあPigだよね。。。

id:18761720515    screen_name:shot6
TweetデータはMySQL。MySQL to HDFS, MySQL to HBase, MySQL to MySQLを行う必要があって、それはCraneという自前のでやってるらしい。

id:18761485311    screen_name:shot6
input-> Scribe, Crane, storage -> ElephantBird, HBase, analysis -> Pig, Oink, products -> Birdbrainてかんじ。Crane, Elephant BirdはTwitterのOSS

id:18761421806    screen_name:shot6
Twitterの事例。Twitterのライフサイクルは4つ。Data input/Data storage/Data analysis/Data products

id:18761192640    screen_name:shot6
次。Facebookでは、WarehouseでHBase+Hiveを使ってる。20ノード、gzip圧縮6TBデータを初期ロード。その後は時間当たり30GBをHive経由で。

id:18759552927    screen_name:shot6
MVCCについては、既存のOSSのRDBMSでホントのところを確認するのが個人的には王道かなあと思ってます。逆説的やもしれないですが、Hadoopで上の層を重ねたいならRDBMSを見なさい、という直感があります。

id:18759281856    screen_name:shot6
.@okachimachiorz KarmashepreのってHadoopも意識させない感じですね。生Hadoopはつらいという認識は方向性はありと思います。Thriftもいらない。全然いらない。





この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« Android、SurfaceView/OpenGL... | トップ | シミュレーションを利用した... »
最新の画像もっと見る

Twitter」カテゴリの最新記事