ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

データサイエンティスト

2012-08-21 18:46:53 | AI・BigData
前に、ビッグデータで日本が敗戦する日を書いたとき、こんなブログを発見!


Data Scientist: a unicorn?
http://blog.treasure-data.com/post/29496343559/data-scientist-a-unicorn


そこに、データサイエンティストっていうのは、


Data Scientist (n.): Person who is better at statistics than any software engineer and better at software engineering than any statistician. [1]


なひとで、


How many software engineers do you know that understand what Student’s t-test means? How many statistician do you know who has heard of Dependency Injection?


ってある。
うぃりあむのいたずらは、大学は、教育心理系なので、もちろん、t検定は知っている。宿題につかってたぞ。
DIも、まあまあ、しってる。S2フレームワークの仕事はやったことないけど・・

っていうことで、データサイエンティスト(^^;)
お~、なんか、SEっていうより、かっちょいいかもお・・・

そこに

To be honest, I know a couple, but that’s a couple out of 100+ software engineers and statisticians that I know.

ってあるけど、自分のほかに、もうひとり知っている。
その人も、「大学は心理系」+「お仕事でDI」のパターン。

心理&教育系は、データサイエンティストに向いているかも・・・

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

HBaseを読む(2)ビッグデータの夜明け、RDBの問題点

2012-08-21 13:30:57 | AI・BigData
NHNカンファレンスでもらったHBaseの本を、ざっと斜め読みして、適当にまとめるシリーズ「HBaseを読む」の続きです。
ちゃんとした情報を知りたい人は、HBaseの本を見てください。

今回は、1.1、1.2章




■1章 HBaseの紹介
・なぜまた別のストレージアーキテクチャを扱う必要があるのか
  →RDBMS:いまでも有効
  →このモデルがあまりうまくは適合しない、特定の課題もありそう

■1.1 ビッグデータの夜明け
・Hadoop 数ペタバイトに及ぶデータを収集
  →それ以上のデータを収集する必要性
     :機械学習などで、さらに増大
  →これまで:すべての情報を保存するコスト効率のよい方法なし
     特定のデータソース無視してよかった
     →いまや、そういった企業は競争に敗れそう
     →期間全体にわたる数学モデルの構築:機会を失う
      Ralph Kimball
       データ資産はバランスシート状の主要な構成要素
       20世紀における既存の物理的な資産を置き換える
       データの価値が広く認識

・Google,Amazon:データの価値を理解
  Google:スケーラブルなストレージとデータ処理
   →Googleの外部で、オープンソースのHadoop
      HDFSとMapReduce

・Hadoopの強み
  任意のあるいは半構造化された、あるいはまったく構造化されて
  いないフォーマットのデータの保存
    →データの解釈を分析の時点で決められる
  既存のデータベースシステムを補完
    無限データを保存
    適切タイミングでデータ取り出し
    巨大なファイルの保存やバッチ処理、ストリーミング型アクセス
     に最適化されている

・ユーザー:バッチでなく、ランダムアクセスも
 →構造化されたデータのランダムアクセス:DBへクエリに慣れている
   RDBMS:Coddの12のルール
     →非常に厳格な要求
      大きな変化はない
   近年:列指向、あるいは大規模分散処理データベース

・列指向データベース
  データを列でグループ化
    ある列の値は非常に良く似た性質
     →行指向のレコード構造に比べて、圧縮しやすい
  HBase:列指向データベースではなく
     列指向のフォーマットを利用しているだけ

・地球サイズのWebアプリケーション
  例:Facebookなど
 ある主要な産業界のそれほどWebを主体としない企業でも
 収集データの量は増加(以下に例)
   金融
   バイオセマンティックス
   スマートグリッド(OpenPDC)
   販売
   ゲノム学
   携帯電話、軍隊、環境問題
 数ペタバイトに及ぶデータを効率的に保存、更新
   →容易ではない。




■1.2 リレーショナルシステムの問題点

たとえば、HBaseのURL短縮サービスHushのサービスを考える

・はじめ:LAMPで実装
   データを正規化
   インデックス
   ストアドプロシジャ
   強い一貫性

・データ数増加:負荷増大
  →読み出しを並列=スレーブのDBサーバー追加

・そのつぎに
  キャッシュの追加(Memcachedなど)
   →一貫性の保証失われつつある

・書き込みの負荷が厳しい場合
  CPU,メモリ、ディスクを強力に→スケールアップ
  →コストかかる
  →スレーブもマスタ同様強力にしないと

・アプリケーションに機能追加
  SQLのJOIN速度急速に低下
    スキーマの非正規化
    最もコストの高いクエリの事前マテリアライズ化
    セカンダリインデックス:メンテナンス負荷
      →主キーのみに
    データをシャーディング
      →運用上の悪夢

シャーディング
  レコードを水平なパーティションに論理的に分割すること
  シャードのやりなおし:時間かかる
  →仮想シャード

多くの企業はRDBMSを使ってうまくいっている
  新しい製品の実装を始めるにあたって、
  利用可能なあらゆる選択肢を持っておいたほうがいい




次回は1.3章から


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ビッグデータで日本が敗戦する日

2012-08-21 10:54:08 | AI・BigData
最近話題?の「とれじゃーでーた」について調べてみた。


Treasure Data
http://www.treasure-data.com/


アメリカにある、クラウドのデータウェアハウスの提供会社
(Hadoopベース)
・・・なんだけど、どうもそれだけでなく、解析用のツール
(Treasure Data Toolbelt)っていうのもあって、
それを使って、いろいろ操作できるようだ・・




日本のビッグデータのアプローチというと、富士通の場合、

富士通、ビッグデータ活用のためのクラウドサービスとキュレーション提供
http://news.mynavi.jp/news/2012/01/17/027/index.html


のように、ビッグデータのプラットフォームと解析サービス(キュレーション)
を提供している。

ちょっと古いけど、他社の動向についても


国内ベンダーの「ビッグデータ」動向--富士通、日立、NTTデータ
http://japan.zdnet.com/cio/sp_bigdata2011/35011587/


に載っているけど、高速バッチ処理とかそんなのも手がけているけど、
ビッグデータを最新のマーケティング理論(ベイズとか)で解析してやろう!
なんていう、やんちゃなことは、してないかんじ。




富士通の言う、キュレーションサービス(一般的な言葉で使うキュレーション
とは違う。ビッグデータの解析に限定した言葉として使っている)の場合、
1時間、2時間ごとに変化する市場に対して、的確に分析、アドバイスする
というわけには行かない。

リアルタイムとは言わないが、短時間にビッグデータ分析を行うには、その分析理論と、それを支えるツールがいる。
Treasure Data Toolbeltは見ていないけれど、どうも、それを支えるツールらしい。




つまり、基本的なツールは、Treasure Dataにはある。
ってことは、あとは理論になる。

何が売れている・・・なんていうのを、単純に見るBIツールなら、
そりゃ、理論はいらないが、多量な変数から、有益な関係を得るには、
ふつう、データマイニングになってくるわけで、

すぐに思い浮かぶのは、Javaのデータマイニング(JDM)の
5つのアルゴリズム操作

1)属性重要度・・出力変数を予測するときに、重要度となる属性をランク付けする。
2)相関ルール・・同時に起こるアイテムを考察し、関係を発見する。
3)クラスタリング・・類似したデータ点のクラスタを見つけ出す。
4)回帰・・入力属性にもとづいて、出力変数の値を予測する。
5)分類・・離散属性を列挙値のひとつに分類する。

JDMについて(1)より引用


だけど、現実的には、単純に相関ルールを出されても困るわけで、儲かるかどうかが
知りたい(判別したい)わけだから、SVMとかが中心になってくるのかもしれない


まあ、それはさておき、単純なBIツールで、よいわけはなくて、

BIツールから仮説を出したんなら、それを検証するために、
共分散構造分析に掛けてみるとか、
逆にBIツールよりも有効な販売における「勝利の方程式」
を出してきたいのなら、
まあ、因子分析で因子をだすとか、クラスター調べてみるとかもあるけど、
最近は、ベイズだよねえ~
ってことになってくる。




いま、この辺の理論がちょっと整理されてないけど(=BIで止まっちゃってるけど)
このへんが、一気にかたづけば。。。

(といっても、Wekaでやらせようとすると、WekaはJavaで動くので、すぐにメモリー
 たらなくなるし、おそいし、Rは、共分散分析弱いし、Hadoopで共分散分析
 やってるやつは、まだいないし・・・)

ってことで、一気にかたづくには、時間がかかると思うけど、かりに誰かが片付けちゃえば、
あとは、その理論に従って、ツールを動かすだけになる。





このとき・・・だ、
理論をTreasure Data Toolbeltに落とす部分ができれば、
それこそ、Treasure Dataは、データをリアルタイムで処理する機能をワンストップで
提供できることになる。

ところが、日本のビッグデータは、プラットフォームと解析部分をサポートする
だけで、ノウハウをツール化する部分ができていない。


アメリカで、そのようなものができてきて、日本に売り込みに来たとき、
日本の企業は、それに対応するとしても・・ビッグデータをやっているのが
大企業だから、対応するのには時間がかかり、アメリカに席巻されてしまうだろう。

その日こそ、「ビッグデータで日本が敗戦する日」といえる。

それは、間近かもしれない。



P.S 
共分散分析ソフトのAmosが動くSPSSを買収しているIBMは、
HadoopのMapReduceで動く共分散のオープンソースを出して
くれないんでしょうか?
出ると、マーケティングの世界で、一挙に便利だと思うんですけど・・


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする