ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

「Cassandra Meetup in Tokyo, Summer 2015」に行ってきた!

2015-09-05 18:56:34 | Weblog
9月4日「Cassandra Meetup in Tokyo, Summer 2015」にいってきた。
その内容をメモメモ




Cassandraのポジション
DataStaxEnterprise(DSE)
 Cassandraにソケットで付け加えている製品
 今、solr,spark,hadoop,InMemory,将来グラフDBも

Apache Spark and Cassandra
パトリックさん(英語)
・自己紹介

Apache Cassandra
・Cassandraは
  シェアードナッシング
  マスタレスのピアToピア
・なぜカサンドラをつかうの?
 モバイルアプリ
 Webアプリ
  →ゲーム
 ビデオゲーム:オンライン;Noダウンタイム
 IoT

例:Weather Station

・クエリーをサポート
 ID
 時間(レンジも)
 →グラフ描ける

・RAWデータで保存

アグリゲーション クエリー

Apache Spark
・Map Reduc スロー
・Spark より速いスピード

MapReduce デスクに依存
Spark メモリ→計算

Resilient Distri
RDD
 イミュータブル
 パーティションド
 リユーザブル

API
 MapReduce MapとReduce
 Spark いっぱい!

CassandraとSpark
Great Combo

ストリーム SQL MLib グラフ
       Spark
       Cassandra

Spark Connector
 →Git Hubにある。オープンソース

サーバーに
  かさんどらのいんすたんす
  すぱーくわーかー→エクスキューたー→カサンドラにアクセス
→これが、クラスタになっている

別に
  スパークマスター

→トランザクショナル(カサンドラのみ)と
 アナリティクス(かさんどらとスパーク)にわけることも

Spark RDD
 CQL
 Spark Connecter実行
 Spark パーティション
 操作
→ETL

スパークコネクター
 Cassandraだけで制限があるのものOKにする


Sparkのこーど
 すからでかいてある
 SparkContextで

CQLをつかって

SQL(max,minも、Joinも)

Sparkはすから、ぱいそん両方サポート

Spark ストリーミング
プロブレムドメイン
  かふか:メッセージングシステム

すぱーく:マイクロバッチ

DStream-マイクロバッチ

https://github.com/killrweather/killrweather

で試せる


さんたくらら

CQLとSpark SQLの速さ
 CQLはやい

■Cassandraへの取り組みとSparkとの連携について
Yahoo Japan

・自己紹介

・Cassandraの利用について
 CassandraSummit Tokyo2015からのアップデート

・50のサービスが利用中
 利用はひき続き拡大中

・マスターデータ
 行動履歴
 設定
 集計

・ハードウェア
  SSD性能評価 QPS6倍、れいてんし1/10以下
  おそくてもいいばあいはHDD
・1.2→2.0へのアップグレード
・2.0.16もんだいがあってパッチ当ててる

・Cassandraネイティブインターフェース

・CassandraとSpark連携
 やりたいこと:データの可視化

・なぜSpark
 Cassandra
  キー単体引き当ては得意
  でも横断的に取得するのは苦手
 →Spark連携

 リアルタイム解析だけならStorm

・Spark
  はやい、汎用的
・Hadoopとの速度比較
  Hadoopのオーバーヘッド
 でーたのでシリアライズコスト

Spark
  SparkSQL
  Spark Streaming
  MLIB(マシンラーニング)
  GraphX

データ抽象化レイヤRDD→MapReduce

HadoopライブラリでCassandraにRead/Write
→でーたすたっくすのCassandraConnectorを使う

既存クラスタへのSpark導入

コンシステンシーレベル

CPUリソースの確保
メモリーリソースの確保

Sparkクラスタ
  スタンドアロンで検証開始

リアルライム解析
  トリガー→Kadka→

インタラクティブ解析
  MySQLで問題→Cassandra
  購読DBへの要件:SparkSQL

耐障害性
 ドライバーダウンしたら
  デプロイモード

セキュリティ
  ノード間通信の暗号化

まとめ

■はじめるCassandra

サイバーエージェント

・自己紹介

・会社紹介

・カサンドラは?
 1.1.5、1.2.13
 クラスタ3つ
 150ノード
 QPS:5万
 15T

・サイバーエージェントのスマートフォンプラットフォーム

・ネイティブアプリの基盤
 認証、課金、ロギング

・なぜカサンドラ
 担当になったらあった
 SPOFがない
 耐えられるスケーラビリティ
 運用実績

・システム
 2.0.8
 れぷけ―しょん3
 CQL
 Node.jsでドライバ自作
 プライベートクラウドで
 24コア
 12ノード

オペレーション
・構築
  Jenkins&あんしぶるで自動化
・監視
  しきいち監視はせんす(コミュニティプラグインと自作)
チェック
  OSのリソース
  JVM ヒープ
  カサンドラ特融
   QPS
   レイテンシ
   フラッシュ、こんぱくしょん、ヘルス確認
   ゴシップタイムアウト

オペレーション
  リペア&クリンアップ7日
  バックアップ 2時間ごとに各ノード
  りストア

何かあった時によく使うnodetool
nodetool status
 カラムファミリー

あきらめて再起動

NW障害
・L2レベルで完全なる断で全ノード独立
・Hintも消失
・hintがなくてもnodeさえつぶれてなければクラスタの復旧は可能
・NW断に耐えられた

その他
・slowlogを実装する
・スキーマ設計大事


・自己紹介

AWS
・50を超えるサーボス
・NetFlicks AWS+Cassandra カオスモンキー
 マルチリージョン
 →ネットフリックスさんの記事を読んでおく

・EC2snitch,EC2MultiReasionSnitch

Cassandra tools
2.1.8をかいとうすると出てくる

cassandra-stress 負荷の検証 95%タイル、99%タイル YSBC
Cassandra-stress deamon バックグラウンドか
cassandra.in.sh 環境変数設定
json2sstable エラーになる
sstable2json 動いた!→3系では推奨しない
sstablelevelreset 0にセットするためのツール?
sstablemetadata ssテーブルのメタデータを出す
sstableofflinerelevel
sstablerepairedset ブログに書かれている
sstablesplit ssテーブルの分割
token-generator 

おまけ
cassandgo AWS上のCassandra構築

おまけ2
DynamoDB
 AdRole

おまけ3
 Cassandra Japan Community
  ブルーオーシャン 一気に日本の第一人者になれる


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする