9月4日「Cassandra Meetup in Tokyo, Summer 2015」にいってきた。
その内容をメモメモ
Cassandraのポジション
DataStaxEnterprise(DSE)
Cassandraにソケットで付け加えている製品
今、solr,spark,hadoop,InMemory,将来グラフDBも
Apache Spark and Cassandra
パトリックさん(英語)
・自己紹介
Apache Cassandra
・Cassandraは
シェアードナッシング
マスタレスのピアToピア
・なぜカサンドラをつかうの?
モバイルアプリ
Webアプリ
→ゲーム
ビデオゲーム:オンライン;Noダウンタイム
IoT
例:Weather Station
・クエリーをサポート
ID
時間(レンジも)
→グラフ描ける
・RAWデータで保存
アグリゲーション クエリー
Apache Spark
・Map Reduc スロー
・Spark より速いスピード
MapReduce デスクに依存
Spark メモリ→計算
Resilient Distri
RDD
イミュータブル
パーティションド
リユーザブル
API
MapReduce MapとReduce
Spark いっぱい!
CassandraとSpark
Great Combo
ストリーム SQL MLib グラフ
Spark
Cassandra
Spark Connector
→Git Hubにある。オープンソース
サーバーに
かさんどらのいんすたんす
すぱーくわーかー→エクスキューたー→カサンドラにアクセス
→これが、クラスタになっている
別に
スパークマスター
→トランザクショナル(カサンドラのみ)と
アナリティクス(かさんどらとスパーク)にわけることも
Spark RDD
CQL
Spark Connecter実行
Spark パーティション
操作
→ETL
スパークコネクター
Cassandraだけで制限があるのものOKにする
Sparkのこーど
すからでかいてある
SparkContextで
CQLをつかって
SQL(max,minも、Joinも)
Sparkはすから、ぱいそん両方サポート
Spark ストリーミング
プロブレムドメイン
かふか:メッセージングシステム
すぱーく:マイクロバッチ
DStream-マイクロバッチ
https://github.com/killrweather/killrweather
で試せる
さんたくらら
CQLとSpark SQLの速さ
CQLはやい
■Cassandraへの取り組みとSparkとの連携について
Yahoo Japan
・自己紹介
・Cassandraの利用について
CassandraSummit Tokyo2015からのアップデート
・50のサービスが利用中
利用はひき続き拡大中
・マスターデータ
行動履歴
設定
集計
・ハードウェア
SSD性能評価 QPS6倍、れいてんし1/10以下
おそくてもいいばあいはHDD
・1.2→2.0へのアップグレード
・2.0.16もんだいがあってパッチ当ててる
・Cassandraネイティブインターフェース
・CassandraとSpark連携
やりたいこと:データの可視化
・なぜSpark
Cassandra
キー単体引き当ては得意
でも横断的に取得するのは苦手
→Spark連携
リアルタイム解析だけならStorm
・Spark
はやい、汎用的
・Hadoopとの速度比較
Hadoopのオーバーヘッド
でーたのでシリアライズコスト
Spark
SparkSQL
Spark Streaming
MLIB(マシンラーニング)
GraphX
データ抽象化レイヤRDD→MapReduce
HadoopライブラリでCassandraにRead/Write
→でーたすたっくすのCassandraConnectorを使う
既存クラスタへのSpark導入
コンシステンシーレベル
CPUリソースの確保
メモリーリソースの確保
Sparkクラスタ
スタンドアロンで検証開始
リアルライム解析
トリガー→Kadka→
インタラクティブ解析
MySQLで問題→Cassandra
購読DBへの要件:SparkSQL
耐障害性
ドライバーダウンしたら
デプロイモード
セキュリティ
ノード間通信の暗号化
まとめ
■はじめるCassandra
サイバーエージェント
・自己紹介
・会社紹介
・カサンドラは?
1.1.5、1.2.13
クラスタ3つ
150ノード
QPS:5万
15T
・サイバーエージェントのスマートフォンプラットフォーム
・ネイティブアプリの基盤
認証、課金、ロギング
・なぜカサンドラ
担当になったらあった
SPOFがない
耐えられるスケーラビリティ
運用実績
・システム
2.0.8
れぷけ―しょん3
CQL
Node.jsでドライバ自作
プライベートクラウドで
24コア
12ノード
オペレーション
・構築
Jenkins&あんしぶるで自動化
・監視
しきいち監視はせんす(コミュニティプラグインと自作)
チェック
OSのリソース
JVM ヒープ
カサンドラ特融
QPS
レイテンシ
フラッシュ、こんぱくしょん、ヘルス確認
ゴシップタイムアウト
オペレーション
リペア&クリンアップ7日
バックアップ 2時間ごとに各ノード
りストア
何かあった時によく使うnodetool
nodetool status
カラムファミリー
あきらめて再起動
NW障害
・L2レベルで完全なる断で全ノード独立
・Hintも消失
・hintがなくてもnodeさえつぶれてなければクラスタの復旧は可能
・NW断に耐えられた
その他
・slowlogを実装する
・スキーマ設計大事
■
・自己紹介
AWS
・50を超えるサーボス
・NetFlicks AWS+Cassandra カオスモンキー
マルチリージョン
→ネットフリックスさんの記事を読んでおく
・EC2snitch,EC2MultiReasionSnitch
Cassandra tools
2.1.8をかいとうすると出てくる
cassandra-stress 負荷の検証 95%タイル、99%タイル YSBC
Cassandra-stress deamon バックグラウンドか
cassandra.in.sh 環境変数設定
json2sstable エラーになる
sstable2json 動いた!→3系では推奨しない
sstablelevelreset 0にセットするためのツール?
sstablemetadata ssテーブルのメタデータを出す
sstableofflinerelevel
sstablerepairedset ブログに書かれている
sstablesplit ssテーブルの分割
token-generator
おまけ
cassandgo AWS上のCassandra構築
おまけ2
DynamoDB
AdRole
おまけ3
Cassandra Japan Community
ブルーオーシャン 一気に日本の第一人者になれる
その内容をメモメモ
Cassandraのポジション
DataStaxEnterprise(DSE)
Cassandraにソケットで付け加えている製品
今、solr,spark,hadoop,InMemory,将来グラフDBも
Apache Spark and Cassandra
パトリックさん(英語)
・自己紹介
Apache Cassandra
・Cassandraは
シェアードナッシング
マスタレスのピアToピア
・なぜカサンドラをつかうの?
モバイルアプリ
Webアプリ
→ゲーム
ビデオゲーム:オンライン;Noダウンタイム
IoT
例:Weather Station
・クエリーをサポート
ID
時間(レンジも)
→グラフ描ける
・RAWデータで保存
アグリゲーション クエリー
Apache Spark
・Map Reduc スロー
・Spark より速いスピード
MapReduce デスクに依存
Spark メモリ→計算
Resilient Distri
RDD
イミュータブル
パーティションド
リユーザブル
API
MapReduce MapとReduce
Spark いっぱい!
CassandraとSpark
Great Combo
ストリーム SQL MLib グラフ
Spark
Cassandra
Spark Connector
→Git Hubにある。オープンソース
サーバーに
かさんどらのいんすたんす
すぱーくわーかー→エクスキューたー→カサンドラにアクセス
→これが、クラスタになっている
別に
スパークマスター
→トランザクショナル(カサンドラのみ)と
アナリティクス(かさんどらとスパーク)にわけることも
Spark RDD
CQL
Spark Connecter実行
Spark パーティション
操作
→ETL
スパークコネクター
Cassandraだけで制限があるのものOKにする
Sparkのこーど
すからでかいてある
SparkContextで
CQLをつかって
SQL(max,minも、Joinも)
Sparkはすから、ぱいそん両方サポート
Spark ストリーミング
プロブレムドメイン
かふか:メッセージングシステム
すぱーく:マイクロバッチ
DStream-マイクロバッチ
https://github.com/killrweather/killrweather
で試せる
さんたくらら
CQLとSpark SQLの速さ
CQLはやい
■Cassandraへの取り組みとSparkとの連携について
Yahoo Japan
・自己紹介
・Cassandraの利用について
CassandraSummit Tokyo2015からのアップデート
・50のサービスが利用中
利用はひき続き拡大中
・マスターデータ
行動履歴
設定
集計
・ハードウェア
SSD性能評価 QPS6倍、れいてんし1/10以下
おそくてもいいばあいはHDD
・1.2→2.0へのアップグレード
・2.0.16もんだいがあってパッチ当ててる
・Cassandraネイティブインターフェース
・CassandraとSpark連携
やりたいこと:データの可視化
・なぜSpark
Cassandra
キー単体引き当ては得意
でも横断的に取得するのは苦手
→Spark連携
リアルタイム解析だけならStorm
・Spark
はやい、汎用的
・Hadoopとの速度比較
Hadoopのオーバーヘッド
でーたのでシリアライズコスト
Spark
SparkSQL
Spark Streaming
MLIB(マシンラーニング)
GraphX
データ抽象化レイヤRDD→MapReduce
HadoopライブラリでCassandraにRead/Write
→でーたすたっくすのCassandraConnectorを使う
既存クラスタへのSpark導入
コンシステンシーレベル
CPUリソースの確保
メモリーリソースの確保
Sparkクラスタ
スタンドアロンで検証開始
リアルライム解析
トリガー→Kadka→
インタラクティブ解析
MySQLで問題→Cassandra
購読DBへの要件:SparkSQL
耐障害性
ドライバーダウンしたら
デプロイモード
セキュリティ
ノード間通信の暗号化
まとめ
■はじめるCassandra
サイバーエージェント
・自己紹介
・会社紹介
・カサンドラは?
1.1.5、1.2.13
クラスタ3つ
150ノード
QPS:5万
15T
・サイバーエージェントのスマートフォンプラットフォーム
・ネイティブアプリの基盤
認証、課金、ロギング
・なぜカサンドラ
担当になったらあった
SPOFがない
耐えられるスケーラビリティ
運用実績
・システム
2.0.8
れぷけ―しょん3
CQL
Node.jsでドライバ自作
プライベートクラウドで
24コア
12ノード
オペレーション
・構築
Jenkins&あんしぶるで自動化
・監視
しきいち監視はせんす(コミュニティプラグインと自作)
チェック
OSのリソース
JVM ヒープ
カサンドラ特融
QPS
レイテンシ
フラッシュ、こんぱくしょん、ヘルス確認
ゴシップタイムアウト
オペレーション
リペア&クリンアップ7日
バックアップ 2時間ごとに各ノード
りストア
何かあった時によく使うnodetool
nodetool status
カラムファミリー
あきらめて再起動
NW障害
・L2レベルで完全なる断で全ノード独立
・Hintも消失
・hintがなくてもnodeさえつぶれてなければクラスタの復旧は可能
・NW断に耐えられた
その他
・slowlogを実装する
・スキーマ設計大事
■
・自己紹介
AWS
・50を超えるサーボス
・NetFlicks AWS+Cassandra カオスモンキー
マルチリージョン
→ネットフリックスさんの記事を読んでおく
・EC2snitch,EC2MultiReasionSnitch
Cassandra tools
2.1.8をかいとうすると出てくる
cassandra-stress 負荷の検証 95%タイル、99%タイル YSBC
Cassandra-stress deamon バックグラウンドか
cassandra.in.sh 環境変数設定
json2sstable エラーになる
sstable2json 動いた!→3系では推奨しない
sstablelevelreset 0にセットするためのツール?
sstablemetadata ssテーブルのメタデータを出す
sstableofflinerelevel
sstablerepairedset ブログに書かれている
sstablesplit ssテーブルの分割
token-generator
おまけ
cassandgo AWS上のCassandra構築
おまけ2
DynamoDB
AdRole
おまけ3
Cassandra Japan Community
ブルーオーシャン 一気に日本の第一人者になれる