今日(8月8日)Talendが主催して、アマゾンでやった、クラウドで実現するオムニチャネルのビッグデータ統合に行って来た!その内容をメモメモ
■オムニチャネルに活かすリアルタイム集計
データコム 地主さん
1.会社説明
仙台に本社
流通小売、POS分析、販売企画
POSデータ分析アプリケーション
自社開発DBエンジン、
2007年開発、インメモリ型、POSに特化
従来:パフォーマンスを出すために、JOINしていた
→大福町形式
このシステム:都度組み合わせでもOK
マルチマスター(合併などで)もできる
マスタ履歴無制限
日別在庫もコンパクトに持てる
RedShift,RDB
2.流通小売業界の動向
人口減少による国内市場の縮小
高齢者だけでなく、若い人も少なくなる→買う人も、働く人も少なくなる
伸び悩む「従来型」小売りの売り上げ→コンビニ等は延びているが、売上規模は・・
消費者の商品購買チャネルの変化
ネット、モバイル伸びてる(カタログ通販はそれほど)
→オムニチャネル
シングルチャネルからオムニチャネル
シングルチャネル→マルチチャネル→クロスチャネル→オムニチャネル
オムニチャネル対応状況
広義のオムニチャネル
企業グループ、他社もふくめ
「すべての」「あらゆる」販売活動
オムニチャネルのインフラ
自社システムと他社システム
共通コードや統合データベース
クローズドデータとオープンデータ
クローズドデータ:自社、社内
オープンデータ:気象、統計情報
業務端末と個人端末
業務端末+BYOD
オムニチャネル対応のためのシステム
高速、大容量→桁がちがう
以前、数億件規模今、数十億件~数百億件
レスポンス
夜間バッチ→オンデマンド、同時アクセス
拡張性、柔軟性
企業連携によるデータ量2倍とか
データ連携、新しいビジネスモデル
セキュリティ対応
3.システム事例のご紹介
実店舗活用型オンラインショップ
実店舗でピッキング:最寄店舗選ばれる。店員がピッキング
物流センター、在庫持たない。発送コスト、輸送時間短縮
リアルタイムな在庫
食品スーパー電子発注システム
EC2:ETLサーバー
DynamoDB:性能保証されている
販売数更新と在庫数紹介のリアルタイム処理
→発注〆時間
発注推奨数:マイニング機能
→端末からSQL→Webサービスで実現
卸・小売間の販売情報共有システム
EC2:ETLサーバー、Webサーバー
AmazonRDS:EDI200社、400社が対応できず→FAXで対応
→取引先ごとのフォルダにおいておくだけ
ビーコンを使った顧客プロモーション(まだ展示段階)
EC2:Webサーバー
DynamoDB
RedShift
大容量、高速処理
100店舗のスーパー、ビーコン10台、スマホ10人
→3つのビーコン
1秒間に1トランザクション毎秒3000トランザクション
過去の購買履歴でコントロール
4.まとめ
線から面へ
・個別システムから全体システムへ
業務、組織、使用端末、コード体系
・高い拡張性、柔軟性、耐障害性
常に変化(手作業を機械化するのではないので)
システムの考え方の変化
・電子計算機ではなくなった
お客さんの要望を聞く
→お客さんに聞いても出てこない
→仮説検証
・汎用機から専用機
汎用パソコンからPC・スマホ・タブレット
汎用DBから目的別DB
汎用言語からDSLへ
・密結合から疎結合へ
従来の仕組みでは対応難しい
育てる時代からつなぐ時代
あたらしい皮袋
■ハイブリッド環境で威力を発揮するビッグデータ統合ツールのご紹介
・つなぐソフトウェア
・Talendについて
使命:全てのデータから価値を生み出す
2005年 フランスで2人のエンジニアから
ベルドナンドディアド、ファビルスボナン
オープンソース・オープンビジネス
45000名 コミュニティ(世界で4番目)日本1000名くらい
1500名 品質テスター
500個 コンポーネント
2000万回 ダウンロード
100万人 つかっている
4000社 導入企業(商用版)
128%の成長率
世界第二位 OSS系(ちなみに1位はRedHat)
・Talend製品について
TalendStudio Eclipseで作られたデザインツール
↓
Jar
↓
Talend Administration Center
処理の自動化
→HadoopとOozieベースの実行スケジュール
ロール別ユーザー管理
・エンタープライズの場合、商用版
無料版は保守がつかない
ESB(えんたーぷらいずさーびすばす)
Talend Unified PLATFORM
プロジェクトの深耕:1個のGUIなので、学習コスト
I Love Data→I Love BigData
ビッグデータの活用
オンプレミスだけでなく、クラウド
ソース
DATA→ビッグデータで増えた
データ処理加工
INFORMATION
BIツール
INTELLIGENCE
→費用対効果
1.多種多様なデータに対応できない
従来:コネクタ数 100
Talend: 500+コミュニティ300
可読性
従来:コードは読めない
Talend:Javaコード
2.Hadoopを簡単に使えない
30%人月単価高い
3.高速に処理できない
TalendnジョブはHadoop上で稼動する
4.費用対効果
利用者単位
現在のビッグデータ活用は?
BI
経営行動に入れ込む
オートメーション
1.5歩先のビッグデータは
ハイブリッド環境でのデータ統合
デモ
■ビッグデータ関連サービスとAmazonRedShiftの最新情報のご紹介
Amazon 榎並さん
好きなサービス
kinesis,DynamoDB
・AWS summit 2014 Tokyo 品川で
日本でも増え続けるお客様
使っている人が話す
・クラウドコンピューティングのメリット
1、初期投資が不要
2.低額な変動価格
3.使用分のみ
4.セルフサービス
5.スケールアップダウン
6.俊敏性
1.初期投資が不要
オンプレミス
クラウドコンピューティング 0円
2.低額な価格変動
44回値下げ
3.実際に使用分の支払い
4.セルフサービスないんふら
オンプレミス→複雑、遅くなりがち
クラウド→わんくりっく
サーバーの削除も簡単
5.スケールアップ・ダウンが容易
6.市場投入時間と俊敏性をカイゼン
・いろいろなチャレンジ
運用負担が減り、本来の業務に集中
アマゾンウェブサービスの現在
800の政府機関、3000の教育機関
10000をこえるパートナー
10箇所のデータセンター群
年間280を超える機能拡張、カイゼン
ガートナーIaaSの位置づけ
ビジョンの完全性と実行能力
リーダー:AWS
のこり14社*5→AWS
ビッグデータを取り巻くシステム
事例
・アンデルセンサービス
VPC上での原価計算バッチ処理(Asakusa利用)
EMR
・西鉄ストア
期間で必要な処理
サービス
Collect Direct Connect
Sttore S3,DynamoDB,Glacier
Analyze EMR,RedShift,EC2,Data Pipeline
SHARE S3
全体的にkinesis
S3,9イレブン、DropBoxもS3つかっている。
Amazon Elastic MapReduce
・運用難しい→そこをやっている
Hadoop2.4,Hive,Pig,HBase
Amazon Kinesis ストリームタイプサービス
キャンペーン
ゲーム
POSデータ売り上げ
センサーの異常検知、不正アクセス
Twitter
事例
・スシロー
Kinesis→RedShift→tablau
RedShift
・DataWarehoouse as a Service
・拡張性:数百Gから1.6Pまで
・高速:カラムナー、超並列(MPP)
・LeaderNodeとComputeNode→代金はコンピュートノード
S3とインテグレーションされている
・BIツール:tablauなど
・データ投入
ダイレクトコネクト
VPNコネクション
→S3にいれてから
I/Oを減らす仕組み
・カラムナー型
・データ圧縮
・ゾーンマップ
・直結ストレージ
・データブロックサイズ
並列分散
2013年2月のローンチ以降多数の新機能追加
60を超える新機能
セキュリティ
無料トライアル、アジアパシフィック値下げ
dw2.largeを2ヶ月間トライアル
リザーブドインスタンス
・普通は1時間単位課金
・手付金:時間単位安くなる
事例:
・airBandB Hadoopから安くなった
・Bookmyshow Hadoopから安くなった
・Financial time Hadoopよりやさしい
・NTTドコモ 統合DWHプロジェクト
数ペタバイトのデータ分析をRedShiftで
マーケットプレイスでETL/BIツールを試せる
・すかいらーく様 POSデータ分析 RedShiftで
マーケティング部門が導入
わずか1ヶ月で本番稼動 tablau
・良品計画 RedShiftとtablau→O2O
・ALBERT ADreco RedShift PostgreSQLとの互換性
クラウドもアマゾンで、ビッグデータもアマゾンで
Q&A
Q:RedShiftが苦手なものはないのか?
A:ある。トランザクション処理は苦手。そのようなものはDynamoDBのほうが得意
RedShiftは集計。更新はちょっとおそい
(このあと、RがおそくてUSP研究所のをつかうとうんたらかんたら・・・という話が出た)
■オムニチャネルに活かすリアルタイム集計
データコム 地主さん
1.会社説明
仙台に本社
流通小売、POS分析、販売企画
POSデータ分析アプリケーション
自社開発DBエンジン、
2007年開発、インメモリ型、POSに特化
従来:パフォーマンスを出すために、JOINしていた
→大福町形式
このシステム:都度組み合わせでもOK
マルチマスター(合併などで)もできる
マスタ履歴無制限
日別在庫もコンパクトに持てる
RedShift,RDB
2.流通小売業界の動向
人口減少による国内市場の縮小
高齢者だけでなく、若い人も少なくなる→買う人も、働く人も少なくなる
伸び悩む「従来型」小売りの売り上げ→コンビニ等は延びているが、売上規模は・・
消費者の商品購買チャネルの変化
ネット、モバイル伸びてる(カタログ通販はそれほど)
→オムニチャネル
シングルチャネルからオムニチャネル
シングルチャネル→マルチチャネル→クロスチャネル→オムニチャネル
オムニチャネル対応状況
広義のオムニチャネル
企業グループ、他社もふくめ
「すべての」「あらゆる」販売活動
オムニチャネルのインフラ
自社システムと他社システム
共通コードや統合データベース
クローズドデータとオープンデータ
クローズドデータ:自社、社内
オープンデータ:気象、統計情報
業務端末と個人端末
業務端末+BYOD
オムニチャネル対応のためのシステム
高速、大容量→桁がちがう
以前、数億件規模今、数十億件~数百億件
レスポンス
夜間バッチ→オンデマンド、同時アクセス
拡張性、柔軟性
企業連携によるデータ量2倍とか
データ連携、新しいビジネスモデル
セキュリティ対応
3.システム事例のご紹介
実店舗活用型オンラインショップ
実店舗でピッキング:最寄店舗選ばれる。店員がピッキング
物流センター、在庫持たない。発送コスト、輸送時間短縮
リアルタイムな在庫
食品スーパー電子発注システム
EC2:ETLサーバー
DynamoDB:性能保証されている
販売数更新と在庫数紹介のリアルタイム処理
→発注〆時間
発注推奨数:マイニング機能
→端末からSQL→Webサービスで実現
卸・小売間の販売情報共有システム
EC2:ETLサーバー、Webサーバー
AmazonRDS:EDI200社、400社が対応できず→FAXで対応
→取引先ごとのフォルダにおいておくだけ
ビーコンを使った顧客プロモーション(まだ展示段階)
EC2:Webサーバー
DynamoDB
RedShift
大容量、高速処理
100店舗のスーパー、ビーコン10台、スマホ10人
→3つのビーコン
1秒間に1トランザクション毎秒3000トランザクション
過去の購買履歴でコントロール
4.まとめ
線から面へ
・個別システムから全体システムへ
業務、組織、使用端末、コード体系
・高い拡張性、柔軟性、耐障害性
常に変化(手作業を機械化するのではないので)
システムの考え方の変化
・電子計算機ではなくなった
お客さんの要望を聞く
→お客さんに聞いても出てこない
→仮説検証
・汎用機から専用機
汎用パソコンからPC・スマホ・タブレット
汎用DBから目的別DB
汎用言語からDSLへ
・密結合から疎結合へ
従来の仕組みでは対応難しい
育てる時代からつなぐ時代
あたらしい皮袋
■ハイブリッド環境で威力を発揮するビッグデータ統合ツールのご紹介
・つなぐソフトウェア
・Talendについて
使命:全てのデータから価値を生み出す
2005年 フランスで2人のエンジニアから
ベルドナンドディアド、ファビルスボナン
オープンソース・オープンビジネス
45000名 コミュニティ(世界で4番目)日本1000名くらい
1500名 品質テスター
500個 コンポーネント
2000万回 ダウンロード
100万人 つかっている
4000社 導入企業(商用版)
128%の成長率
世界第二位 OSS系(ちなみに1位はRedHat)
・Talend製品について
TalendStudio Eclipseで作られたデザインツール
↓
Jar
↓
Talend Administration Center
処理の自動化
→HadoopとOozieベースの実行スケジュール
ロール別ユーザー管理
・エンタープライズの場合、商用版
無料版は保守がつかない
ESB(えんたーぷらいずさーびすばす)
Talend Unified PLATFORM
プロジェクトの深耕:1個のGUIなので、学習コスト
I Love Data→I Love BigData
ビッグデータの活用
オンプレミスだけでなく、クラウド
ソース
DATA→ビッグデータで増えた
データ処理加工
INFORMATION
BIツール
INTELLIGENCE
→費用対効果
1.多種多様なデータに対応できない
従来:コネクタ数 100
Talend: 500+コミュニティ300
可読性
従来:コードは読めない
Talend:Javaコード
2.Hadoopを簡単に使えない
30%人月単価高い
3.高速に処理できない
TalendnジョブはHadoop上で稼動する
4.費用対効果
利用者単位
現在のビッグデータ活用は?
BI
経営行動に入れ込む
オートメーション
1.5歩先のビッグデータは
ハイブリッド環境でのデータ統合
デモ
■ビッグデータ関連サービスとAmazonRedShiftの最新情報のご紹介
Amazon 榎並さん
好きなサービス
kinesis,DynamoDB
・AWS summit 2014 Tokyo 品川で
日本でも増え続けるお客様
使っている人が話す
・クラウドコンピューティングのメリット
1、初期投資が不要
2.低額な変動価格
3.使用分のみ
4.セルフサービス
5.スケールアップダウン
6.俊敏性
1.初期投資が不要
オンプレミス
クラウドコンピューティング 0円
2.低額な価格変動
44回値下げ
3.実際に使用分の支払い
4.セルフサービスないんふら
オンプレミス→複雑、遅くなりがち
クラウド→わんくりっく
サーバーの削除も簡単
5.スケールアップ・ダウンが容易
6.市場投入時間と俊敏性をカイゼン
・いろいろなチャレンジ
運用負担が減り、本来の業務に集中
アマゾンウェブサービスの現在
800の政府機関、3000の教育機関
10000をこえるパートナー
10箇所のデータセンター群
年間280を超える機能拡張、カイゼン
ガートナーIaaSの位置づけ
ビジョンの完全性と実行能力
リーダー:AWS
のこり14社*5→AWS
ビッグデータを取り巻くシステム
事例
・アンデルセンサービス
VPC上での原価計算バッチ処理(Asakusa利用)
EMR
・西鉄ストア
期間で必要な処理
サービス
Collect Direct Connect
Sttore S3,DynamoDB,Glacier
Analyze EMR,RedShift,EC2,Data Pipeline
SHARE S3
全体的にkinesis
S3,9イレブン、DropBoxもS3つかっている。
Amazon Elastic MapReduce
・運用難しい→そこをやっている
Hadoop2.4,Hive,Pig,HBase
Amazon Kinesis ストリームタイプサービス
キャンペーン
ゲーム
POSデータ売り上げ
センサーの異常検知、不正アクセス
Twitter
事例
・スシロー
Kinesis→RedShift→tablau
RedShift
・DataWarehoouse as a Service
・拡張性:数百Gから1.6Pまで
・高速:カラムナー、超並列(MPP)
・LeaderNodeとComputeNode→代金はコンピュートノード
S3とインテグレーションされている
・BIツール:tablauなど
・データ投入
ダイレクトコネクト
VPNコネクション
→S3にいれてから
I/Oを減らす仕組み
・カラムナー型
・データ圧縮
・ゾーンマップ
・直結ストレージ
・データブロックサイズ
並列分散
2013年2月のローンチ以降多数の新機能追加
60を超える新機能
セキュリティ
無料トライアル、アジアパシフィック値下げ
dw2.largeを2ヶ月間トライアル
リザーブドインスタンス
・普通は1時間単位課金
・手付金:時間単位安くなる
事例:
・airBandB Hadoopから安くなった
・Bookmyshow Hadoopから安くなった
・Financial time Hadoopよりやさしい
・NTTドコモ 統合DWHプロジェクト
数ペタバイトのデータ分析をRedShiftで
マーケットプレイスでETL/BIツールを試せる
・すかいらーく様 POSデータ分析 RedShiftで
マーケティング部門が導入
わずか1ヶ月で本番稼動 tablau
・良品計画 RedShiftとtablau→O2O
・ALBERT ADreco RedShift PostgreSQLとの互換性
クラウドもアマゾンで、ビッグデータもアマゾンで
Q&A
Q:RedShiftが苦手なものはないのか?
A:ある。トランザクション処理は苦手。そのようなものはDynamoDBのほうが得意
RedShiftは集計。更新はちょっとおそい
(このあと、RがおそくてUSP研究所のをつかうとうんたらかんたら・・・という話が出た)