話きいて、そんな風に感じた。
その「話」とは、7月27日に行われた
Apache NiFi 勉強会 ~データフローの自動化~
講師:Hortonworksのかたがた
その内容をメモメモ
■会場提供のご案内 IDCフロンティア
・親会社 yahoo
・IoTのとりくみ
ツール・ド・東北支援IoT ハッカソンやります
今週金曜日説明会。ぜひきて!
8月19日発表会
復興支援
connpassに記載してある。
■そのデータフロー Wifiで楽にしてあげましょう
・自己紹介
・HDF Apache NiFiとは
DataFlowの概略図:簡単、明確?→実際は複雑
シェルスクリプト書いてマネジメント:コストかさむ
→スキーマ変わった!とか
Apache NiFi
ETLでもあるし、
ストリーム処理につよいし
Webブラウザから実行できる、
・HDPとHDF
HDP:Hadoopエコシステムをまとめたもの
→ビッグデータ、データレイク
HDF:データを取ってくる位置づけ
→データレイクの手前、IoTデータを取りに行く
・統合されたプロセスと制御
・実績のある運用有効性
・国家安全保障局(NSA)が開発したNiFi
→エンタープライズにマッチ
・リアルタイムデータロジスティックスの統合的かつインタラクティブな制御
何かと便利そうなので、まずは使ってみよう!
・インストール方法
Apache NiFi単体でも(Javaのアプリケーション)
HDPとセットで
Dockerイメージもあるので
Apache NiFiソースからビルド
・起動:
ダウンロードして、展開
bin のなかにシェルがある起動すると
8080ポートにアクセスすると使える
設定はconfの中
・HDFインストール方法:HDFとセットでお試ししたい方向け
HDFのバージョンとNiFiのバージョンは別
NiFi 今0.7 この夏1.0
・起動すると:真っ白なキャンバス
簡単チュートリアル
・Step1:データを集める
プロセッサーをドラック
Get
どっかからデータとって来る
出力とつなぐ
再生をクリック
・ここがポイント
データフロー、フローファイル(流れるデータ)
フローファイル:コンテントとアトリビュート
プロセッサー:フローファイルを何かする
プロセッサーに名前が付けられる
終端になるプロセッサー:オートターミネート
・Step2:データを加工する
ばらす:sprit text
大きく分割→1行ごとに
extract text
入ってきた 加工 メタデータ
→アトリビュートをリッチにしていく
ここがポイント
・Step3:データを分類する
るーとおんあとりびゅーと
他システムのスキーマ:キャッチすると検知しやすい
$ $フローファイルのアトリビュート
データフローを作った後に
足りなくなったらバッファリング
・例
put slack
・データ来歴;時間をさかのぼって
・今回しゃべった内容
■Apache NiFiと他プロダクトのつなぎ方
・自己紹介
1連携手段
おおきく2つ
・外部データストアの利用
・Input Outputポートを使用
・外部データストアを使用
データストアを解して他プロダクトと連携
NiFi,連携先にコンポーネントが必要
利点
並列化で容易にスケール
欠点
管理プロセス増大
・Input Outputポートを使用
HTTP
ヘッダー部に存在
複数のPortを管理可能
Site to Siteクライアント
任意のJavaプロセスが直接通信
公開されている
Flinks,Apex
クラスタ?、ロードバランサ??
・Flinkとの接続サンプル
■IoTアプリケーションで利用するApache NiFi
Hadoop Summit Tokyo 10月26日、27日
・HDF HDP
・IoT and NiFi
IoT?
What we can do with IoT 自動車
・商用自動車
利用率、燃費最適化、故障予知(プリディクティブメンテナンス)
ドライバーのスコアリング
たくさんのデータソース 天気、車の管理情報なども
IoTデータでコネクティッドカーのデータをさらに豊富に
事例:プログレス(個人的自動車保険 OBD)
What we can do with IoT 農業事業者
水をまいたり、ドローン
What we can do with IoT 通信事業者
基地局の最適化:利用率の監視
セルフオプティマイジング
セルタワーの管理
CDR,
IoTアプリケーションはデータソースが様々
データの種類、
データの流速、
データのあて先
・Demo
IoT MTA サブウェイ IoT アプリケーション
NiFi
ストリーム
getHTTP(一定時間でHTTPを取りに行く)
ラムダアーキテクチャ
バッチ取り込み
駅の位置情報など getHTTP
スタティックなストレージ
どこまでNiFiでやるかが設計のしどころ
・まとめ
データソースが多種多様
システムアーキテクチャ:データソースとデータ処理
それってfluentdでよくね?どっちもあり!