ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

データフローをWebブラウザ上でデザインするApache NiFiの勉強会があるみたい

2016-07-09 19:23:16 | AI・BigData
まえのエントリで出てきた、
データサイエンティストの8割の仕事である、データ収集、とくにデータ前処理のために行う
データフローをWebブラウザ上でデザインするapache nifi
の勉強会が無料であるみたいよ・・

Apache NiFi 勉強会 〜データフローの自動化〜
米国国家安全保障局で開発されたデータフローに特化したオーケストレーションソフトについて
http://futureofdata.connpass.com/event/35428/

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

データサイエンティストの8割の仕事のためのOSSをHadoopのホートンワークスの人から聞いてきた

2016-07-09 16:12:21 | AI・BigData
7月8日、Macnica Networks Day 2016に行ってきた話のつづき

進化するデータ基盤、あらゆるデータをつなげる、コネクテッド・データプラットフォーム
ホートンワークスの人と、マクニカの人

をメモメモ




■マクニカの人

・ここは、セキュリティはでてこないよ

・データの領域:あたらしい
 IoT,ビッグデータ:お客様とお話しする機会増えてきた
 →イメージで・・・データはいっぱいあるけど・・・
  おおむね、ツールの話

データ活用のための7ステップ
(1)データを明確にする
(2)データソースを分析する
(3)データを構造化する
(4)データを収集する
(5)ロジックを考える
(6)アウトプットを評価する
(7)アウトプットを設計する

データサイエンティストの8割の仕事はデータ収集とか、分析2割

データソース
プロセス
 あつめる
 クレンジング
 構造化してためる
データ活用

ホートンワークスにスポットを当てる

■ホートンワークスの人
・会社説明
 顧客数800社、従業員増えている
 Hadoopを中心とした、ホートンワークス・データ・プラットフォーム
  →オープンソース

・自己紹介

・本セッションのテーマ
 データ分析プラットフォーム→データを集めるまでが8割
 そこまでの話(HDFというツール)

・海外
 HDF:可視化を迅速に

・モーションデータの増加
 IoT:センサー、
 ソーシャル
 →外の流れているデータ:モーションデータを取り入れる

・ホートンワークス HDP
  Hadoopエコシステム:Hadoop,YARN,Hive,HBASEを束ねる
  →Sparkも
  データをためる入れ物→分析する
 今日のメイン 
  データを加工 HDF(ほーとんわーくすでーたふろー)
   データフロー→複雑(フォーマット、バリエーション様々)

・HDF
 運用の可視化と制御を瞬時に

 ビッグデータイニシアチブの上位7課題
  どこから持ってきたか

 統合されたプロセスと制御
  HDFを使うと一手に
 →オープンソースの組み合わせパッケージ
  apache nifi:データフローをWebブラウザ上でデザイン
   →NSAで開発、プロダクトとしては成熟

 導入するとき:コーディング不要

・HDFによるビジネスの転換
 ユースケース
  ログの収集
   →ストリーム分析
  IoT

 プルすることも、リスナーもいる→splunkに転送したり

・エンタープライズデータの移動
 リモートをつなぐ

・IoTデータの収集と転送

・リアルタイムのデータフロー

・お客さま:金融機関:データフロー中に解析してしまう

・新規データフローの迅速な作成、インサイト獲得までの時間の短縮
 データ取り込み用プロセッサの追加。時間1分間
  限定プロセッサ
  Twitterプロセッサ
 プロセッサの構成
 データ出力用の別のプロセッサの追加
 プロセッサを接続して接続を構成 
 →慣れた人なら10分以内
 必要に応じてデータフローを動的に調整

 複製、グループ化、転用・・

・データの来歴の容易な検証
 データフォーマットが変わった時の、気付き、ルート変更など
 →データフローに対する変更への容易なアクセスと追跡
  ユーザーアクションの監査証跡

・HDFは、サンドボックスとして、仮想マシンがある

・デモ

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

電子政府は、どうなったのか聞いてきた

2016-07-09 13:07:54 | Weblog
7月8日、Macnica Networks Day 2016に行ってきて、

■世界最先端IT国家創造宣言と電子政府を巡る動きについて
内閣官房の人(講師変わった)

を聞いてきたので、めもめも




・IT総合戦略本部について
 2001年1月 IT基本法制定
   ↓
 IT総合戦略本部
  本部長;内閣総理大臣

・政府CIOの位置づけ
 本部長;内閣総理大臣→政府CIOを委任
  横串を通す
  トップダウン

・世界最先端IT国家創造宣言
 位置づけ:国家のIT戦略→重点計画

 目標2020年までに世界最高水準のIT利活用
  3つの柱
    新産業創出と全産業分野の成長
    安全で災害につよう社会
    国民利用者の視点に立った電子行政サービス

・宣言
 大きく3しょう
  1章 成果
  2章 3つの重点項目
  3章 推進体制
 
・1しょう
 (1)行政情報システム改革を通じた利用者指向の行政サービスの実現
  国のシステム数の削減
   908システム削減、年間1千億円削減
  ハローワーク、年金、人事・給与

 (2)マイナンバー

 (3)安心・安全なデータ流通
  課題解決型オープンデータ
  個人情報保護法改正

 (4)農業のIT化

 (5)道路交通社会の実現
  官民ITS構想・ロードマップ

・2章
 国から地方、地方から全国
 (1)国のIT化
 (2)地方公共団体のIT化
 (3)ガバナンス体制の強化:サイバーセキュリティ情報科審議官

 IoT,AI→データ整備だいじ
  利用者指向のデータ流通基盤
  データ流通の円滑化、利活用促進
  オープンデータ2.0

 データ基盤できたら→課題解決
  ビッグデータ→社会保障
  マイナンバー→子育て
  IT利活用で→諸課題解決

政府情報システム改革に向けた取り組み
 ロードマップ
 運用コスト削減
 投資計画
→システム半減、運用コスト3割削減→より高いところへ投資

・ロードマップ:中長期の改革

・運用コスト削減:ふだんの見直し

・投資計画:予算の時に、効果明確化

可視化:ITダッシュボード→ぜひみてね!

運用コスト削減の取り組み
・3割削減
  運用コスト圧迫:新規投資難しい
  削減分を投資へ

・政府情報システム関係予算
 27年度 5900億円
  上位5ふしょうで8割
  厚生労働省→ハローワーク
 コスト削減計画

 政府情報システム数の推移

 政府情報システムの運用コスト削減見込み額の推移
  コスト削減方策
  削減見込み額
   430回を超えるヒアリングレビュー:1000億円を超える削減
   50億を超えるシステム:3割削減

 節減効果→セキュリティ、マイナンバー

・政府共通PFの概要
 デジタル新時代に向けた新たな戦略~三カ年緊急プラン~
  霞が関クラウド構想→政府共通PF:順次統合、集約
   霞が関WAN~各府省:セキュリティ各々対応→政府共通PF

・政府機関におけるセキュリティ・IT人材育成総合強化方針
 ・・去年の年金問題などから
  セキュリティ・IT人材を本格的に確保・育成する第一歩
 セキュリティの司令塔いない

 取り組み
 ・司令塔機能の抜本的強化:サイバーセキュリティ情報化審議官
   セキュリティ育成計画、CISO,CIO連絡会議
 ・橋渡し人材
   有為な人材の確保
   一定の専門性を有する人材
   研修体系の抜本的整備
   適切な処遇の確保、人事ルート
 ・外部人材の確保
   監査
   政府CIO補佐官の採用
 ・一般職員の情報リテラシー向上

宣言の深堀
・IT:社会課題解決の鍵
・2020年までを集中取り組み期間
・目標にめどが立った
 +登記、法人設立:ワンストップ化等
・マイナンバー:戸籍事務
・公務員の身分証明;マイナンバーカード
・機械で読み取ることができる形式に変える→2次利用可能→オープンデータ促進
・農業就労者の高齢化、TPP
  標準化、ノウハウを情報システムを介して伝承
  農地台帳の整備
・道路交通社会
 交通事故の回避→ITSロードマップ 自動運転をはじめとする安全、2次利用
・コスト削減のさらなる徹底
・地方公共団体:国が出向いて

・IoT,AI:データ流通:システム間連携 語彙基盤
・個人のデータ流通のあり方
  シェアリングエコノミー、プログラミング教育、デジタルデバイド解消
・オープンデータ2.0
  東京オリンピック、パラリンピック

・ビッグデータを活用した社会保障制度変革:介護に利用
・マイナンバー子育て行政サービスの変革:子育てワンストップ
・IT利活用による課題解決:テレワークで地方創生、マイナンバー、安全で災害に強い社会

・推進体制
 政府CIO:委託→司令塔機能

・予算に反映


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

YAHOOは「OpenStackからさらにその先へ」

2016-07-09 06:20:08 | Weblog
7月7日、OpenStack Days Tokyo 2016に行ってきた。のつづき

OpenStackからさらにその先へ
講師:YAHOOの人

をメモメモ




・自己紹介
・YAHOO Japan
 月間PV 667億(スマホ 359億) アプリダウンロード3.8億
 OpenStack稼働状況
 伸び率(YoY)インスタンス200%
 最近:広告、検索も一部がOpenStack
 小さなパケット

アジェンダ
・OpenStack活用の履歴
・OpenStack活用のチャレンジ
・まとめ

OpenStack活用の歴史(3年前~今)
・採用前
 In-house IaaS すべて自前での開発:Webからの操作が前提
  →ライフサイクルが回せない。

・採用後
 社内独自機能のみの開発
   基本機能:コミニティ
   マイナー:ベンダー連携
   社内機能:社内開発

・すぐに得られたこと
  インフラの抽象化
  標準化されたAPI:ベンダー依存のAPIは価値がない
  新しいことにチャレンジする時間

・じょじょに得られるようになったこと
 OCPなどのハードウェアへの挑戦
  性能は抽象的に
 APIはキープして内部を別テクノロジ採用
 ライフサイクルの展開

 クローズ→社内の反発

・OpenStack活用のチャレンジ(今~今後)
 オープンハードウェア
 3領域でのチャレンジ
   コンピューティング
   ネットワーク
   ストレージ

・オープンハードウェア
 OCP
  最初にOpenStack基盤へOCPの採用
  後に大規模Hadoop基盤につなげる
 利用者は意識しない部分での改革
  従来のサーバーとOpenStack上の操作性は変わらない
 →安価なハードウェア

・OpenPower:
  メモリ帯域が重要なアプリケーションへ
 FPGA:
  電力対パフォーマンスの最適化。
  PythonなどのLLで回路が書けることが重要

・オープンハードウェア
 実行環境の抽象化へ

・コンピューティングのチャレンジ
  CPUのくせに応じた実行環境の策定
 CI/CD
  まずOpenStack
  サービス全体へ展開

・ネットワーク
  IoT時代のネットワーク
   小さいパケット
   より大きいパケット
   コネクション過多
 ・DPDK
   ショートパケットに強いOpenStackを今夏リリース
   カーネルを通さず、VMへバイパスする
   災害時のPUSHに耐える環境へ

 ・SDN/NFVへの次の取り組み
   ライフサイクル管理
  ネットワークもライフサイクル管理
  最適なランタイムの選択(X86,power,arm)

・ネットワークもCI/CD
  実際に、OVSのパケットが化けた→網羅性のある保証をベンダーはできない
  BGP:他のネットワークにも影響を与えてしまう

・すとれーじ
 オブジェクトストレージ
  15ペタバイト、SWIFT
  日米間の遅延、パケロス(よく切れる) 25GBPS
 ブロックストレージ
  HyperConverged構成に今夏変更
  SSDは安価、故障しない
   SATAのSSD4本ぐらい現実的?

・まとめ
OpenStack≠IaaS
OpenStackはインフラにチャレンジ精神を与える
オープンソース領域でも共創

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする