ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

ログ解析にAmazon MLを使った例を聞いてきた!

2016-07-25 20:50:37 | Weblog
7月24日、JTF2016に行ってきた!
その内容をメモメモの続き

次は

機械学習を用いたAWS Cloud Trailログの積極的活用




・機械学習に対する期待
 データ分析活用の手段として機械学習注目
  少し前
    レコメンド
    センサーによる生涯予測
  ディープラーニングの登場

 でも、大量データを持っていない企業には?
  本当に大量データはないのか?
  本当にインフラエンジニアは知らなくてよいのか

・インフラエンジニアの身近にあるデータ
 運用現場に眠るログ

・ログデータの特徴
 どのような特徴を持っているか
  データ量がそれなりに多い
  製品ごとに一定のフォーマットにしたがって出力されている
  長期間にわたり、保管されている
  人が全部目を通すのは大変

・これまでのログデータ活用:監視
 ログデータは監視対象としても重要
 ログ監視は監視ルールのメンテナンスが大変
  →機械学習を使ってルールを書き換えられないか

・これまでのログデータ活用:可視化
 ログの検索 可視化が簡単に実現可能
  Elastic stack,splunk,amazon ES
 可視化することでログの傾向を短時間で確認可能
 しかし可視化した結果をどう判断するかは人
  →機械学習

・機械学習とは
 機械学習に対して持っていた漠然としたイメージ
 しかし今ならクラウドサービスがある
 機械学習関連のクラウドサービスの例

・機械学習でできること
  教師有り学習:法則を学習して答えを導き出す
  教師なし学習:関係性を見出す→人が解釈

・今回の題材
 AWS cloud trailのログを用いた操作主体分類
  人による操作
  連携された外部サービス/スクリプトによる操作
  何らかのEventと連動したLambda Functionからの操作
 →それぞれで傾向は異なるため、操作主体を区別して可視化したい

・ログの特徴
 同一の操作でも操作主体や対象サービスによってログ内容が異なる

・現状の課題
 ルールベースでログから操作主体を区別するのが難しい
  どんなログであれば人による操作なのか
 結局使われているUser/Role名を見て判断する
 →Amazon MLを試してみよう

・今回用意した学習データ
 検証用AWSアカウントのCloud Tailログ
  対象データ2016年6月 7467件
   学習用データ70%

・前準備:
  学習データの整形
   Cloud TrailのログをAmazon ML用に整形
   JSONで記述されているログをCSVに
  ラベルの付与
   4カテゴリに分類

・Amazon ML
  Data Source登録
   CSVファイルを登録
    S3上
    デフォルトならデータは事前にシャフルしておく
   タイプを指定

  Model作成
   デフォルト設定を利用

  結果の確認
   同一アカウント、同一時期であればそれなりに分類できる?
   別アカウント:微妙な結果
  →学習データに含まれているログはOK

・カイゼン
 評価結果が出てからが機械学習の本番
  学習データの多様性の向上
 使い方の転換

・その他の試行錯誤してみた例
 行き詰った事例:
  外部への通信の検出
   ひんどの低い通信が検出される;人が見ても判断難しい
    →ホワイトリストのほうが速い

  定常的なログと例外的なログの分類
   初出なものは、安定しない

 共通点
  単一のデータだけを見て判断→組み合わせて使う
  データを見て適用先を考えると、目的がぶれやすい
    ためる仕組み

・機械学習に触れてみて
 人は様々な情報を組み合わせて判断を下している
 データに対する意識が変わる
  頻度の低い事象をふくめる

・機械学習との付き合い方
 まずは試してみて、普段の業務におけるデータの捉え方を見直すよい機械とする
 小さな問題から補助的に適用してみる
  手元にあるそれほど多くないデータだけでもできることはある
  ちゃだし目的意識は明確に

・まとめ
 インフラエンジニアにも機械学習は無縁ではない
 機械学習は怖くない
 まずは試してみてどのようなものか知ろう
  多分最初から役に立つものは創れない
  データをためる仕組みを作るためには、知ることが重要


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Chainerを用いた対話型BoTの話を聞いてきた

2016-07-25 16:47:43 | Weblog
7月24日、JTF2016に行ってきた!
その内容をメモメモ

次は

人工知能の技術で有名なニューラルネットワークのフレームワークであるChainerを用いた対話型BoT俺の屍を超えていけ

をメモメモ




・自己紹介
 元の記事はQiitaに書いている

・ゴール
 対話型BoTについての理解
・意識して聞いていただきたいので、ぽけもんGoは・・

・対話の価値
 連続性
 インタラクティブな提案
 新たなユーザー体験の提供

・連続性
 会話の事前情報が利用できる
 最近テニスにはまっていて
 バイトの情報→スポーツ店

・インタラクティブな提案
 ダイエット中
  食品

・あらたなユーザー体験
 人生とは はーとを返す

上2つは対話データいる
 →したを提供してから

・Botの個性:キャラクター性
 どちらが高度な回答しそう?
 キャラクター性が重要
  かしこくなさそうなのがまじめに解答すると、期待値挙がる

 期待値を下げつつ
 話しやすさを挙げる

 キャラクターごとに文をかえるのは、高コスト
 →内容をかえず、キャラクター性だけ変えたい
  ニューラルストーリーテラー
  おすもうさんにロマッチック効果→ニューラルネットに任せる
  途中までの実装

 システム
  話題の選定
  ないよう理解
  応答生成

 システム全体
 slack
 Twitterから
 事前学習:wikipedia 対話こーぱす
 対話モデル chainer

 話題の選定
  相手によって話す内容が変わる
  ワードネット使用
   概念数が多い:概念をまとめたい
    距離空間に
    距離近いものをまとめる
  エンティティ・リンキング
    日本語Wikipedia エンティティベクトル
  距離を測りたい
    コサイン類似度

  未知語を追加
  平均ベクトルを計算
  コサイン類似度:まだ多い 20000概念
  1000以上→76概念
  ふりわける

 対話:ニューラルネット
  自然言語処理における深層学習の位置づけ
   表現力、連続性、フォーカス

 表現力
  Bag of Words
   何回マッチするか
  word 2 vec
   圧縮次元に落とし、周り考慮

 連続性
  リカレントニューラルネットワーク

 フォーカス
  固有名詞 attention model

 ・発話内容をニューラルネット空間に移す
  word2vec
  連続性
  リカレントニューラルネットワーク
  逆方向も学習
   集約:たたみこみ 発話情報を集約
  デコーダーで伝播

・でも
 ・飽きをどうする

・今後の予定
 評価率を量る
 概念クラスの距離

・結論
 どこを使うか・ルールとのハイブリッド

・質問
 なぜLSTMつかわない→実際には使ってる。説明で省略した
 アテンションモデル→画像で発展した、畳み込み

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「今話題のCognitive/AI系サービスを徹底分析!」を聞いてきた

2016-07-25 14:14:10 | Weblog
7月24日、JTF2016に行ってきた!
その内容をメモメモ

次は

今話題のCognitive/AI系サービスを徹底分析!あなたに最適な選択を

をメモメモ

※ここは、プレゼン資料のまとめ方がすごかったので、
 もし、入手できたら、ぜひ見たほうがいい。



・自己紹介

・ビジネスのデジタル化
 より早くデジタル化を成熟させた企業が好業績を挙げている
 マイクロソフトにおける変革
  サティアに変わった:競合とのパートナーシップ
  OSSの推進
  研究開発:売上の13%
 デジタルトランスフォーメーションの実現へ

・3ヶ月
 試用期間:会社の戦略ではない あたたかい目で
 6500万
  Pockemon GO 6500万ユーザー
  →最速
  →クラウド連携重要
  PockemonはGoogleで動いてる?

・4ヶ月
  子供:変革はやい
  画像解析エンジン:FaceAPIの結果はしっかりしている
   →得意不得意が違う

・マイクロソフトは好きな技術を好きといえる会社に

・Cognitive/AI関連用語の整理
  人工知能
    機械学習
      統計的アプローチ
      ディープラーニング

コグニティブはサービス

 Microsoft:コグニティブ
 Google:クラウドAPI→学習済み
 IBM BlueMix

 Azureマシンラーニング・Amazonマシンラーニング:学習できる

 ディープラーニング
  CNTK
  テンソルフロー

 IBMは用途特化型も

選択基準例
 技術・サービス

 楽なものから見ていく

(1)学習ずみAPIでOK?
・Microsoft Cognitiveサービス
  ビジョンAPI
  スピーチAPI
  ランゲージAPI:テキスト解析
  ナレッジAPI:論文学術
  サーチAPI:B-ing

・Google API
 クラウドビジョンAPI
 Google クラウド ナチュラルランゲージAPI

・IBM Watson

似ている機能
 ・画像解析
 ・音声解析
 ・知識推論

独自機能

画像解析:似ている機能
 →デモサイト
・タグ付け機能
  画像を投げる→JSONで返ってくる
 Googleは猫の品種まででる

文字認識:
 写真のテキスト情報を抜き出す
  英語はOK
  日本語:精度怪しい(IBMは未対応)
   →変化激しい
 ロゴ特定
 ランドマーク特定→探偵要らなくなる?

 86のカテゴリーに分ける

 アダルトコンテンツを認識する

 Get Thumbnail
 OCR:

 エモーションAPI
  感情識別

 Video API
  動いている
  動体検知

 Speaker Recognition API
 声紋登録による話し手認識
 
 LUIS
  ランゲージ・あんだすたんでぃんぐ・いんてりじぇんと・さーびす
  IBM:あるけみー・らんげーじ

応用アプリ
・写真→年齢
・Project Murphy 合成写真を作ってくれる、ボットアプリ

教育できるのは、マイクロソフトのみ

まとめ
・各社特徴あるAPI
・Apache solrとアドインを使って、ワトソンは学習している

Azure マシーンラーニング
・入力 処理 出力を機械学習に置き換え
 ちーとシートでやりたいものが選べる

マイクロソフト
・CNTK
 画像解析
 時系列データ解析

ボットフレームワーク
 ルールベースの自然言語解析

こるたな
・Cortanaという言葉について
  こるたな インテリジェンス スイート
   デバイス 収集 変換集約 格納 分析アクション
   バックグラウンドでつなげる
   テキストからスピーチへ
  Conversation as a Platform

 こるたなとりんな
  同じ質問できた答えが違う
   明日晴れるかな
    Productivity 明日の天気は晴れ
    Emotional  出かける予定でもあるの
 

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

さくらのIoTはUART,I2C,SPIからLTE,3GでサーバーへREST APIで外部へ

2016-07-25 11:15:23 | ネットワーク
7月24日、JTF2016に行ってきた!
その内容をメモメモ

まずはじめは、基調講演
(注意事項の最後のほうから行った)




・注意事項
 登壇者にポケモンGoはやめてね

■挨拶 ゆたに氏
 IoT AI インフラ
 やってみたスペシャル 俺の屍を超えていけ
→明日に繋がることを受け取って

■現実が正解だ!やってみんとわからんことだらけ
 さくらのIoT企画・開発365日の軌跡
 そして次の365日へ

・さくらインターネット
 創業20年 この1年間かなりのスピード

・チームビルドの話
 チームビルドといえば、ポケモンGO 違う!
 15人のメンバー

・会社説明・自己紹介
 ABBA Lab
 DMM.make
  シールドルームもある
   ウィンクル 俺の嫁と暮らす
   いぬぱしー 心拍数変化
   バッテリーレスの土の水分量
   LoRa 新しいプロトコル m2B
   水田サービス(水門)笑農和

・インターネットでハードを再開発

・What is IoT
 狭義のIoT 工業 Industry4.0
 広義のIoT 生活の質をかえていく

 IoTはバズワード? M2M?
  技術をいろんな人が使えるようにする
 IoT:ものごとをインターネットにつないでいく
  →IoTマトリックス
  2軸 Internet/Device/Things
        VS
     Input/Logic/Output

・インターネット
 1人あたり1分間に1つの対価を支払うとすると、東京都全体で
   6.4兆のデータ

・すすめかた
  社長との話
  デザイナーに入ってもらい
    さくらのIoT
      LTE,3G
      閉域網で:インターネットに出る前で処理できる
           インターネットとはAPIで
  リサーチャー参加
    実験、検証
  経営企画室:数字を立てる
  取締役議案書
  エンジニア2人
    技術執行役員:新卒2年目
    アルバイト
   →SPI,I2Cでやりとり、シンプルに
  ネットワークエンジニア、オペレーション
   →ここまで3ヶ月
  広報
   提携相手ができる
  α版パートナー募集
  UI,UX→運営リーダー
   →学生で興味ある人が柔軟にやってくれる
   プロトコルどうしますか?
    マイコン→UART,I2C,SPIで
      コマンドベース
      チャネルID,型、値の組を基本
    REST
   Meson、MARATHON,Dockerで創る
  立ち上げの人はなれる
   会社のいいところ
  サポート

・天草Xアスロンまとめ
  通信:Loraで
  6月15日発注
  7月4日 基板納品
  7月8日 仕様確定
  7月15日完
  7月16日実証
 見えなかったものが見える

 短期間でも心が折れない

 AWSさんも入ってくる:通信を隠蔽するのがいい
 継続的にやっていくのは、立ち上げとは違うメンバー
  営業を通訳する

 システムソフト(あぱまん関連会社になっている)の子会社が家庭用IoT

・さくらのIoT PFの誤解
 格安SIM MVNO?
  →必要なデータをプライベートで保存、
   メッセージで課金(RM単位)
 インターネットなクラウドサービスでもない
 デバイスメーカに転進するわけでもない

 世界中でつかえるサービスに 協創
 いいところをみつける
 認めるものがなければ、認めるところにいきましょう

・Q&A
Q:AWSやIBMは、さくらのIoTと、なぜ組みやすいのか?
A:さくらのIoT:マイコン~REST API
  AWS/IBM:REST API 以降(ハードの部分はさわらない)

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする