7月24日、JTF2016に行ってきた!
その内容をメモメモの続き
次は
機械学習を用いたAWS Cloud Trailログの積極的活用
・機械学習に対する期待
データ分析活用の手段として機械学習注目
少し前
レコメンド
センサーによる生涯予測
ディープラーニングの登場
でも、大量データを持っていない企業には?
本当に大量データはないのか?
本当にインフラエンジニアは知らなくてよいのか
・インフラエンジニアの身近にあるデータ
運用現場に眠るログ
・ログデータの特徴
どのような特徴を持っているか
データ量がそれなりに多い
製品ごとに一定のフォーマットにしたがって出力されている
長期間にわたり、保管されている
人が全部目を通すのは大変
・これまでのログデータ活用:監視
ログデータは監視対象としても重要
ログ監視は監視ルールのメンテナンスが大変
→機械学習を使ってルールを書き換えられないか
・これまでのログデータ活用:可視化
ログの検索 可視化が簡単に実現可能
Elastic stack,splunk,amazon ES
可視化することでログの傾向を短時間で確認可能
しかし可視化した結果をどう判断するかは人
→機械学習
・機械学習とは
機械学習に対して持っていた漠然としたイメージ
しかし今ならクラウドサービスがある
機械学習関連のクラウドサービスの例
・機械学習でできること
教師有り学習:法則を学習して答えを導き出す
教師なし学習:関係性を見出す→人が解釈
・今回の題材
AWS cloud trailのログを用いた操作主体分類
人による操作
連携された外部サービス/スクリプトによる操作
何らかのEventと連動したLambda Functionからの操作
→それぞれで傾向は異なるため、操作主体を区別して可視化したい
・ログの特徴
同一の操作でも操作主体や対象サービスによってログ内容が異なる
・現状の課題
ルールベースでログから操作主体を区別するのが難しい
どんなログであれば人による操作なのか
結局使われているUser/Role名を見て判断する
→Amazon MLを試してみよう
・今回用意した学習データ
検証用AWSアカウントのCloud Tailログ
対象データ2016年6月 7467件
学習用データ70%
・前準備:
学習データの整形
Cloud TrailのログをAmazon ML用に整形
JSONで記述されているログをCSVに
ラベルの付与
4カテゴリに分類
・Amazon ML
Data Source登録
CSVファイルを登録
S3上
デフォルトならデータは事前にシャフルしておく
タイプを指定
Model作成
デフォルト設定を利用
結果の確認
同一アカウント、同一時期であればそれなりに分類できる?
別アカウント:微妙な結果
→学習データに含まれているログはOK
・カイゼン
評価結果が出てからが機械学習の本番
学習データの多様性の向上
使い方の転換
・その他の試行錯誤してみた例
行き詰った事例:
外部への通信の検出
ひんどの低い通信が検出される;人が見ても判断難しい
→ホワイトリストのほうが速い
定常的なログと例外的なログの分類
初出なものは、安定しない
共通点
単一のデータだけを見て判断→組み合わせて使う
データを見て適用先を考えると、目的がぶれやすい
ためる仕組み
・機械学習に触れてみて
人は様々な情報を組み合わせて判断を下している
データに対する意識が変わる
頻度の低い事象をふくめる
・機械学習との付き合い方
まずは試してみて、普段の業務におけるデータの捉え方を見直すよい機械とする
小さな問題から補助的に適用してみる
手元にあるそれほど多くないデータだけでもできることはある
ちゃだし目的意識は明確に
・まとめ
インフラエンジニアにも機械学習は無縁ではない
機械学習は怖くない
まずは試してみてどのようなものか知ろう
多分最初から役に立つものは創れない
データをためる仕組みを作るためには、知ることが重要
その内容をメモメモの続き
次は
機械学習を用いたAWS Cloud Trailログの積極的活用
・機械学習に対する期待
データ分析活用の手段として機械学習注目
少し前
レコメンド
センサーによる生涯予測
ディープラーニングの登場
でも、大量データを持っていない企業には?
本当に大量データはないのか?
本当にインフラエンジニアは知らなくてよいのか
・インフラエンジニアの身近にあるデータ
運用現場に眠るログ
・ログデータの特徴
どのような特徴を持っているか
データ量がそれなりに多い
製品ごとに一定のフォーマットにしたがって出力されている
長期間にわたり、保管されている
人が全部目を通すのは大変
・これまでのログデータ活用:監視
ログデータは監視対象としても重要
ログ監視は監視ルールのメンテナンスが大変
→機械学習を使ってルールを書き換えられないか
・これまでのログデータ活用:可視化
ログの検索 可視化が簡単に実現可能
Elastic stack,splunk,amazon ES
可視化することでログの傾向を短時間で確認可能
しかし可視化した結果をどう判断するかは人
→機械学習
・機械学習とは
機械学習に対して持っていた漠然としたイメージ
しかし今ならクラウドサービスがある
機械学習関連のクラウドサービスの例
・機械学習でできること
教師有り学習:法則を学習して答えを導き出す
教師なし学習:関係性を見出す→人が解釈
・今回の題材
AWS cloud trailのログを用いた操作主体分類
人による操作
連携された外部サービス/スクリプトによる操作
何らかのEventと連動したLambda Functionからの操作
→それぞれで傾向は異なるため、操作主体を区別して可視化したい
・ログの特徴
同一の操作でも操作主体や対象サービスによってログ内容が異なる
・現状の課題
ルールベースでログから操作主体を区別するのが難しい
どんなログであれば人による操作なのか
結局使われているUser/Role名を見て判断する
→Amazon MLを試してみよう
・今回用意した学習データ
検証用AWSアカウントのCloud Tailログ
対象データ2016年6月 7467件
学習用データ70%
・前準備:
学習データの整形
Cloud TrailのログをAmazon ML用に整形
JSONで記述されているログをCSVに
ラベルの付与
4カテゴリに分類
・Amazon ML
Data Source登録
CSVファイルを登録
S3上
デフォルトならデータは事前にシャフルしておく
タイプを指定
Model作成
デフォルト設定を利用
結果の確認
同一アカウント、同一時期であればそれなりに分類できる?
別アカウント:微妙な結果
→学習データに含まれているログはOK
・カイゼン
評価結果が出てからが機械学習の本番
学習データの多様性の向上
使い方の転換
・その他の試行錯誤してみた例
行き詰った事例:
外部への通信の検出
ひんどの低い通信が検出される;人が見ても判断難しい
→ホワイトリストのほうが速い
定常的なログと例外的なログの分類
初出なものは、安定しない
共通点
単一のデータだけを見て判断→組み合わせて使う
データを見て適用先を考えると、目的がぶれやすい
ためる仕組み
・機械学習に触れてみて
人は様々な情報を組み合わせて判断を下している
データに対する意識が変わる
頻度の低い事象をふくめる
・機械学習との付き合い方
まずは試してみて、普段の業務におけるデータの捉え方を見直すよい機械とする
小さな問題から補助的に適用してみる
手元にあるそれほど多くないデータだけでもできることはある
ちゃだし目的意識は明確に
・まとめ
インフラエンジニアにも機械学習は無縁ではない
機械学習は怖くない
まずは試してみてどのようなものか知ろう
多分最初から役に立つものは創れない
データをためる仕組みを作るためには、知ることが重要