5月29日、
データサイエンティスト協会2017年第一回勉強会
に行ってきた!ので、内容をメモメモ
■内田洋行さんに会場説明
・オフィス、教育、情報
このビルが、ショールーム
SmartInfill:WoodInfill(木で)
New Education Expo 2017
■データサイエンスの全体像とデータサイエンティスト
・あるいて5~6分のところ
・ほんとの入門編、AIとの関係、機械学習
1.データサイエンスという表現
・1960年代に使用された
IBM 360シリーズとか
コンピューターサイエンス:ハードより
高速、大容量、分散化、エコシステム拡大
データサイエンス
相関・因果の分析、複雑・非線形の関係、場面の認識・理解、非構造データ
→因果関係の説明
グーグルの猫:猫を認識→理解したわけではない
認識まできた、理解はまだ
・データサイエンス
データが持っている意味をきちんと理解する、解釈する、それを自動化する
データの力を開放する
構造が隠れている、データをいかに分析するか
・にた概念の整理
AI 機械学習 データサイエンス
AI:究極の目標、コンセプト→技術そのものではない
データサイエンス:大規模データを使う
ML:技術の言葉 分析していく技術
・AI
Aをおーぎゅめんてっどとして使っている人も
チューリングテスト
人間とAIに同じ質問を投げて、判定できなかったらAI
最近は。もっと条件高い
AIの完成
AIと呼ぶには・・・
AIを利用して・・・
弱いAIはある程度
・強いAIと弱いAI John Searle(反AIの哲学者)
強いAI:人間の知的活動→課題の定式化をする前
弱いAI:ベストな解決を導く
Drew McDermott(1997)
チェスで試行していない?
飛行機は羽ばたいてないから飛んでない?
DeepLearning:理解している?
・機械学習:技術
AIを構成する技術の1つ
データを分析してパターンを抽出
パターンを行動ルールに翻訳
→自動的には、行動ルールも更新されるというのが
論理的には正当だが、実際には様々な制約で自動更新しない
決定木
アソシエーション
ニューラルネット
深相学習
SVM
クラスタリング
ベイジアンネット
強化学習
類似度分析
遺伝的アルゴリズム
教師あり :正解ラベルがある
半教師あり:正解ラベルがないものもある
教師なし :正解ラベルがない。クラスタリング、アウトライヤー分析
半教師ありが技術発展中。ベイジアン推定、TSVM、コーザルインファレンス
例:決定木 CART
生成されるのは、1本の木
Bagging→ランダムフォレスト
Boosting→xgboost
解釈問題:なぜその結果が出たのか black boxのホワイト化
・DeepLearningについて
きわめて急速に発展
入力レイヤ・隠れレイヤ・最後で判定
大きく3つ
DNN:従来の多層化
CNN:画像認識
RNN:文書理解
CNN:位置が定義され バッチのせって
RNN:言葉のシーケンス CBOW:順序が表現できる
→特徴量の自動抽出 Embedded Vector
・データサイエンス
データサイエンティストのスキル:3つのようそ
ハッキングスキル
数学・統計
Substance
→データサイエンティスト協会
ビジネス力
データサイエンス力
データエンジニアリグ力
ステージ
問題の発見
問題の定式化
解決方法探索
ビジネス適用
・ビジネス力
機械学習、AIでは語られない
現場のニーズ聴取
データ活用可能性評価
優先度、対応戦略判断
・データエンジニアリング力
扱うデータが大規模、機械学習、AIでも必要
SEが持っているかというと・・・??
大規模データの対応
分析環境の整備
解決策の実装
・データサイエンス力
機械学習の使いこなし
記述的な分析:今どうよ
予測的分析:
処方箋(プリスクリプティブ)
・事例
対象データの分析精度が上がれば、際限なくツリーを作り続ける
(Greedy Method)
結果、分析データ(トレーニング)はいいけど、
検証データ(バリデーション)はわるい
→クロスバリデーション
ランダムフォレスト→アンサンブル
ツリーを並列に
ツリーを直列に(誤差の説明)GBM→xgboot
ただし、説明は難しい
オリジナルのデータでは、分析コンペでは下位
Feature エンジニアリング:特徴量をつくる
・データサイエンティストの育成
完全に不足している
チームで対応する
1つのスキルしか持っていない人間は問題
バックグラウンドについて
文系理系は関係ない
修士と学卒:全体像はつかみやすいかも
ドクターはいろいろ:関連分野
修士レベルでも、そんなにしらないかも・・・トレーニングいる
男女差:まったくない。女性のほうがつよい?(個人差のほうが大きい)
データサイエンス教育
ビジネス常識
言語(WPS(SAS系)、R,Python)
金融業界常識
過去の実施プロジェクト
プレゼン・れぽーてぃんぐ
企画書作成
データ分析
OJT
汚いデータの対応
Feature Engineering
あっという間に時代遅れ
→それって2年前
あまり冒険的なものは・・・
正式な勉強会はすべて会社補助
KDDCUP2017
てんそるふろー・けらす勉強会
Feature Engineering
データクリーニング
データしぇーぴんぐ
データプロファイリング
Feature Generation
Toy Problem
コンペの功罪
http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf
分析技術に特化したコンペ
→活用するアイデアというコンペも多い
kaggle
https://www.kaggle.com/competitions