2019年8月のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

Linuxをスクラッチから！聞いてきた

2019-08-31 20:58:01 | Linux

もう、先週のことになるけど、８月２４日　オープンデベロッパーズカンファレンス２０１９にいってきて

Linux From Scratch　OSを全てソースコードから構築する方法

を聞いてきたので、メモメモ

LFSの目的
LFS2のしくみ
LFS成功の秘訣

なぜLFS(Linux for Scratch)
・学習システムの全体像
・自在に変更できるシステム
・高速なシステム
　　カーネル、いらないものをなくす
・開発の動向の情報収集

ストールマン博士　４つの自由
・実行する自由
・研究し、改変する自由
・再配布する自由
・改変したものを配布する自由

バラエティ
LFS Linux From Scratch
BLFS(Beyond)発展
CLFS(Cross)異種ハード
ALFS(Automated)自動
Pi-LFS(Raspberry Pi) Bootローダー以外はできる

GNU/Linux一般的なインストール
・ハードディスクの区画（パーティション）
　→cfdisk,fdisk,sfdisk
・ソフトウェアの格納
・設定
　→起動設定、時刻設定

基本的な構築プロセス
・./configure
　いろんなmake→環境を読みこむ必要性

・make
　すちゅあーどふぇるどまん　さんがつくった。

・make install
　
→これになれていると、成功する（これを何回もやってる感じだから）

configureをやりだしたのは、ストールマンさん

格納先の指定
・./configure
・,/configure --prifix=/usr/local
・,/configure --prifix=/mnt/new-os/usr

失敗例
,/configure --prifix=/mnt/new-os/usr
make
make install

単純なパス変更ではダメな理由
・親システムのライブラリにリンクされる
・絶対パスが刻まれる
・親からバイナリをコピーするパッケージ

どうする？
/toolsを作る→作業用ディレクトリ
この中に格納する/tools/bin

作業用システムの構築
,/configure --prifix=/tools
make
make install

chroot環境で本システムの構築
,/configure --prifix=/user
make
make install

→二重に作る
・一回、ワーク用に作る
・chrootで正しいものをつくる

カーネル構築
・Linux構築は最後に行う
・構築時の各種設定については詳しくない
・ほかのシステム要素との干渉は少ない
　　→ファイルシステム
※日本語の情報がどれだけあるか

主要な基幹ソフト
・gccコンパイラ
・glibcライブラリ
・binutilsアセンブラ、リンカ他

LFS構築成功の秘訣
１．教書から逸脱しない
２．進捗管理の導入
３．危険な操作の把握
４．不慣れな操作の事前練習
５．おかしいと思ったら一旦停止
６．調査の励行（相談相手）

品質管理のサイクル
　plan：計画
　do：実行
　see：検証
　Adjust：調整
→うぉるたーしゅーはーと
　えどわーどでみんぐ
　　→ベル研究所
Linux kernel
make menuconfig
ncurses

ファイルシステム
ext4
reiserfs
iso-9661→いれとかないとCD読めない
romfs:組み込み系読みだけ→cramfs,squashfs　圧縮
vfat
ntfs

■参考サイト
ＬＦＳブック日本語版
http://lfsbookja.osdn.jp/

Linux from scratch
http://www.linuxfromscratch.org/

ランキングに参加中。クリックして応援お願いします！

大田区の人口とCyboze.comのユーザー数はどっちが多い？

2019-08-30 09:09:09 | Weblog

ODC2019に行ってきて、

Cybozu.comを支えるOSS　２０１９夏

を聞いてきたのでメモ（表題の件は、第三問）

・第一問
　長野オリンピック開催と、サイボウズ株式会社創業、古いのはどっち？
　→サイボウズのほうが古い（創業２２年）
　　インターネットの技術を会社に（イントラネット）

・第二問
　LLイベントとCybozu.com始まりが古いのはどっち？
　→LLイベントのほうが古い。２００３年から
　　Cyboze.com　２０１１年１１月にサービス開始）

・第三問
　大田区の人口とCyboze.comのユーザー数はどっちが多い？
　→大田区の人口７３４６５３人
　　Cyboze.comのユーザー数１３０万人＋

・Cyboze.com
　がるーん
　サイボウズOffice
　kintone
　メールワイズ

　横浜市全体で統一、採用→Garoon

　Kintone：クラウドネイティブ

　メールワイズ：メールの受付を共有する→複数人で対応するとき便利

・ホットトピックス
　脆弱性報奨金制度２０１９
　サイボウズ・ラボユース：未踏プロジェクトの僕らが勝手にやってる版
　Necoプロジェクト専属採用枠

・Cybozu.comを支えるOSS
　ベースはUbuntu LTSそこからそぎ落とし、パッチ当ててる
　出たら検証をはじめ、周回遅れになっている
　ビジネスタイムにアクセス集中、突然スパークは来ない

　L4LB
　L7LB（nginx)→Jetty(kintoneで）→MySQL
　KafKa
　Hadoop

お客さんごとにVM建てている、

Kintone
バック
Spring

フロント
Google　クロージャー　ライブラリ
React
Npm

サイボウズ開発
yrmcds（よるまくど）
　→memcached：セッションをキャッシュしたくなる
　　　memcached：落ちる、立ち上がると忘れる
　レプリケーションしてくれる

cyboze-go/cmd

WalB（わるびー）
　ブロックデバイスでバックアップする
　ハードディスクに書く直前にバックアップ
　バージョンを選ぶ

git hubのページで公開

aptutil

業務でパッチを書く
・会社で出したくないものを指定するようにした
　→それ以外はOK
　サイボウズのOSSポリシー(CC0)

ランキングに参加中。クリックして応援お願いします！

ドコモのAIエージェントAPIを使って対話型アプリ！を聞いてきた

2019-08-29 08:16:19 | Weblog

ＯＤＣ２０１９続き

ものがしゃべる？ドコモのAIエージェントAPIを使って対話型アプリを開発しよう
　株式会社　NTTドコモ

をメモメモ

１．自己紹介

１．ドコモのAIエージェントAPI
２．VUI（ぼいすUI)を含んだアプリ

・ボイスのインターフェースが簡単に作れる
・デモ
　チケットを買う
　　人が対応しているのと同じ感覚でのUIが提供可能

　メニュー
　　たくさんのものから絞り込む→ボイスならひとこと
　　複数でもOK
　　対話型UIをなぜDOCOMOが？→７年以上前から　しゃべってコンシェル
　　my　daizとプラットフォームは一緒でみんなに使ってもらえるように

・エンジン
　多目的対話エンジン
　　音声認識
　　自然言語処理
　　音声合成
→シナリオを育てる
　コントロールできるシナリオ
　なんでもしゃべれるようにはならないのでは
　対話設計　SUNABAで公開ｘAIML（ざいむる）
　　URLはパンフレットで

　対話設計変更
　　→GUIで会話編集

　複数のSDK：らずぱい、UNITYも用意

　外部APIとの連携
　　標準RESTに対応
　　豊富な音声モデル（５３種類）

　どんな声→デモ

　オープンハウス

・作ってみたくなりました？
　ドキュメントサイト　　　https://docs.sebastien.ai/
　　に行って読めば

　ハンズオン
　GUI開発ツール

　今までにない体験を提供するあ売りケーションが作れる
　VR握手会

　AIエージェントAPIはUI,UXのツールである
　　AIではありません「多目的対話エンジン」です

　考え方の基本
　　従来のUIの弱点の保管

・お客様にご提案するにはデモが有効！

　AIエージェントのソリューションテンプレート

　ソリューションテンプレートのビジネススキーム
　　開発投資
　　セールスサポート：販売チャネル

・ボイスUIを使ったサービスはまだまだブルーオーシャン

ＡＩエージェント開発サイト
https://agentcraft.sebastien.ai/

ドコモAIエージェントAPI　マネジメントサイト
https://coppo.aiplat.jp/corp/login

ランキングに参加中。クリックして応援お願いします！

グラフDBは文章をどうやって理解するのか聞いてきた！

2019-08-28 08:18:28 | Weblog

８月２４日にODCに行ってきて

グラフDBは文章をどうやって理解するか？

を聞いてきた！ので、その内容をメモメモ

Graph-Powerd Translation Model

・アンケート　グラフDBを
　聞いたことある人　ある程度
　使ったことある人　０
→まずいですね・・

・データから知恵へ
　データ
　インフォメーション→RDBはこのへん
　ナレッジ（知識）
　インサイト（洞察）
　ウィズダム（知恵）

・アジェンダ
　自己紹介
　文章構造

・自己紹介
　ぽーどる　てくにっく
　コーヒーの豆のDB作っている

・文章構造
　SVO、SOV
　→よのなかには２種類ある
　SVO 英語、中国語（４２％）
　SOV 日本語、韓国語（４５％）
　→たしたら１００じゃない：これ以外の文法もあるということ

　文字
　　中国：繁体字、簡体字
　　日本語、かんじ、かな、えいご

　漢字コード
　　むかしはSJIS、いまはUTF-8
　　　→CSVにはSJIS残っている

　常用漢字
　　　１９４６年→１９８１→２０１０年２１３６文字（SJIS以外の字も）

　Google翻訳
　　　２００６年まで　SMT
　　　２０１６年　ニューラルマシントランスレーション（NMT)
　それなりに翻訳できるが、まったく意味が違うことがある
　　→コンピューターはどうやって考えますか

・Graph Database
　３つ
　　ノード：レコード
　　リレーションシップ
　　プロパティ：各項目
　→パターンを検索しに行く

・Neo4J
　　さいふぁー、ねおはマトリックスの中に出てくる
　　コミュニティ版はフリー
　　デスクトップ版ある
　　Java

　ポケモンの進化をグラフDBで表現

・テキストグラフ
　日本語：
　　　形態素解析処理がいる
　　　係り受け分析を行う
　　　動詞もノードにしてしまう

・どうやって理解するか
　　Neo4Jはスキーマ定義がない
　　文章を入れる
　　ケーキの知識を入れる
　　文章と知識をつなぐ
　　質問を入れる

・翻訳
　英語の例文を作成する
　　GQL（ぐらふくえりーらんげーじ）
　意味→接続
　日本語を作る
→やくすとき、どこにかかっているのか、グラフにすると一目瞭然

ナレッジベース
　ConceptNet
　JSON FORMAT
　　　Linked Open Data API

仕事の手順をDBに入れられる

ランキングに参加中。クリックして応援お願いします！

ディープラーニングはPytorch！のつづき

2019-08-27 00:44:04 | AI・BigData

この前、

続いてディープラーニングはPytorchを習ってきた
https://blog.goo.ne.jp/xmldtp/e/b344fcad6b9572ffa608f7fc57d0a3e0

を書いたけど、その続き

【初心者向け】ゼロからわかるPyTorch実践入門ハンズオン～後編～
https://liberal-arts-beginners.connpass.com/event/142007/

も聞いてきたのでメモメモ

畳み込みニューラルネットワーク

MLP：全結合層
CNN
・CNNでできること→画像の検出
CNNの特徴
・移動不変性：対象どこでもOK
・合成性
畳み込み層
・行列に対するオペレーター
　→３X3のようなフィルターを用意して、畳み込み演算する
プーリング層
・情報圧縮：マックスプーリング
　→過学習を抑制できる

CNNの構成要素
・カーネルサイズ：フィルタのサイズの大きさ
・ゼロパディング
・ストライド

もう一つの層の作り方
・層ごとにまとめる→畳み込み層、マックスプーリング
CNNは入力チャンネル数（白黒は1）
　畳み込み層はConv2D

チャンネル数

AlexNet
・８層くらいある。チューニングパラメタ多い
　フィルター１１
　LRN:彩度調整
　重複プーリング
→PyTorchには、はいっている

転移学習
　１０００枚の画像
　→最適なパラメータ
　pretrained=TrueｂにすればOK
　→パラメータの凍結：勾配を微分しない
　→学習率を途中で変えられる（エラースケジューラー）

やること
（１）CNNの構造理解
（２）今日の内容（復習）
（３）改造

ランキングに参加中。クリックして応援お願いします！

「中国政府は香港へのデマ拡散、不穏化にYouTubeを組織的に利用」だそうな

2019-08-26 00:40:55 | ネットワーク

Googleが「中国政府は香港へのデマ拡散、不穏化にYouTubeを組織的に利用」と発表
https://jp.techcrunch.com/2019/08/23/2019-08-22-google-youtube-china-hong-kong-protests/
（太字は上記サイトより引用）

今週始め、TwitterとFacebookは、中国政府がソーシャルメディアサイトを使って香港情勢に関連してフェイクニュースなどニセ情報を拡散し、デモの弱体化を図っていると発表した。Googleグループの有力メンバーであるYouTubeもこれに続くこととなった。

とのこと

ランキングに参加中。クリックして応援お願いします！

Office soloのプロダクトキーのカードを買ったんだけど、そこからどうするの？

2019-08-25 08:39:32 | Officeソフト＆VBA

新宿西口のビッグカメラで、Office soloのプロダクトキーのカードを買ったんだけど
そこからインストールするまでで悩んだので、メモ

【悩みの原因】
Office 365 または Office 2019 を PC または Mac にダウンロードしてインストールまたは再インストールします。
（リンク先は長いので、URLを書かず、直接リンクしています）
をみても、どのタイミングでプロダクトキーを入れているのかわからない。
「プロダクトキーがお使いの製品に含まれている場合」は書いてあるけど、今含まれていないから、買ってきた。その人は？

【解決策】
Office のプロダクトキーを入力する場所
をみる。

Office 365、Office 2019、Office 2016、Office 2013 (PC および Mac)
に書かれている手順１、手順２のとおり、www.office.com/setup にアクセスした場合、
サインインして、そのあとにプロダクトキーを聞いてくるので、そこで入れる。

そうすると、最終的にこの画面

になるので、左の「Officeのインストール」をクリック。ダウンロードして、
それをインストールした。インストール中「すぐ完了します」みたいなのが出るけど
蕎麦屋の出前だった（全然完了しない。かなりかかる）

終わったら立ち上がったけど、これでいいのかな？

ランキングに参加中。クリックして応援お願いします！

北朝鮮が韓国を攻めても、GSOMIAが破棄されてるから、日本の自衛隊さんは助けに行かなくてOKっていう解釈でいいんだよね！

2019-08-25 08:29:03 | そのほか

だって、軍事情報を交換できないんだから、
助けようがないよね。
集団的自衛権とかいわれても、関係ない。
軍事情報を交換できない以上、見殺しにするしかないよね。

それから、中国、ソ連が、竹島から韓国を攻めても
軍事情報が交換できない以上、
知らせないでOK（知らせちゃいけない？）
軍事情報を交換できない以上、見殺しにするしかないよね。

・・・っていう解釈で間違いないよね・・・

ランキングに参加中。クリックして応援お願いします！

cafe GLOBE再開してるって、知ってた？

2019-08-24 15:33:59 | そのほか

水道橋というか、神保町にあるCafe GLOBEが
再開してるって、知ってた？

むかし、中年の男の人と、女の人がやっていて、
いいかんじのお店だったんだけど、病気？とかいうので、
ず～としまっていたじゃないですか・・

今日、前通ったら、再開してました。
お店の店員は若い男女の人に変わっていましたよ。
お店の中のイメージは全然変わらない
（あ、自由に聞いていいというレコードプレーヤーとギターが入った
　トイレに行くところ。隠れてるから見えないかも）

で、WiFiが入った！！！
今、そのWiFiを使って、このブログ書いている

ランキングに参加中。クリックして応援お願いします！

ファーウェイ、新AIチップ発表

2019-08-24 01:41:23 | AI・BigData

ファーウェイ、AI開発を加速新AIチップ発表、脱「米依存」
https://www.msn.com/ja-jp/money/news/ファーウェイ-ai開発を加速-新aiチップ発表-脱-米依存/ar-AAGdEnF

ランキングに参加中。クリックして応援お願いします！

続いてディープラーニングはPytorchを習ってきた

2019-08-23 08:27:33 | AI・BigData

回帰、分類、次元圧縮ときて、Scikit learnを使った機械学習のお勉強はここまで
（普通はあと、決定木をやると思う）。
ディープラーニングでscikit learnはつらいので、Pytorchで習ってきた！

【初心者向け】ゼロからわかるPyTorch実践入門ハンズオン～前編～
https://liberal-arts-beginners.connpass.com/event/142006/

をメモメモ

・今日の目標
　PyTorchの基礎文法
　ニューラルネット
　動かせるようになるまで

・自動微分を用いて簡単にニューラルネットワークを記述できる

PyTorchでできること
・テンソル
・自動微分
・損失関数、最適化関数が用意されている

単回帰分析
学習→推論

損失関数・最適化関数
・パラメータを決めるのに必要
・例：予測値の値と実測値の値の差の二乗を足し合わせる
E(Θ）＝∑（yk-y~k)^2
　↑
　パラメータ、いまはa,b

最適化関数
　E(Θ）を最小化するa,b
　→勾配降下法を使う
　　微分して、傾きで決める
　　　改良１・確率的勾配法（SGD)、Adam

ニューラルネットワークについて
　重みｗ
　活性化関数：非線形の関数をはさむと・・

活性化関数
　ReLU関数（れる）：０までは０、それ以降は直線
　シグモイド

ハンズオン
Google colabの利用
PyTorchはインストール簡単
import torchで使える

初期化されていない行列：何か入ってる
add_　→ +=
転置
itemで肩まで出ししてくれる
.numpyでnumpyが入れるようになる

自動微分
テンソル用意
式を用意
.backword
勾配

最適化
tourch.optimにはいってる

やること（学習）
　モデルを決める
　損失関数を決める
　最適化関数を決める

ネットワーク
何X何のデータが来るか確認→ここがわからないと、組めない

（１）今日の内容理解
（２）論理和
（３）モデルの中身を変えてみる

公式ドキュメント
https://pytorch.org/

ランキングに参加中。クリックして応援お願いします！

回帰、分類ときて、次は次元圧縮を習ってきた！

2019-08-22 08:12:55 | AI・BigData

次は次元圧縮！

８月１６日、

【入門者・初心者向け】scikit-learn を用いた機械学習入門ハンズオン~次元削減~
https://liberal-arts-beginners.connpass.com/event/141362/

を聞いてきたのでメモメモ！

次元削減

主成分分析(Pricipal component analysis：PCA)
　データを新たな軸に移す
　→情報の損失が起きる：情報は保ちたい
　　エントロピー：分散の対数で表せる
　　→情報量を多く保つには分散を最大化させる
　主成分を直交するように、次の軸をとっていく

固有値、固有ベクトル
　正方行列：たてよこ同サイズの2次元配列
　のN乗を計算しやすくするために考案された

そこで、対角行列（インデックスが同じ要素だけ、値を持つ）
　a 0　　　　　　　　a^n 0
0 b　　このN乗は　　0 b^n
ここで出てきたのが、固有値・固有ベクトル
　AV =λV
いま、サイズをMとする（縦にも。横にもM)そうすると
AV =λVの組は多くの場合M個ある
新たな行列　V=「V1,・・・,Vm]
正方行列が、対角行列で描ける

主成分分析の話
分散共分散行列を用いて、射影後の分散に最大を考える
制約u^2=1を導入すると

　ラグランジュの未定乗数法を用いて

　最大化→微分して０→λを用いて表す→固有値問題に

よって、主成分を求める→分散共分散行列の固有値を求めればよい

主成分はいくつ必要か
基準１：累積寄与率が８割以上になるように採用
基準２：固有値が１以上の主成分のみ採用（データの標準化を行うこと）
i番目の主成分の累積寄与率

非線形への拡張
・PCAでは、非線形を扱えない
・方法は３つ
　（１）データそのものを工夫して、線形にする
　（２）カーネルPCA
　（３）オートエンコーダー

因子分析
・せんざいいんしのそんざいをかていする
　データ分析に向いている

主成分分析と因子分析
主成分分析：①観測データ→②主成分
因子分析：①潜在因子→②観測データ
→因果関係が逆

次元削減
・計算コストの省略
・２次元にした→可視化
・大規模なデータでは、疎であることが多い（値が０であることが多い）
　→手書き数字
　画像：ピクセルが白→０　黒→１
　筆跡以外は０
→線形回帰で多重共線性があるとき、因子分析・PCAで因子、主成分を用いれば
　共線性が消えて、きれいに回帰できる

ニューラルネットワーク
入力にX、出力にX（同じもの）を入れると、次元圧縮（中間層で）の後、
　元の次元を復元できるように訓練できる

Scikit-learnとTensorFlowによる実践機械学習

はんずおん

●データの正規化
DATA = load_wine()
label=DATA.target
dataset=pd.DataFrame(DATA.data, columns=DATA.feature_names)
dataset=scipy.stats.zscore(dataset)

●PCA
from sklearn.decomposition import PCA
pca=PCA(n_components=i)
pca.fit(dataset)

n_components：主成分の数

●オートエンコーダー
from sklearn.neural_network import MLPRegressor
MLPR=MLPRegressor(hidden_layer_sizes=(2,),activation='logistic',max_iter=10000)
MLPR.fit(train_X,train_X)

#fitのとき、train_X、train_Xと同じにするのがポイント

# weights:出力層のところの重みづけで圧縮されている
W=MLPR.coefs_
W_1=W[0]

●因子分析
from sklearn.decomposition import FactorAnalysis

#データの設定
number_of_Factors=3
D=load_boston()
t=D.target
X=pd.DataFrame(D.data,columns=D.feature_names)
X=scipy.stats.zscore(X)
X=pd.DataFrame(X,columns=D.feature_names)

#因子分析
FA=FactorAnalysis(n_components=number_of_Factors,tol=0.0001,max_iter=100000)
FA.fit(X)

#Log Likelihood:　対数尤度

#因子負荷量を出す
# FA.components returns Factor Loadings
Factor_Loadings=FA.components_.T
result=pd.DataFrame(Factor_Loadings,columns=list(range(1,number_of_Factors+1)),index=X.columns)
print(result)

ランキングに参加中。クリックして応援お願いします！

回帰の次は分類を習ってきた！

2019-08-21 08:50:56 | AI・BigData

回帰の話の次は分類！ってことで

【入門者・初心者向け】scikit-learn を用いた機械学習入門ハンズオン~分類器~
https://liberal-arts-beginners.connpass.com/event/141345/

で習ってきた内容メモメモ

機械学習のフレームワーク
・機械学習：与えられたデータ→教師あり、教師なし学習
・今日は分類
・特徴選択：重要な変数を選び出す→特徴量

・分類
　入力：特徴量
　出力：分類

・今日
　フィッシャーの線形判別
　ロジスティック回帰
　ニューラルネットワーク

・精度は問題に起因
　パラメータ：
　　学習で決まる
　　人間が与える：ハイパーパラメータ

・検証：k-fold cross validation K=10(10 fold closs validationが多い）

・評価
　正答率：正解数／N
　混同行列
　F値

　混同行列
　　モデルの出力
　　　　１　　　０
正　１　TP　　　FN　
解　０　FP　　　TN

　TPとTNは正しい回答
　FPとFNは間違い

正解率＝（TP+TN)／N
適合率（Precision)：TP／（TP+FP)・・モデル１のデータの当てはまり
再現率(recall)：TP/(TP+FN)　　　・・正解１のデータの当てはまり

F値＝２／（１／適合率＋１／再現率）

・フィッシャーの線形判別
　非確率的アプローチ
　全データを射影する方向を決定する
　　→射影した後、
　　　同じクラスのデータの分散を小さく、
　　　ほかのクラスとのデータの分散を大きくなるようにする

　→射影方向と直交する線が判別境界になる

・ロジスティック関数による判別
　ロジスティック関数σ＝１／（１＋exp(-x))
　ロジスティック回帰：以下の関数を学習
　　　y(x)=σ（wT,x) ｗを見つけたい
　出力は、クラスに属する「確率」

・ニューラルネットワークによる判別
　ソフトマックス関数→戻り値はベクトル（１次元配列）
　　softmax(x)=[exp(x1),exp(x2),…exp(xm)]/∑exp(xi)
　→ソフトマックス関数の各要素：クラスiに属する確率
　ニューラルネットワークでは出力層の活性化関数にソフトマックス関数を使う

はんずおん
LDA：線形判別

train_test_split(data_X, data_y, test_size=0.33,shuffle=True)
→訓練データとテストデータを分けている（０．３３→３分の１）

k_fold=KFold(n_splits=split_size,shuffle=True)
→訓練データを、クロスバリデーションするためにバッチにわけている

for train_indices, validation_indices in k_fold.split(X_train):
TRAIN_INDICES.append(train_indices)
VALIDATION_INDICES.append(validation_indices)

正規化
　Xi=(xi-mean(x))/Sqrt(Var(x))
import scipy.stats
データフレームを読み込んだ後
data_x=scipy.stats.zscore(data_X)
データの基本統計量を出す
print(D.DESCR)

ランキングに参加中。クリックして応援お願いします！

線形回帰を習ってきた！

2019-08-20 08:38:27 | AI・BigData

お盆休みに、一通り機械学習習ってきた！
まずは線形回帰

８月１０日

【入門者・初心者向け】scikit-learn を用いた機械学習入門ハンズオン~回帰モデル編~
https://liberal-arts-beginners.connpass.com/event/140224/

で学んできたことメモ

機械学習
教師あり学習、教師なし学習を行う
ここでは、回帰
・特徴選択が大事
　市場規模（兆円）→対数変換
　→特徴量
　
　線形回帰：多重共線性

→だけど、特徴選択は難しい

フレームワーク
・様々なモデル
　線形回帰
　正則化回帰
　ニューラルネットワーク

モデル：
　値が決まる：パラメータ
　人間が決める：ハイパーパラメータ

評価
　確率モデルは情報量基準、そうでない場合は誤差関数で評価
　訓練データ集合D={(x1,t1)，・・・｝入力と正しい出力の組
　モデルy=f(x)

　正しい出力Tn
　モデルの出力f(xn)
　誤差：tn-f(xn)
　＋の誤差とーの誤差で打ち消し合わさないように２乗(tn-f(xn))
　２乗和誤差、２乗和誤差の平均で評価
　
訓練データとテストデータに分ける
　train_test_split
　　訓練８割　テスト２割が多い
　　データが多く少ないデータで学習できるなら
　　　訓練５０００個、テスト　残り
　→ハイパーパラメータ選択
　　k-foldクロスバリデーションを各パラメータで実施して、
　　一番良い結果を選ぶ

線形回帰
y = w0+w1x1+w2x2+・・・+wnxn
２乗和誤差
→Eをｗで微分して、０とおく
→ハイパーパラメータが出てこない

正則化線形回帰
　汎化能力
　　　解が求まらない：回避するようにできている
　　　過学習
　→正則化　regularization
　　正則化線形回帰：ridge回帰を取り上げる
　　　→２乗和誤差関数にパラメータの２乗和を加える
　　　　ハイパーパラメータλあり
　　　　λ＞０
　　　　もしλ＜０だと、誤差関数がマイナスになる可能性がある

ニューラルネットワーク回帰
　作るモデルｙ＝ｆ（ｘ）が複雑
　　→複雑なデータでも
　層→重みのところでいう入力→中間層→出力の場合（３層でなく）２層
　活性化関数relu,logistic,tanh
　出力層では活性化関数はない（そのままのあたい）
　誤差関数E+'alpha'/2 - ∑

ランキングに参加中。クリックして応援お願いします！

機械学習手法の分類手法を「人間をゴリラと間違える事例」で使ったらどうなるかで説明してみる

2019-08-19 08:57:23 | AI・BigData

機械学習の分類手法は、こんなかんじ
　決定木：分類基準がわかる。Whitebox
　SVM：くっきりはっきり分かれ目（サポートベクタ）がわかる場合、有力
　ディープラーニング：分かれ目ははっきりしないとき、～っぽいという区別がしたいとき＊
　ランダムフォレスト：ディープラーニングでやったものより、精度を上げたいとき
　アンサンブル：（結局組み合わせなので）精度を上げたいとき

＊ディープラーニングは分類の理由がはっきりしない（Blackbox）。なので、分類基準がはっきりできない、させたくないときに有効。

このほかに、ABCのどれかを分類したいとき、「Aがどうか」「Bがどうか」「Cがどうか」をロジスティック回帰でやる方法もある。逆に「その線はね～よ」と消したいときや、説明変数が回帰向き（だけど、分類に回帰はふつう使わない）のときいいかも。
回帰向き：説明変数間が独立だが、目的変数に対し、「連続量で」効いて（寄与して）くる

このちがいを「人間をゴリラと間違える事例」で使ったらどうなるかで説明してみる

ディープラーニング：
　過学習させて、この人は、ゴリラに分類されるんだけど、この人だけは、ゴリラの中でも人間と表示するというふうにしてしまう。分類理由（基準）はブラックボックスなので、ゴリラに本当は分類されていることはバレないので、問題なく分類できる。

SVM
　カーネルトリックを使って、この人をゴリラから分離でき、それがほかの人間と一緒というサポートベクタが引けないとできない・・・難しいと思う。

決定木
　理由がわかってしまう。ディープラーニングの方法では、「じつはゴリラに分類されているんだけど」ってことがバレバレになる。激怒され、大問題。

ランダムフォレスト
　データが多くて、ディープラーニングの精度が悪ければあり

アンサンブル
　ディープラーニングの精度が悪ければあり

ロジスティック回帰
　ゴリラかときいて、その可能性が高ければ、激怒される（たとえ、人間の可能性も高く、最終的に人間と分類できたとしても）

ランキングに参加中。クリックして応援お願いします！

アクセス
閲覧	1,452	PV
訪問者	936	IP
トータル
閲覧	34,361,344	PV
訪問者	8,435,046	IP
ランキング
日別	345	位
週別	455	位

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#ガーデニング」をチェック

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

Linuxをスクラッチから！聞いてきた

大田区の人口とCyboze.comのユーザー数はどっちが多い？

ドコモのAIエージェントAPIを使って対話型アプリ！を聞いてきた

グラフDBは文章をどうやって理解するのか聞いてきた！

ディープラーニングはPytorch！のつづき

「中国政府は香港へのデマ拡散、不穏化にYouTubeを組織的に利用」だそうな

Office soloのプロダクトキーのカードを買ったんだけど、そこからどうするの？

北朝鮮が韓国を攻めても、GSOMIAが破棄されてるから、日本の自衛隊さんは助けに行かなくてOKっていう解釈でいいんだよね！

cafe GLOBE再開してるって、知ってた？

ファーウェイ、新AIチップ発表

続いてディープラーニングはPytorchを習ってきた

回帰、分類ときて、次は次元圧縮を習ってきた！

回帰の次は分類を習ってきた！

線形回帰を習ってきた！

機械学習手法の分類手法を「人間をゴリラと間違える事例」で使ったらどうなるかで説明してみる

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

2019年8月
日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ