ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

人工知能のまとめ(2)知識化について

2016-07-16 16:17:07 | Weblog
人工知能のオープンソースやAPIについて、
独断と偏見で、ざっくり感をシェアシェア。のつづき

 (1)知覚、認識
 (2)知識化
 (3)判断支援
 (4)学習と先端研究
のうち、今日は(2)知識化




■知識化のオープンソース

 自然言語処理は、日本語のオープンソースとしては、形態素解析JUMAN[1]、茶筌[2]、MeCab[3]、係受け解析南瓜[4]、漢字→かな変換Kakashi[5]がある。構文解析に関しては、有名なものはないと思う。海外ではGoogleが自然言語フレームワーク「SyntaxNet」[6]を出している。これはディープラーニングのTensorFlow[7]によって実装されている(学習済みの英語パーサー「Parsey McParseface」も含まれる)。ただし、R[8]等で利用する場合は、YAHOO 形態素解析API[9]を呼び出す場合も多い。

 知識処理分野は、旧来はLISP,Prologや、エキスパートシステムが有名であったが、現在、その分野は余り研究・実用化されていない。データから機械学習をするほうが好まれる。代わりに、概念を表現するセマンティックWebやオントロジー、それを実現する基礎技術としてのLOD(リンクド・オープンデータ)などが研究されている。セマンティックWebのオープンソースがApache Jena[10]。オープンデータのハブとしてDBPedia[11]がある。検索はSPARQLが用いられる。

 パターン認識は、機械学習を用いて行われることが多いので、ここでは省略する。なお、文中からある語のパターンを検索するという意味で、全文検索が、この分野に入ることがある。全文検索として有名なオープンソースとしては、namazu[12],Apache Solr[13]、elasticsearch[14]があり、elasticsearchは可視化ツールKibana[15]と連携することが多い。

■参考・引用文献

[1]http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=JUMAN&alias%5B%5D=%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0JUMAN
[2]http://chasen.naist.jp/hiki/ChaSen/
[3]http://taku910.github.io/mecab/
[4]https://taku910.github.io/cabocha/
[5]http://kakasi.namazu.org/
[6]https://github.com/tensorflow/models/tree/master/syntaxnet
[7]https://www.tensorflow.org/
[8]https://www.r-project.org/
[9]http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html
[10]https://jena.apache.org/
[11]http://ja.dbpedia.org/
[12]http://www.namazu.org/index.html.ja
[13]http://lucene.apache.org/solr/
[14]https://www.elastic.co/jp/products/elasticsearch
[15]https://www.elastic.co/jp/products/kibana


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする