Takeda's Report

備忘録的に研究の個人的メモなどをおくようにしています.どんどん忘れやすくなっているので.

日本におけるLinked Dataの課題と現状(その3)

2010年10月29日 | 解説記事
4.現在の日本/日本語のLinked Data

ここでは日本において大規模にLODあるいはRDFを公開している例をいくつか取り上げる。

4.1 理化学研究所のDB

理化学研究所が運営している公開DBサービスであるサイネス(SciNetS.org)においてはすべてのデータがOWL/RDFとして利用可能である。バイオ系を中心に現在100個以上のデータベースが登録されている。全インスタンス数は約900万件、データサイズは約11TBである。また、サイネスを使って国際的なデータ連携のプロジェクトが行われている(例:マウス表現型データの国際共有化/InterPhenome )。
サイネスではバイオ研究者が求める検索を実現するために通常のSPARQLエンジンではなく、統計処理機能を拡張した独自開発の検索エンジン(GRASE)を採用している。また、RDFのままではウェブブラウザやJavaScriptが直接処理しにくいという欠点を補うために、簡易な方式でも同じデータにアクセスできるようSemantic-JSONというインタフェースを提供している 。Semantic-JSON APIではすべての情報にIDがつけられ、データ取得の指示(命令)とこのIDを含んだURIをサーバに投げることでデータを取得する。このAPIは各種言語(Ruby, Perl他)のライブラリとして用意されており、さらにはこのサイト上でスクリプトを書いて実行する環境も用意している。

4.2 ライフサイエンス統合データベースプロジェクト
大学共同利用機関法人 情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS)では様々なアプローチでバイオデータのセマンティックWeb化を進めている。例えば各種ライフサイエンス系のWebサービスの標準的な方法でアクセス可能にするTogoWS では出力をRDFとして得られるようにしている。DDBJ-PDBj-KEGG RDF化プロジェクトではタンパク質データベースPDBjのRDF化などを行っている。他にも小規模用データベースシステムTogoDBではRDF出力をサポートする予定である。
またDBCLSではバイオ系におけるプログラミング技術の向上と知識共有のために、合宿形式で行うDBCLS BioHackathonを主催している。そこではバイオ系のデータに対するセマンティックWeb技術を適用したプログラミングも行われている。

4.3 国立国会図書館のNDLSH
図書館の世界ではいま世界的に急速にLinked Data化が進んでいる。LOD クラウドの右上にpublication関係が集まっているが、そのなかでも図書館に関係するLODはLCSHを中心にまとまっている。LCSHはアメリカ議会図書館の件名標目表(subject heading)のことである。件名標目とは図書を分類するときの統制語彙で、多くは階層的な構造をもっている。各国の中央図書館は自らの管理する件名標目や著者名典拠や書誌をLinked Data化して公開をはじめている。
日本では国立国会図書館が自らが管理する国立国会図書館件名標目表(NDLSH)をLinked Data化して公開をはじめている 。規模としては約130万tripleである。またSPARQL endpointも用意されており、おそらく日本で最初の実用的なSPARQL endpointである。図3にSPARQLでのquery例を示す。
データ構造は単純で基本はdctermsとSKOSを使ったもの樽。SKOSは元々図書館系の情報構造に基づいているので相性はいい。対応するLCSHがある場合は rdfs:seeAlsoでつなげている。
日本語特有の問題としては「読み」がある。読みというのは他の言語には存在しない。しかし日本語のデータにおいては重要な要素である。NDLSHにおいては独自のtranscriptionというタグを定義してそれをタイトルの下部構造として埋め込んでいる。これはタイトルに限らず他のリソースでも読みが存在しうるので、統一的構造としてはわかりやすい。反面、ブランクノードを含む構造になり利用側では注意が必要である。

4.4 国立情報学研究所のCiNiiおよびKaken
国立情報学研究所が提供するデータベースサービスでは通常のHTMLによるデータ提供に加えてRDFによるデータ提供もはじめている。
CiNii は国内論文の書誌および本文検索サービスであり、現在、1300万件以上のデータを提供しており、月間6億以上のアクセスのあるサイトである。CiNiiにおける主要な情報オブジェクトは書誌情報と著者情報であるが、主に書誌情報をRDFとして提供している(著者情報のRDFは簡易版)。その例を図4に示す。HTMLのURL+”.rdf”のURLとしてアクセスできる。基本的にはdctermsとPRISM(The Publishing Requirements for Industry Standard Metadata), foafを組み合わせて表現している。日本語と英語の混在については言語タグ(enとjp)をつけて、別のリソースとして扱っている。
Kakenは文部科学省科学研究費補助金の報告書のデータベースである。主な情報オブジェクトは報告書と研究者で、件数にして100万件程度の報告書および18万人程度の研究者がデータベース化されている。メタデータとしてはタイトルなどにdcterms、人物情報にfoafを使うもののの他は独自のタグを定義して使っている。RDFへのアクセスはhttpのcontent negotiationを使ってできるようになっている。実験的にSPAQLエンドポイントを構築している。このDBでは研究者名でDBLPおよびキーワードでDbpediaとリンクが張られている。

4.5 lod.acプロジェクト
このプロジェクトは情報・システム研究機構 新領域融合研究センターのプロジェクトの一環として「学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構築」と題目で実施しているものである。日本における学術に関するデータをLinked Dataの方式で公開・共有するということを実践的に実施して、実践を通じてのプラットフォームつくりと構築知識の獲得を目的としてる。

(1)美術館・博物館情報

その最初の対象は分散かつ未統合のデータのテストケースとして美術館・博物館情報の統合とした。日本における美術館・博物館の情報は各館が独自に所蔵品情報を公開する程度で情報の統合が行われていない。そこで本プロジェクトで日本全国の美術館・博物館情報をLinked Dataとして共有して統合できる仕組みを作ることにした。このような試みはヨーロッパではEUのプロジェクトとしてEuropeanaというものが行われている 。EuropeanaではEU27カ国の博物館の収蔵情報を統合して扱えるサービスを構築している。Europeanaにおいても一部の情報をLinked Dataして提示する実験システムを公開している。
LOD Museum(仮)では美術シソーラス[2]、作品データベース、個別美術館・博物館といった異なる情報源からの情報を統合して構築される。このようなそれぞれが自身の情報のオーソリティであるような複数の情報源を統合す るときには、どのようにデータを統合するかという統合ポリシーが必要である。今回はオーソリティ統合に関して次にような原則を用意した。
1. 自分がオーソリティをもつ情報オブジェクトは自らIDを付与して管理する
2. 他の情報源がオーソリティを持つ情報オブジェクトはそのIDを流用した独自の情報オブジェクトとして記述する。
3. 自分がオーソリティを持つ情報オブジェクトから他の情報源がオーソリティを持つ情報オブジェクトとは参照関係(owl:isPrimaryTopicOfまたは他のプロパティ)で結ぶ。
このような構造にしたのは、オーソリティの異なるデータをその違いを残して管理するためである。データの追加や更新においてこの違いを保持しておくことは重要である。
LOD Museum(仮)では作品、作者、所蔵館が基本の情報オブジェクトであり、それぞれを一元的にIDをつけて管理する。しかし、LOD Museum(仮)が生成した情報オブジェクトはIDと最小限の記述した持たず、これらに関して外部の情報源から取り込んだ情報はそれぞれ別の情報オブジェクトとして記述される(図5参照)。例えば、ある作品に関する情報は2個以上のowl:isPrimaryTopicOfでつながった情報オブジェクトの和として表現される。
それぞれのメタデータは、dcterms, foaf, NDLSH, CIDOC CRMといったメタデータから必要な項目を抜き出したタグを集めて構成した。このメタデータでは作品の詳細なデータを記述するのではなく共通性のある属性を列挙している。なお美術関係においては作者名義は作者とは別に重要である。LOD Meseum(仮)では作品には作者名義と作者を(もし違えば)別のプロパティで表現し、作者情報においてはfoaf:nickで作者名義を記述するようにしている。
日本語に関しては、作品名や作者名等は基本的に言語タグ(@ja-hani, @ja-hrkt等)を用いて同一プロパティにを多重に値を与えて表現する。

(2)ことば、事典情報
先に述べたようにDbpedia汎用的なリソースがあると参照先として使えるのでLOD化を進めやすい。そのために、まず日本でのことば、用語を集めてリソースとして参照できるサイト「ことはぶ」 を用意した。「ことはぶ」は各種辞書・事典(Wikipedia, はてなキーワード、ニコニコ大百科(仮), Yahoo!百科事典等)の掲載語を集め集約してRDFによって記述したものである。NICTで実施された日本語化されたWordNetも含まれている。集約の結果、約225万語あった。個別のリソースごとのRDFあるいはSPARQLエンドポイントとしてアクセスできる。
またWikipediaのinfoboxを利用したLOD化は東京大学の中山浩太郎氏と共同で日本語版Dbpediaを開設する予定である。

5.未来に向けて
本章では日本におけるLinked Dataに関わる活動を紹介した。まだ個別の取り組みにとどまっており、大きな動きになっているとはいえない。しかし、国内においてもオープンガバメントの動きがでてきたように 、海外の動きに合わせて大きく変化することも考えられる。そのときに備えて国内においてもコミュニティをつくり技術や情報の共有を進めるべきであろう。

謝辞

本稿をまとめるに当たって、lod.acプロジェクトでの議論が大変参考になりました。とくに大向一輝氏(NII)、加藤文彦氏(NII)、嘉村哲郎氏(総合研究大学院大学/東京芸術大学)、濱崎雅弘氏(産総研), Tran Duy Hoang氏(NII)には感謝いたします。また該当項目においては豊田哲郎氏(理化学研究所)、中尾光輝氏(DBCLS)にご教授いただきました。感謝いたします。

日本におけるLinked Dataの課題と現状(その2)

2010年10月29日 | 解説記事
3.日本におけるLinked Data化の課題

LOD活動はヨーロッパおよびアメリカにおいて盛んであり、単に情報研究者の活動の域を超えて、個々の分野の専門家や政府などの組織を巻き込む活動になっている。
残念ながら日本ではさほど活動的であるとはいえない。それはなぜなのか、その解決はあるのかというのは本節で述べる。ここで「日本」と呼んでいるのは、日本国内の活動and/or日本語での活動をさしている。もちろんLODは本質的にグローバルであり、こんな区分は本質的でないが、現状を把握するためにはあえて分けて考えてみる。

3.1.情報公開・共有の文化
日本の社会、ことに組織においては前節で説明したような情報公開・共有の重要性は十分に理解されているとはいえない。情報循環は情報の公共性を維持することであり、情報公開・共有はその情報循環を実現する要素として重要であるということが理解されていなければ、情報公開・共有はリスクだけが強調され、実際に自らの情報を公開・共有することができない。ことに公共セクターである組織のほうがより消極的なことが多いのは残念である。
これは日本の社会の文化的背景によるのか断言はできないが、いずれにしろこの点から変えないと継続的・持続的な情報共有は実現できない。これはLinked Data実現以前の問題であるが、とくにLinked Dataにおいては大規模なデータを持つ組織および公共セクターの能動的な参画が重要であるので、Web化よりこの点が効いてくる。
なお、政府系でも必ずしもどこも消極的というわけではない。国民への情報提供を主たる業務とするような組織は情報公開をより効果的にする手段として利用しつつある。第5章で触れた国土地理院は実質的に制限をつけずに情報の再利用を許しているし、4節で述べる国立国会図書館や国立情報学研究所も新しい公開手段として利用しつつある。
なお、政府系に関しては第4章で述べたようにオープンガバメントの動きが出ているので、より積極的に変わるチャンスがあると期待している。

3.2 コミュニティの未成熟
Linked Data実現には単に情報のネットワークだけではなく、人のネットワークも必要である。
Linked Dataはその性質からして異なる情報源からの情報が相互につながってこそ価値が出る。またデータそのものは各領域にあるので、単に情報研究者・技術者だけでなく領域の研究者・専門家の参画する必要がある。Linked Dataはまだ発展途上であり未解決な問題が多々あるので、このような人々が適宜インフォーマルにコミュニケーションをとって解決していかないといけない。
欧米を中心とするコミュニティではメーリングリストで小さい問題から大きな問題まで盛んに話し合われている。また分野ごとのコミュニティも形成しつつある。残念ながら国内ではこのようなコミュニティはまだ未形成である。これは筆者を含む本領域の研究者・専門家の宿題ではある。
なお、4節で触れるバイオサイエンス系はデータの性質上国内というよりは国際的な関係が重要であり、国際的コミュニティに加わることでLinked Data化が推進されている。
国内ではまだ大きな動きとはいえないが、google groupにはLinkedData.jpというものが作られ、少しづつ状況は変化している。4節で説明するLod.acプロジェクトでは美術館・博物館情報のLinked Data化を進める中で、地域のNPOとの連携も始まっている。

3.3 中心的データの欠如
LOD クラウドをみて明らかなのはDbpediaがLOD クラウドの中心になっていると言うことである。LODにおいては様々な情報源同士が相互にリンクしあえるのであるが、そうはいってもデファクト的につなげることができるサイトがあれば、自身の情報のLinked Data化するときの目標を定めやすい。いわば“参入障壁”を低くすることができる。それがDbpediaである。Dbpediaはオンライン百科事典WikipediaをLinked Data化したものであるので、極めて広範な領域をカバーしている。たいていの分野で何らかの関係性をみいだすことができる。LODにおいてDbpediaは極めて重要で、現在のLOD活動はこのDbpediaの公開に始まると言っても過言ではない。
このDbpediaは日本語リソースとして使うには問題がある。Dbpediaは英語版Wikipediaを使っている。Wikipediaの各ページに相当する資源にはWikipediaの言語リンクを利用して多言語のラベルがつけられているので、日本語のラベルは存在する。しかし、Wikipediaは各国語版で大きく構成が異なるので、日本語のLinked Dataには適切とはいえない。
これに関してはlod.acプロジェクトでは、日本語のリソースを増やすために多様な種類の辞典・事典から用語を抜き出してリソース化した「ことばぶ」というものを開発している(4節参照)。

3.4 日本語のリソースの記法
より技術的な課題としては、資源のURIに日本語を使うどうかという問題がある。クラス名やプロパティ名に日本語を使うか、あるいはそれに相当する英語名を使うかということである。URIの場合アスキー文字のみであるが、IRI(国際化URI, Internationalized Resource Identifier)[RFC3987]に基づけばunicodeで書いた日本語文字列を含めることができるので技術的には可能である。しかし、それだけで問題が解決するわけではない。
まずリソース名に日本語を混ぜることのメリットしては、
(1) 既存のデータ構造を流用できる
(2) 了解性(少なくとも日本人には)
(3) 同一性(翻訳による揺らぎがない)
ということが挙げられる。逆にデメリットは
(1) 関係システムが技術的に処理可能か不明(IRIに対応できていない)
(2) 日本人以外には意味不明
(3) 国際的なスキーマと合わせると英語・日本語が混交して不自然
ということが挙げられる。一方、元々日本語を使ったデータ構造を英語化して記述するとなると、メリットしてはこの反対であり、
(1) 技術的に安心(すべてのシステムが処理可能)
(2) 了解性
(3) 他の国際的なスキーマとスムーズに結合
ということになる。一方のデメリットしては
(1) 翻訳の必要、同一性の担保が難しい
ということがある。
Linked Dataは国際的に流通するものであるという点においては、英語化したほうが適切だといえる。しかし、Linked Data化されるものが常に国際的に流通を意図しているというのもおかしな話である。日本国内で流通することに意味があるものもある。そうであれば必ずしも英語化にこだわる必要はない。むしろ英語化がLinked Data化の障害になるようならば、元々のデータで使われている日本語そのままでLinked Data化で十分である。例えば4節で取り上げるもののうち、バイオサイエンスにおいては前者であり、日本語Dbpediaでは後者である。
中間的方式としては、英語化したリソースに日本語のラベルを張るという方法 や英語と日本語で2重にリソースを記述するなどの方法も考えられる。
現状では、データの性質を鑑み、方法を定めるということになろう。
なお、もうひとつの日本語特有の問題は「読み」であるが、これは4節で取り上げる。

日本におけるLinked Dataの課題と現状(その1)

2010年10月29日 | 解説記事
(現在執筆中の解説記事の草稿です。乞ご意見、コメント)

1. 私たちのLinked Data?
Linked Dataはデータの共有の新しい方法として欧米で認知され、実践が進んでいる。日本においてはどうだろうか。セマンティックWeb自体の未普及もあって、まだ認知すらされているとはいえない状況である。日本においてもLinked Dataは可能のだろうか。いやそれ以前にそもそもLinked Dataは日本に必要なのだろうか。
本稿では日本におけるLinked Data化活動を概観する。
まず、前提としてなぜLinked Dataが必要なのかから考察をはじめる。情報共有の問題である。これはLinked Dataだけに関わる問題ではないのだが、Linked Dataというのは情報共有の新しい世界である以上、避けて通れない。その上で、日本あるいは日本語固有の課題を挙げ、どのような解決法があるか考える。最後に具体的に大規模なLinked DataあるいはRDFを提供している活動を取り上げ、説明する。

2.Linked Dataの社会的意義
当たり前のことだが、Web技術の発展の先にLinked Dataがある。その重要性は情報技術者や研究者にとっては比較的わかりやすいが、社会的意義をきちんと説明できないと、広く公開のデータをつくろうというLinking Open Data(LOD)活動は参加者や理解者を増やすことができない。そこで本節ではまずWebの社会的位置づけから考えることで、まぜLODが社会的な意義があるかについて述べる。

2.1.情報循環としてのWeb
Webの社会的意義とは、情報の社会的循環の大規模化・高速化こそが情報の価値を高めると言うことを実践的に知らしめた点である。
情報というのは単に作られただけでは価値がない。当然、他の人たちに伝達され、利用されてこそ価値が生まれる。ある人によって他の人の情報に基づき新たな情報が作られ、それがまた他の人に使われて新しい情報が作られる。この循環こそが我々の社会での情報を豊かにさせてきた源泉である。個人的な情報伝達手段しかなかった時代には、利用・創造-伝達-利用・創造-…という単純なものでしかなく、極めて遅く小規模なものであった。
マスメディアの登場により公共的な情報循環が始まった。すなわち、利用・創造-公開-収集-共有-利用・創造-...となった(図1参照)。個人的な情報伝達に比べ、格段に速く規模も大きくなった。この仕組みにより多くの職業的情報創造者(ジャーナリスト、作家、作詞者、作曲者等)が生まれた一方、情報を公開できる人間はそういった職業的情報創造者やメディア関係者に限られており、情報循環への関与という点では偏っていた。すなわち情報を創造して公開できるのは一部の人々であり、多くの人々は単に利用者でしかないという偏りである。
Webはこの偏りを直す仕組みを提供した。すなわち、だれでも自らの情報を公開し共有することができる。無料あるいは極めて低料金で自らの情報を他者に利用可能な形で公開することができる。また公開された情報は一元的なコントロールなどをうけることなく自由に共有され、自由に利用することができる。この結果、情報循環はかつてないほど多数の参加者により大規模かつ高速に行われるようになった。

2.2.情報循環としてのセマンティックWeb
このように情報循環に新しい時代をつくったWebであるが、さまざまな課題も生まれてきた。その中の一つがデータのコンピュータでの利用である。
Webの仕組みは当然のことながらコンピュータとコンピュータネットワークによって実現されている。しかし、情報循環には人間が関与することが前提になっていて、コンピュータにはあまり適切でない。顕著なのがHTMLで、HTMLによる情報の構造は人間が理解するために使われており、これだけではコンピュータがそこに書かれている情報を適切に処理することができない。
その克服のための仕組みがセマンティックWebである。セマンティックWebは人間とコンピュータ双方が情報の内容をより多く理解でき共有できるように、情報の意味を与える仕組みを用意している。それがセマンティックWeb言語であるRDFSやOWLである。

2.3.情報循環としてのLinked Data
Linked Dataはセマンティック Webのうち、個別の情報(インスタンス)を重視して情報公開・共有を行うというものである。セマンティックWebの構想はいくつかの階層からなる。図2は最も初期のころのセマンティックWebの階層である。このうち、研究としては下位から上位へ、すなわちRDF記述のレベルからオントロジーへ、そしてさらに上位へと進んでいる。
しかし、言語が整備されたとしてもオントロジーを実際構築して共有していくのは大変なことである。オントロジーが広く共有されていれば、それに基づいた情報の共有は容易になる。しかし、それを待っていてはなかなか
進捗しない。
Linked Dataではオントロジーの共有はひとまずおいておき、まずはデータの共有をしましょうというところに特徴がある。それがTim Berners-LeeのいうところのLinked Dataの3原則(1章参照)である。概念レベルのオントロジーの共有は一朝一夕ではできないが、個別のデータの共有は比較的容易だと言うことである。これがLinked Dataの狙いであり、実際大きな勢いでデータが増えている。

2.4 情報循環としてのLOD
Linking Open Data(LOD)はLinked Dataとして情報を共有していこうという活動である。Linked Dataの性質として相互につながってこそ意味があるので、そのつながりを集めて公開することでデータの利用を促進したり、より多くの参加者を集めようとしている。
LODにおいて公共セクターは重要な部分である。というのは元々公共セクターの情報は国民・市民に公開されている情報である。当然公開された情報は利用されることを期待されている。Web以前は紙媒体や限定されたデータベースとして公開していたが、Web以後はHTMLやPDFで公開されるようなった。しかし、HTMLやPDFで公開された情報はデータとしての利用は難しい。個別の処理をしないと、そこから必要なデータを抜き出すことができない。Linked Dataの形式でデータを公開することで、こういった個別の処理なしでデータを利用可能になる。
また、公共セクターは社会において重要かつ大量のデータを抱えている。もちろんプラバシーや国家機密に関わることはそもそも公開情報でないので除外するとしても、それ以外にも大量の情報を抱えている。この情報をLinked Dataの情報循環に入れることは、情報循環が前提の社会として、必須なことといえよう。すなわち公共セクターはLODに情報提供をすることで情報循環のインフラを支えることが期待されている。
もちろん個別の企業や団体の情報も社会的な価値を多く持っている。その多くの情報の価値は社会における情報循環によって支えられている。とすれば公開可能な情報はむしろより利用されやすい形式で公開することがその価値を上げることになる。その仕組みとしてLODを使うのは企業的にみても十分意義のあるものであると考える。