Takeda's Report

備忘録的に研究の個人的メモなどをおくようにしています.どんどん忘れやすくなっているので.

日本におけるLinked Dataの課題と現状(その3)

2010年10月29日 | 解説記事
4.現在の日本/日本語のLinked Data

ここでは日本において大規模にLODあるいはRDFを公開している例をいくつか取り上げる。

4.1 理化学研究所のDB

理化学研究所が運営している公開DBサービスであるサイネス(SciNetS.org)においてはすべてのデータがOWL/RDFとして利用可能である。バイオ系を中心に現在100個以上のデータベースが登録されている。全インスタンス数は約900万件、データサイズは約11TBである。また、サイネスを使って国際的なデータ連携のプロジェクトが行われている(例:マウス表現型データの国際共有化/InterPhenome )。
サイネスではバイオ研究者が求める検索を実現するために通常のSPARQLエンジンではなく、統計処理機能を拡張した独自開発の検索エンジン(GRASE)を採用している。また、RDFのままではウェブブラウザやJavaScriptが直接処理しにくいという欠点を補うために、簡易な方式でも同じデータにアクセスできるようSemantic-JSONというインタフェースを提供している 。Semantic-JSON APIではすべての情報にIDがつけられ、データ取得の指示(命令)とこのIDを含んだURIをサーバに投げることでデータを取得する。このAPIは各種言語(Ruby, Perl他)のライブラリとして用意されており、さらにはこのサイト上でスクリプトを書いて実行する環境も用意している。

4.2 ライフサイエンス統合データベースプロジェクト
大学共同利用機関法人 情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS)では様々なアプローチでバイオデータのセマンティックWeb化を進めている。例えば各種ライフサイエンス系のWebサービスの標準的な方法でアクセス可能にするTogoWS では出力をRDFとして得られるようにしている。DDBJ-PDBj-KEGG RDF化プロジェクトではタンパク質データベースPDBjのRDF化などを行っている。他にも小規模用データベースシステムTogoDBではRDF出力をサポートする予定である。
またDBCLSではバイオ系におけるプログラミング技術の向上と知識共有のために、合宿形式で行うDBCLS BioHackathonを主催している。そこではバイオ系のデータに対するセマンティックWeb技術を適用したプログラミングも行われている。

4.3 国立国会図書館のNDLSH
図書館の世界ではいま世界的に急速にLinked Data化が進んでいる。LOD クラウドの右上にpublication関係が集まっているが、そのなかでも図書館に関係するLODはLCSHを中心にまとまっている。LCSHはアメリカ議会図書館の件名標目表(subject heading)のことである。件名標目とは図書を分類するときの統制語彙で、多くは階層的な構造をもっている。各国の中央図書館は自らの管理する件名標目や著者名典拠や書誌をLinked Data化して公開をはじめている。
日本では国立国会図書館が自らが管理する国立国会図書館件名標目表(NDLSH)をLinked Data化して公開をはじめている 。規模としては約130万tripleである。またSPARQL endpointも用意されており、おそらく日本で最初の実用的なSPARQL endpointである。図3にSPARQLでのquery例を示す。
データ構造は単純で基本はdctermsとSKOSを使ったもの樽。SKOSは元々図書館系の情報構造に基づいているので相性はいい。対応するLCSHがある場合は rdfs:seeAlsoでつなげている。
日本語特有の問題としては「読み」がある。読みというのは他の言語には存在しない。しかし日本語のデータにおいては重要な要素である。NDLSHにおいては独自のtranscriptionというタグを定義してそれをタイトルの下部構造として埋め込んでいる。これはタイトルに限らず他のリソースでも読みが存在しうるので、統一的構造としてはわかりやすい。反面、ブランクノードを含む構造になり利用側では注意が必要である。

4.4 国立情報学研究所のCiNiiおよびKaken
国立情報学研究所が提供するデータベースサービスでは通常のHTMLによるデータ提供に加えてRDFによるデータ提供もはじめている。
CiNii は国内論文の書誌および本文検索サービスであり、現在、1300万件以上のデータを提供しており、月間6億以上のアクセスのあるサイトである。CiNiiにおける主要な情報オブジェクトは書誌情報と著者情報であるが、主に書誌情報をRDFとして提供している(著者情報のRDFは簡易版)。その例を図4に示す。HTMLのURL+”.rdf”のURLとしてアクセスできる。基本的にはdctermsとPRISM(The Publishing Requirements for Industry Standard Metadata), foafを組み合わせて表現している。日本語と英語の混在については言語タグ(enとjp)をつけて、別のリソースとして扱っている。
Kakenは文部科学省科学研究費補助金の報告書のデータベースである。主な情報オブジェクトは報告書と研究者で、件数にして100万件程度の報告書および18万人程度の研究者がデータベース化されている。メタデータとしてはタイトルなどにdcterms、人物情報にfoafを使うもののの他は独自のタグを定義して使っている。RDFへのアクセスはhttpのcontent negotiationを使ってできるようになっている。実験的にSPAQLエンドポイントを構築している。このDBでは研究者名でDBLPおよびキーワードでDbpediaとリンクが張られている。

4.5 lod.acプロジェクト
このプロジェクトは情報・システム研究機構 新領域融合研究センターのプロジェクトの一環として「学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構築」と題目で実施しているものである。日本における学術に関するデータをLinked Dataの方式で公開・共有するということを実践的に実施して、実践を通じてのプラットフォームつくりと構築知識の獲得を目的としてる。

(1)美術館・博物館情報

その最初の対象は分散かつ未統合のデータのテストケースとして美術館・博物館情報の統合とした。日本における美術館・博物館の情報は各館が独自に所蔵品情報を公開する程度で情報の統合が行われていない。そこで本プロジェクトで日本全国の美術館・博物館情報をLinked Dataとして共有して統合できる仕組みを作ることにした。このような試みはヨーロッパではEUのプロジェクトとしてEuropeanaというものが行われている 。EuropeanaではEU27カ国の博物館の収蔵情報を統合して扱えるサービスを構築している。Europeanaにおいても一部の情報をLinked Dataして提示する実験システムを公開している。
LOD Museum(仮)では美術シソーラス[2]、作品データベース、個別美術館・博物館といった異なる情報源からの情報を統合して構築される。このようなそれぞれが自身の情報のオーソリティであるような複数の情報源を統合す るときには、どのようにデータを統合するかという統合ポリシーが必要である。今回はオーソリティ統合に関して次にような原則を用意した。
1. 自分がオーソリティをもつ情報オブジェクトは自らIDを付与して管理する
2. 他の情報源がオーソリティを持つ情報オブジェクトはそのIDを流用した独自の情報オブジェクトとして記述する。
3. 自分がオーソリティを持つ情報オブジェクトから他の情報源がオーソリティを持つ情報オブジェクトとは参照関係(owl:isPrimaryTopicOfまたは他のプロパティ)で結ぶ。
このような構造にしたのは、オーソリティの異なるデータをその違いを残して管理するためである。データの追加や更新においてこの違いを保持しておくことは重要である。
LOD Museum(仮)では作品、作者、所蔵館が基本の情報オブジェクトであり、それぞれを一元的にIDをつけて管理する。しかし、LOD Museum(仮)が生成した情報オブジェクトはIDと最小限の記述した持たず、これらに関して外部の情報源から取り込んだ情報はそれぞれ別の情報オブジェクトとして記述される(図5参照)。例えば、ある作品に関する情報は2個以上のowl:isPrimaryTopicOfでつながった情報オブジェクトの和として表現される。
それぞれのメタデータは、dcterms, foaf, NDLSH, CIDOC CRMといったメタデータから必要な項目を抜き出したタグを集めて構成した。このメタデータでは作品の詳細なデータを記述するのではなく共通性のある属性を列挙している。なお美術関係においては作者名義は作者とは別に重要である。LOD Meseum(仮)では作品には作者名義と作者を(もし違えば)別のプロパティで表現し、作者情報においてはfoaf:nickで作者名義を記述するようにしている。
日本語に関しては、作品名や作者名等は基本的に言語タグ(@ja-hani, @ja-hrkt等)を用いて同一プロパティにを多重に値を与えて表現する。

(2)ことば、事典情報
先に述べたようにDbpedia汎用的なリソースがあると参照先として使えるのでLOD化を進めやすい。そのために、まず日本でのことば、用語を集めてリソースとして参照できるサイト「ことはぶ」 を用意した。「ことはぶ」は各種辞書・事典(Wikipedia, はてなキーワード、ニコニコ大百科(仮), Yahoo!百科事典等)の掲載語を集め集約してRDFによって記述したものである。NICTで実施された日本語化されたWordNetも含まれている。集約の結果、約225万語あった。個別のリソースごとのRDFあるいはSPARQLエンドポイントとしてアクセスできる。
またWikipediaのinfoboxを利用したLOD化は東京大学の中山浩太郎氏と共同で日本語版Dbpediaを開設する予定である。

5.未来に向けて
本章では日本におけるLinked Dataに関わる活動を紹介した。まだ個別の取り組みにとどまっており、大きな動きになっているとはいえない。しかし、国内においてもオープンガバメントの動きがでてきたように 、海外の動きに合わせて大きく変化することも考えられる。そのときに備えて国内においてもコミュニティをつくり技術や情報の共有を進めるべきであろう。

謝辞

本稿をまとめるに当たって、lod.acプロジェクトでの議論が大変参考になりました。とくに大向一輝氏(NII)、加藤文彦氏(NII)、嘉村哲郎氏(総合研究大学院大学/東京芸術大学)、濱崎雅弘氏(産総研), Tran Duy Hoang氏(NII)には感謝いたします。また該当項目においては豊田哲郎氏(理化学研究所)、中尾光輝氏(DBCLS)にご教授いただきました。感謝いたします。

日本におけるLinked Dataの課題と現状(その2)

2010年10月29日 | 解説記事
3.日本におけるLinked Data化の課題

LOD活動はヨーロッパおよびアメリカにおいて盛んであり、単に情報研究者の活動の域を超えて、個々の分野の専門家や政府などの組織を巻き込む活動になっている。
残念ながら日本ではさほど活動的であるとはいえない。それはなぜなのか、その解決はあるのかというのは本節で述べる。ここで「日本」と呼んでいるのは、日本国内の活動and/or日本語での活動をさしている。もちろんLODは本質的にグローバルであり、こんな区分は本質的でないが、現状を把握するためにはあえて分けて考えてみる。

3.1.情報公開・共有の文化
日本の社会、ことに組織においては前節で説明したような情報公開・共有の重要性は十分に理解されているとはいえない。情報循環は情報の公共性を維持することであり、情報公開・共有はその情報循環を実現する要素として重要であるということが理解されていなければ、情報公開・共有はリスクだけが強調され、実際に自らの情報を公開・共有することができない。ことに公共セクターである組織のほうがより消極的なことが多いのは残念である。
これは日本の社会の文化的背景によるのか断言はできないが、いずれにしろこの点から変えないと継続的・持続的な情報共有は実現できない。これはLinked Data実現以前の問題であるが、とくにLinked Dataにおいては大規模なデータを持つ組織および公共セクターの能動的な参画が重要であるので、Web化よりこの点が効いてくる。
なお、政府系でも必ずしもどこも消極的というわけではない。国民への情報提供を主たる業務とするような組織は情報公開をより効果的にする手段として利用しつつある。第5章で触れた国土地理院は実質的に制限をつけずに情報の再利用を許しているし、4節で述べる国立国会図書館や国立情報学研究所も新しい公開手段として利用しつつある。
なお、政府系に関しては第4章で述べたようにオープンガバメントの動きが出ているので、より積極的に変わるチャンスがあると期待している。

3.2 コミュニティの未成熟
Linked Data実現には単に情報のネットワークだけではなく、人のネットワークも必要である。
Linked Dataはその性質からして異なる情報源からの情報が相互につながってこそ価値が出る。またデータそのものは各領域にあるので、単に情報研究者・技術者だけでなく領域の研究者・専門家の参画する必要がある。Linked Dataはまだ発展途上であり未解決な問題が多々あるので、このような人々が適宜インフォーマルにコミュニケーションをとって解決していかないといけない。
欧米を中心とするコミュニティではメーリングリストで小さい問題から大きな問題まで盛んに話し合われている。また分野ごとのコミュニティも形成しつつある。残念ながら国内ではこのようなコミュニティはまだ未形成である。これは筆者を含む本領域の研究者・専門家の宿題ではある。
なお、4節で触れるバイオサイエンス系はデータの性質上国内というよりは国際的な関係が重要であり、国際的コミュニティに加わることでLinked Data化が推進されている。
国内ではまだ大きな動きとはいえないが、google groupにはLinkedData.jpというものが作られ、少しづつ状況は変化している。4節で説明するLod.acプロジェクトでは美術館・博物館情報のLinked Data化を進める中で、地域のNPOとの連携も始まっている。

3.3 中心的データの欠如
LOD クラウドをみて明らかなのはDbpediaがLOD クラウドの中心になっていると言うことである。LODにおいては様々な情報源同士が相互にリンクしあえるのであるが、そうはいってもデファクト的につなげることができるサイトがあれば、自身の情報のLinked Data化するときの目標を定めやすい。いわば“参入障壁”を低くすることができる。それがDbpediaである。Dbpediaはオンライン百科事典WikipediaをLinked Data化したものであるので、極めて広範な領域をカバーしている。たいていの分野で何らかの関係性をみいだすことができる。LODにおいてDbpediaは極めて重要で、現在のLOD活動はこのDbpediaの公開に始まると言っても過言ではない。
このDbpediaは日本語リソースとして使うには問題がある。Dbpediaは英語版Wikipediaを使っている。Wikipediaの各ページに相当する資源にはWikipediaの言語リンクを利用して多言語のラベルがつけられているので、日本語のラベルは存在する。しかし、Wikipediaは各国語版で大きく構成が異なるので、日本語のLinked Dataには適切とはいえない。
これに関してはlod.acプロジェクトでは、日本語のリソースを増やすために多様な種類の辞典・事典から用語を抜き出してリソース化した「ことばぶ」というものを開発している(4節参照)。

3.4 日本語のリソースの記法
より技術的な課題としては、資源のURIに日本語を使うどうかという問題がある。クラス名やプロパティ名に日本語を使うか、あるいはそれに相当する英語名を使うかということである。URIの場合アスキー文字のみであるが、IRI(国際化URI, Internationalized Resource Identifier)[RFC3987]に基づけばunicodeで書いた日本語文字列を含めることができるので技術的には可能である。しかし、それだけで問題が解決するわけではない。
まずリソース名に日本語を混ぜることのメリットしては、
(1) 既存のデータ構造を流用できる
(2) 了解性(少なくとも日本人には)
(3) 同一性(翻訳による揺らぎがない)
ということが挙げられる。逆にデメリットは
(1) 関係システムが技術的に処理可能か不明(IRIに対応できていない)
(2) 日本人以外には意味不明
(3) 国際的なスキーマと合わせると英語・日本語が混交して不自然
ということが挙げられる。一方、元々日本語を使ったデータ構造を英語化して記述するとなると、メリットしてはこの反対であり、
(1) 技術的に安心(すべてのシステムが処理可能)
(2) 了解性
(3) 他の国際的なスキーマとスムーズに結合
ということになる。一方のデメリットしては
(1) 翻訳の必要、同一性の担保が難しい
ということがある。
Linked Dataは国際的に流通するものであるという点においては、英語化したほうが適切だといえる。しかし、Linked Data化されるものが常に国際的に流通を意図しているというのもおかしな話である。日本国内で流通することに意味があるものもある。そうであれば必ずしも英語化にこだわる必要はない。むしろ英語化がLinked Data化の障害になるようならば、元々のデータで使われている日本語そのままでLinked Data化で十分である。例えば4節で取り上げるもののうち、バイオサイエンスにおいては前者であり、日本語Dbpediaでは後者である。
中間的方式としては、英語化したリソースに日本語のラベルを張るという方法 や英語と日本語で2重にリソースを記述するなどの方法も考えられる。
現状では、データの性質を鑑み、方法を定めるということになろう。
なお、もうひとつの日本語特有の問題は「読み」であるが、これは4節で取り上げる。

日本におけるLinked Dataの課題と現状(その1)

2010年10月29日 | 解説記事
(現在執筆中の解説記事の草稿です。乞ご意見、コメント)

1. 私たちのLinked Data?
Linked Dataはデータの共有の新しい方法として欧米で認知され、実践が進んでいる。日本においてはどうだろうか。セマンティックWeb自体の未普及もあって、まだ認知すらされているとはいえない状況である。日本においてもLinked Dataは可能のだろうか。いやそれ以前にそもそもLinked Dataは日本に必要なのだろうか。
本稿では日本におけるLinked Data化活動を概観する。
まず、前提としてなぜLinked Dataが必要なのかから考察をはじめる。情報共有の問題である。これはLinked Dataだけに関わる問題ではないのだが、Linked Dataというのは情報共有の新しい世界である以上、避けて通れない。その上で、日本あるいは日本語固有の課題を挙げ、どのような解決法があるか考える。最後に具体的に大規模なLinked DataあるいはRDFを提供している活動を取り上げ、説明する。

2.Linked Dataの社会的意義
当たり前のことだが、Web技術の発展の先にLinked Dataがある。その重要性は情報技術者や研究者にとっては比較的わかりやすいが、社会的意義をきちんと説明できないと、広く公開のデータをつくろうというLinking Open Data(LOD)活動は参加者や理解者を増やすことができない。そこで本節ではまずWebの社会的位置づけから考えることで、まぜLODが社会的な意義があるかについて述べる。

2.1.情報循環としてのWeb
Webの社会的意義とは、情報の社会的循環の大規模化・高速化こそが情報の価値を高めると言うことを実践的に知らしめた点である。
情報というのは単に作られただけでは価値がない。当然、他の人たちに伝達され、利用されてこそ価値が生まれる。ある人によって他の人の情報に基づき新たな情報が作られ、それがまた他の人に使われて新しい情報が作られる。この循環こそが我々の社会での情報を豊かにさせてきた源泉である。個人的な情報伝達手段しかなかった時代には、利用・創造-伝達-利用・創造-…という単純なものでしかなく、極めて遅く小規模なものであった。
マスメディアの登場により公共的な情報循環が始まった。すなわち、利用・創造-公開-収集-共有-利用・創造-...となった(図1参照)。個人的な情報伝達に比べ、格段に速く規模も大きくなった。この仕組みにより多くの職業的情報創造者(ジャーナリスト、作家、作詞者、作曲者等)が生まれた一方、情報を公開できる人間はそういった職業的情報創造者やメディア関係者に限られており、情報循環への関与という点では偏っていた。すなわち情報を創造して公開できるのは一部の人々であり、多くの人々は単に利用者でしかないという偏りである。
Webはこの偏りを直す仕組みを提供した。すなわち、だれでも自らの情報を公開し共有することができる。無料あるいは極めて低料金で自らの情報を他者に利用可能な形で公開することができる。また公開された情報は一元的なコントロールなどをうけることなく自由に共有され、自由に利用することができる。この結果、情報循環はかつてないほど多数の参加者により大規模かつ高速に行われるようになった。

2.2.情報循環としてのセマンティックWeb
このように情報循環に新しい時代をつくったWebであるが、さまざまな課題も生まれてきた。その中の一つがデータのコンピュータでの利用である。
Webの仕組みは当然のことながらコンピュータとコンピュータネットワークによって実現されている。しかし、情報循環には人間が関与することが前提になっていて、コンピュータにはあまり適切でない。顕著なのがHTMLで、HTMLによる情報の構造は人間が理解するために使われており、これだけではコンピュータがそこに書かれている情報を適切に処理することができない。
その克服のための仕組みがセマンティックWebである。セマンティックWebは人間とコンピュータ双方が情報の内容をより多く理解でき共有できるように、情報の意味を与える仕組みを用意している。それがセマンティックWeb言語であるRDFSやOWLである。

2.3.情報循環としてのLinked Data
Linked Dataはセマンティック Webのうち、個別の情報(インスタンス)を重視して情報公開・共有を行うというものである。セマンティックWebの構想はいくつかの階層からなる。図2は最も初期のころのセマンティックWebの階層である。このうち、研究としては下位から上位へ、すなわちRDF記述のレベルからオントロジーへ、そしてさらに上位へと進んでいる。
しかし、言語が整備されたとしてもオントロジーを実際構築して共有していくのは大変なことである。オントロジーが広く共有されていれば、それに基づいた情報の共有は容易になる。しかし、それを待っていてはなかなか
進捗しない。
Linked Dataではオントロジーの共有はひとまずおいておき、まずはデータの共有をしましょうというところに特徴がある。それがTim Berners-LeeのいうところのLinked Dataの3原則(1章参照)である。概念レベルのオントロジーの共有は一朝一夕ではできないが、個別のデータの共有は比較的容易だと言うことである。これがLinked Dataの狙いであり、実際大きな勢いでデータが増えている。

2.4 情報循環としてのLOD
Linking Open Data(LOD)はLinked Dataとして情報を共有していこうという活動である。Linked Dataの性質として相互につながってこそ意味があるので、そのつながりを集めて公開することでデータの利用を促進したり、より多くの参加者を集めようとしている。
LODにおいて公共セクターは重要な部分である。というのは元々公共セクターの情報は国民・市民に公開されている情報である。当然公開された情報は利用されることを期待されている。Web以前は紙媒体や限定されたデータベースとして公開していたが、Web以後はHTMLやPDFで公開されるようなった。しかし、HTMLやPDFで公開された情報はデータとしての利用は難しい。個別の処理をしないと、そこから必要なデータを抜き出すことができない。Linked Dataの形式でデータを公開することで、こういった個別の処理なしでデータを利用可能になる。
また、公共セクターは社会において重要かつ大量のデータを抱えている。もちろんプラバシーや国家機密に関わることはそもそも公開情報でないので除外するとしても、それ以外にも大量の情報を抱えている。この情報をLinked Dataの情報循環に入れることは、情報循環が前提の社会として、必須なことといえよう。すなわち公共セクターはLODに情報提供をすることで情報循環のインフラを支えることが期待されている。
もちろん個別の企業や団体の情報も社会的な価値を多く持っている。その多くの情報の価値は社会における情報循環によって支えられている。とすれば公開可能な情報はむしろより利用されやすい形式で公開することがその価値を上げることになる。その仕組みとしてLODを使うのは企業的にみても十分意義のあるものであると考える。

Webにおけるアイデンティティとセマンティックスの表現と利用 (草稿) (その5)

2009年05月02日 | 解説記事
7.まとめ
本稿ではWeb上のアイデンティティをどう表現して、どう利用するかという問題について、システムレベルの取り扱いから具体的な事例まで幅広く紹介した。
Webにはグローバルかつ分散的にidentifierのユニーク性を保証するURIという強力な仕組みがある。一方で分散的であるがゆえに容易にアイデンティティの重複や不整合が起こりうる環境でもある。現状はその間で個別の解決法を探している状態である。
Linked Dataの試みは将来エンティティのアイデンティティが多数作られリンクされる世界がくることが予感させる。ただ、そのためは技術的チャレンジがまだあり、その解決がこれからの課題である。

◇参考文献◇

[Hayes06] P. Hayes, H. Halpin, and H. S. Thompson (eds), WWW2006 Workshop on Identity, Reference, and the Web (IRW2006), Edinburgh, Scotland, May 23rd, 2006. http://www.ibiblio.org/hhalpin/irw2006/
[Bouquet07] P. Bouquet, H. Stoermer, G. Tummarello, and H. Halpin (eds), WWW2007 Workshop i3: Identity, Identifiers, Identification, Banff, Canada, May 8, 2007. (CEUR Workshop Proceedings No-249) http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-249/
[Bouquet08] P. Bouquet, H. Halpin, H. Stoermer, and G. Tummarello (eds), Proceedings of the 1st IRSW2008 International Workshop on Identity and Reference on the Semantic Web (IRSW2008), Tenerife, Spain, June 2, 2008 (CEUR Workshop Proceedings No-422)
http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-422/
[Halpin06] H. Halpin, Identity, Reference, and Meaning on the Web, IRW2006, 2006.
[Booth06] D. Booth, URIs and the Myth of Identity, IRW2006, 2006.
[Booth08] D.Booth, Why URI Declarations? A Comparison of Architectural Approaches, IRSW2008, 2008.
[Halpin08] H. Halpin, The Principle of Self-Description: Identity Through Linking, IRSW2008, 2008.
[URI01] URI Planning Interest Group, W3C/IETF, URIs, URLs, and URNs: Clarifications and Recommendations 1.0, Report from the joint W3C/IETF URI Planning Interest Group, W3C Note 21 September 2001, http://www.w3.org/TR/uri-clarification/
[Ayers08] D. Ayers, M. Völkel, Cool URIs for the Semantic Web, W3C Working Draft 17 December 2007, http://www.w3.org/TR/cooluris/
[Manola04] F. Manola, and E. Miller, RDF Primer, http://www.w3.org/TR/rdf-primer/, 10 February 2004
[Brickly04] D. Brickley, and R.V. Guha, RDF Vocabulary Description Language 1.0: RDF Schema, http://www.w3.org/TR/rdf-schema/, 10 February 2004
[Smith04] M. K., Smith, C. Welty, and D. L. McGuinness, "OWL Web Ontology Language Guide". W3C. Retrieved on 2008-07-15. http://www.w3.org/TR/owl-guide/
[市瀬07] 市瀬龍太郎, 情報の意味的な統合とオントロジー写像, 人工知能学会誌, Vol. 22, No. 6, pp 818-825, 2007
[McIlraith01] S. McIlraith, T.C. Son, and H. Zeng, Semantic Web services ,. IEEE Intelligent Systems. Special Issue on the Semantic Web. 16(2):46-53, March/April, 2001.
[Bernes-Lee06] Linked Data – Design Issues, Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html
[Shakya08] Aman Shakya, Report on LinkedData Planat Conference, 第18回セマンティックWebとオントロジー研究会, A801-07, 2008
[Carroll04] J.J. Carroll, C. Bizer, P. Hayes, and P. Stickler, Named Graphs, Provenance and Trust, Technical Report HTP-2004-57, Hewlett Packard Labs, 2004.
[蔵川08] 蔵川圭,武田英明,高久雅生,相澤彰子, 研究者リゾルバーαのコンセプト, 第36回ディジタル図書館ワークショップ, 2008
[Kurakawa 09] K. Kurakawa, H. Takeda, M. Takaku, and A. Aizawa, Researcher Name Resolver: A framework for researcher identification in Japan, The 4th annual international Open Repositories Conference (OR09), 2009 (to appear).

(おしまい)

Webにおけるアイデンティティとセマンティックスの表現と利用 (草稿) (その4)

2009年05月02日 | 解説記事
アイデンティティ統合の一例:研究者リゾルバー
RDFSやOWLで記述されたサイトであれば前章で述べたようにLinked Dataの方法で比較的容易に複数のアイデンティティを横断的に使ったサービスを実装できる。しかし、現実のWebではRDFSやOWLで作られたLinked Dataで満たされているわけではなく、通常のWebサイトが多い。とはいってもアイデンティティを提供しているサイトは数多くあり、それを横断するようなサービスが求められている。閉じた世界のみでアイデンティティを持った情報を表現・利用させるこれまでのサービスと異なり、Web上のサービスでは他のサービスと同時に利用するのは自然であり、一つのアイデンティティに複数のアイデンティティがあれば統合したいというのも自然の要求である。
以下ではこのような複数アイデンティティを統合するサービスの実装例として筆者の所属する国立情報学研究所で試行サービスを行っている「研究者リゾルバー」を紹介する。
「研究者リゾルバー」試行版 [蔵川08][Kurakawa 09]では、異なるサービスで公開されている同一の研究者の情報のページをリンクづけるサービスである。サービスとしてはIDで統合できたリンク(各大学の研究者総覧やJST ReaD)および名前や所属の検索によるリンク(Google Scholarなど)の両方を提示し、ワンクリックでそれらの該当ページにいけるようになっている。
このサービスは単にユーザがみて各研究者の情報が集約して閲覧するサービスだけではなく、外部システムがこのサービスを通じて異なるサイトにおけるアイデンティティを横断的に利用できるサービスとして利用されることを意図している。
このケースにおけるアイデンティティ問題とはどんな特徴があるだろうか。このケースでは先の2つのエンティティの曖昧性(「明けの明星」「宵の明星」問題、前章における「GeoNamesとWikipediaのTokyo」問題)は存在しない。それは対象が人物であるからではなくて、研究者という役割がアイデンティティを規定しているからである。一般に大学等の研究者においては、研究という場では自己の活動が自分に帰することが本人からみても周囲からみても当然とされている。この点においてアイデンティティに曖昧性がない。同じ人物を対象としても、著作者一般にするとペンネームの問題、グループ著作の問題など、曖昧性が発生する。したがってケースでは比較的単純なアイデンティティ統合問題として解くことができる。
このサービスにおけるアイデンティティ統合のデザインは次のようになっている。
(1) 基本ID集合の設定
このサービスでは国立情報学研究所が公開している科学研究費補助金採択課題・成果概要データベース に登録されている報告書における研究代表者および研究分担者を研究者の基本データベースとして利用している。このデータベースの研究者情報には文部科学省が付与する科学研究費補助金申請時に必要となる研究者番号が含まれている。この番号は原則として一人の研究者に一つの番号が割り振られる 。この番号を手がかりに研究者を同定する。このため同姓同名である人物も別のエンティティとして認識される。約15万人の研究者が同定されている。
(2) 他のID集合との関連づけ
大学や各種研究組織では研究者総覧としてその所属研究者の情報をデータベース化して公開していることが多い。個別の研究者総覧においては研究者のアイデンティティは保証されているが、これと(1)のID集合とのマッチングをどうとるかが問題となる。
研究者リゾルバーのID集合と他のID集合とのマッチングのために,氏名表記だけでは同定のための必要十分条件ではない.ここでは,以下のように2つのルールに基づいて同定を試みている.
1. 漢字氏名の一致 ∧ 所属の一致 ∧ 所属内でユニーク名であること
2. 科研費研究者番号の一致
科学研究費補助金のデータベースから,科研費研究者番号に紐づけられた最終報告書時の所属機関名が取得できる.所属機関の中でユニークな氏名であれば同一人物として判定する .研究者総覧には,科学研究費補助金研究者番号をデータとして持っているものがある.番号が一致した場合,氏名表記は所属に関する情報とは関係なく,完全に同一人物であると判定する.現在は47大学の研究者総覧を対象として同定を試み,22,311人,全体の約15パーセントの研究者ページにリンクが張られている。
現在は基本的に研究者リゾルバーから研究者総覧へのリンクであるが、一部の大学ではすでに研究者総覧から研究者リゾルバーへのリンクも張られるようになっている。
今回の実装では、ID同定はある時点でのデータに対して一括処理として行った。しかし、リンク元のデータベース(研究者リゾルバー)もリンク先のデータベース(各大学の研究者総覧)も時間とともに変化する。今後はシステム同士でID登録情報を交換することで、変化に対応できる仕組みを用意する予定である。

(続く)


Webにおけるアイデンティティとセマンティックスの表現と利用 (草稿) (その3)

2009年05月02日 | 解説記事
5.RDFが作るLinked Dataの世界
前章でみてきたようにURIを中心にエンティティのアイデンティティをWebの世界で表現できる。とくに説明情報をコンピュータ可読の情報とすることでコンピュータが処理可能な世界を作ることができる。その記述方法としてRDF(Resource Description Framework) [Manola04] [Brickly04]およびOWL(Web Ontology Language) [Smith04]を用いることが増えている。
RDF(およびOWL)でエンティティの記述を表現するとは、オントロジー上の概念(これもまたエンティティである)や他の個体(individual)を示すエンティティとの関係でそのエンティティの記述を行うことである。特に他の個体のエンティティとの関係を記述することは、HTMLページで他のHTMLページに対するリンクを作ることに相当する。通常のHTMLページがつくるWebがWeb of Documentsであるならば、RDF記述がつくるWebはWeb of Dataであるといえる。
このようなRDFがつくる情報のネットワークをLinked Dataと呼び、近年Webで急速に普及している。
なお、Linked Dataは基本的に個体に関する情報を取り扱う。個体でなくオントロジー上の概念間に関連づけはオントロジーマッピングという形で研究されている。この問題には今回は触れないので、興味のある方は[市瀬07]を参照されたい。
また動的なデータに関してはセマンティックWebサービス[McIlraith01]の枠組みを使うことも考えられるが、まだきちんと考察されている例は少ない。ここでは静的なデータのみを考える。
5.1 Linked Dataの現状
Webの創始者であり、現在World Wide Web Consortium (W3C)のdirectorであるTim Berners-LeeはLinked Dataを次のように定義している[Berners-Lee06]。
(1) 事柄の名前にURIを使うこと
すべてのモノ,コトにURIを!
(2) 名前の参照がHTTP URIでできること
URNとか独自のプロトコルは使わないように
(3) URIを参照したときに関連情報が手に入るように
理解可能なデータを提供するように
(4) 外部へのリンクも含めよう
Webのようにリンクでつながるデータを作ろう

現在,Linked Dataがどんな状況であるかを図2に示す.この中でDBpedia (http://dbpedia.org/)というのはWikipediaの情報のうち,infoboxの情報を中心に機械的に抜き出し,RDFのデータとして書きだしたものである.現在,約1.1億RDF文が公開されている.またこの中の地名に関してはGeoNamesというデータの相互にリンクがある.GeoNames自体は約7千万文ある.この関係は図中で相互リンクとして書かれている.
この例でもわかるようにLinked Dataは名前の通り相互にリンクしあうからこそ価値がある.そのためにデータはオープンであることが望ましい(必須ではないが).そこでオープンなLinked Dataを普及しようというプロジェクトLinking Open Data Project (http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData)がW3Cのメンバーらで行われている.
このようにRDFデータが相互にリンクしあうことで巨大なデータ空間を作っている.そうするとこのデータを使うアプリケーションが可能になる.
例えば,SemaPlorer (http://btc.isweb.uni-koblenz.de/)はGoogle mapを中心にDBpedia, Geonames, flickrデータをマッシュアップして作られている.そこでは単にデータを結合して検索する以上のサービスを提供している.
またすでに”Linked Planet Data Conference”と呼ばれるビジネスカンファレンスシリーズ が開かれるようになっている [Shakya08].

5.2 アイデンティティ利用としてのLinked Dataの問題点
Linked DataはWebである以上、分散的である。このことはアイデンティティの表現と利用において二つの問題を提起している。これはWeb特有というより分散システムがアイデンティティを取り扱うときに生じる一般的な問題であると思われる。
(1) エンティティの同一化
分散的に管理されている以上、同一エンティティを二つの異なるサイトがアイデンティティを与えることがあり得ることである。このとき、Linked Dataではowl:sameAsという述語で二つのURIが同一であるということ指示する。こうすることでコンピュータが異なるサイトにあるRDFSやOWLで書かれた情報を統合して解釈して推論することができる。
しかしこれは様々な問題を引き起こす。「明けの明星」と「宵の明星」の同一性に例示される古典的なフレーゲのパズルに相当する。一度、同一化してしまうとこの先、区別がつかなくなる。例えば、GeoNamesにおけるTokyoとDBpedia (Wikipedia)におけるTokyoを同一化したとする。しかしGeoNamesにおけるTokyoは純粋に地理的な存在としてのTokyoであり、WikipediaのTokyoはより幅広い意味でのTokyoの記述である 。
異なるサイトのエンティティが厳密な意味で同一であることはまれであろう。しかし、実用的な意味では同一化したいケースが多い(でないとLinked Dataは存在し得ない)。単にowl:sameAsで結びつけるだけは解決できない。
(2) どの記述を採用すべきか
誰かがあるエンティティをURIとして公開したら、そのURIを他の人が使うことは許されている。むしろ積極的に使おうというのがLinked Dataの精神である。すなわち、様々な人がRDF等を用いてエンティティに関する記述をする。例えば、ソーシャルブックマーキングでは一つのエンティティの多数の人々が記述を追加している。
このときに間違った記述、矛盾する記述が含まれていたときにどうしたらよいであろうか。
まず考えられるのはそのエンティティ登録の持ち主の記述を信じるべきであろう。URIを参照(dereference)したときに得られる記述があれば、たぶん持ち主の記述であろう。持ち主の記述がない場合、信頼すべきサイトを優先すべきであろう。
しかし、現在のRDFSやOWLには記述の持ち主という概念がない。これはNamed Graph [Carroll04]など別の仕組みが必要である。またサイトの信頼性をはかるというのは現在でも難しい問題である。
通常のWebであれば人間が読んで判断することでこの問題を回避しているが、Linked Dataではコンピュータが処理するので、この問題は回避することができない。

(続く)

Webにおけるアイデンティティとセマンティックスの表現と利用 (草稿) (その2)

2009年05月02日 | 解説記事
3.Webにおける意味、参照、アイデンティティ
それではWebにおける、定義、参照、参照されるエンティティとはなんであろうか。
WebにおいてあるURIが何を指しているか?一見自明な質問である。そこにアクセスして得られるWebページが指している内容であるという訳である。
初期のWebでは正しい答えであるが、現在では必ずしもそうとはいえない。例えば、
http://mixi.jp/show_friend.pl?id=12345
というURIが仮にあったときにこれはそこに指しているWebページを指している訳ではない。むしろ、その先にあるサービス(この場合はあるIDのmixiのコンテンツをみるというサービス)を指している。この場合は、このURIはまさにIdentifierとして機能を果たしているのであって、そのときにアクセスできたコンテンツを指している訳ではない。
URLがURIとして拡張された意図はまさにこのIdentifierとしての機能を果たすということであった。しかし、URIが意味することが2重になり混乱を生じている。
そこで次のような区別が必要となる。URIが指すものはリソースと総称されるが、そこでこのリソースを2種類に分けて考える。情報リソース(information resource)と非情報リソース(non-information resource)に分ける。前者はそこにあるWebページそのものがコンテンツであるようなものである。後者はWeb上にはそのコンテンツ自体は表現されないリソースである。
情報リソースの場合は、URIはそのリソースのidentifierでありかつそのURIでアクセスできる情報がそのコンテンツである。このリソースの意味はこのアクセスされたコンテンツということになる。前章の言葉使いでいえば、このエンティティは内包的に定義されるといえる。
非情報リソースの場合は、URIはそのリソースのidentifierでしかない。ではそのURIの意味はどうやって知るのだろうか?
一つの方法はそのURIがアイデンティティの確立された外部世界のエンティティを参照することである。ISBN(International Standard Book Number)やデジタルオブジェクト識別子DOI(Digital Object Identifier)がそれに当たる。ISBNは出版物につけられるコードであるが、出版する主体がアイデンティティを決定している 。しかし、その世界でアイデンティティが担保されていれば問題ない。
URN(Uniform Resource Name)がそういったエンティティを表現する仕組みとして用意されている[URI01]。例えばISSN(International Standard Serial Number、国際標準逐次刊行物番号)はIANA(Internet Assigned Numbers Authority)に登録されたISSN-URN Namespaceで規定されるURNである。URNで指し示されるものはWebにおいてもアイデンティティを持つといえる。
外部世界においてはアイデンティティがあるものであれば、URNとして登録しなくてもWebにおけるアイデンティティを持たすことができる。PURLプロジェクト ではそれぞれの持つidentifierをURIに変換するサービスを行っており、簡単にURIとしてのアイデンティティを得ることができる。DOIも同様な方法でURI化されている 。ただし、これらの方法の問題は、Webにおいてエンティティの意味を(一部でも)直接知ることができないということである。
外部世界を参照しているが、そのような一意なidentifierをもっていないエンティティはどうすればよいだろうか。なんらかの内包的定義にあたるものが必要となる。ただし、先の情報リソースと異なり、原理的にも完全に定義することができずあくまで部分的な記述となる 。この点で情報リソースとは本質的に異なる。それゆえ、情報リソースであるか非情報リソースであることが判別できることも必要である。
このような非情報リソースにはリソースそのものではないが、その説明にあたる情報(descriptive information)が付加されていることが望まれる。実はこのことは外部世界にアイデンティティを持つ非情報リソースにも当てはまる。たとえ外部世界でアイデンティティが保証されているといえども、Webからそれがなんであるかが知ることができなければ、結局同じだからである。

4.現在のWebにおける実現
上記の問題は現在のhttpプロトコルやや(x)htmlでは直接的な解決方法は用意されていない。まず情報リソースと非情報リソースの明示的な違いが表現されない。またURIに関する記述情報を付加するプロトコルがないということである。
そこで現在のWebではURIを用いたアイデンティティは次のように実現することが推奨されている[Ayers08]。
① 情報リソースを指すURIにアクセスするときにhttpプロトコルのcontent negotiationを用いて次のように振る舞う。http clientが(x)htmlを必要するときは(x)htmlで記述された情報がURLを、RDFを必要するときはRDFで書かれた情報があるURLを指し示す。
② 非情報リソースを指すURIを参照(dereference)したときはhttpdサーバは200 responseではなく、説明情報のあるURI とともに303 response を返す。303 responseは 3xx response (redirection)の一つで、see otherの意味である 。
まず①により、URIのidentifierとしての機能と指し示すコンテンツを分離している。またコンテンツとして人間向きとコンピュータ向き(RDF)に分けている。非情報リソースを指すURIの場合はそのURIそのものがidentifierの機能だけであるが、説明情報がredirectionとして関係づけられる。説明情報は情報リソースなので①の方式でコンテンツを得る。

(続く)

Webにおけるアイデンティティとセマンティックスの表現と利用 (草稿) (その1)

2009年05月02日 | 解説記事
人工知能学会誌用の解説記事の草稿です。

今回は「WebアイデンティティとAI」という特集の1つです。この特集、とっても意欲的でぜひ一読の価値があります。

***********
1. はじめに
 本稿ではWebの世界においてモノやコトのアイデンティティはどのように表現されるかについて考察する。ここではモノやコトを一括してエンティティと呼ぶことにする。ご承知のようにWebの世界にはURI (Uniform Resource Identifier) というアイデンティティの手段がある。URIは世界中で一意に同定できかつアクセスもできるという強力なアイデンティティの手段である。URIはこれまでにない強力さと便利さをもっていたため、Webの初期にはURIさえあればアイデンティティの問題は解決できるという楽観的見方もあった。しかし、このアイデンティティURI神話というべきものはすぐさま現実の様々な問題に直面した。Webの世界におけるアイデンティティについてどう表現し利用するという問題はそれほど単純ではないことが認識された。しかし、その解決はWebの世界にとって重要なことであり、現在盛んに議論されている。本稿ではこの問題に関する最近の議論を紹介するとともにその中の一つの問題であるアイデンティティ統合について筆者らが取り組んでいる事例を紹介する。
なお本稿の議論は、3つのワークショップ[Hayes06][Bouquet07] [Bouquet08]の議論によるところが大きい。とくにDavid Booth[Booth06][Booth08]とHarry Halpin [Halpin06][Halpin08]の論考は興味深い。興味のある方はこれらのワークショップの論文を直接参照されたい。
まず第2章ではコンピュータがアイデンティティをどのように扱うのかについての枠組みについて述べる。その上で、第3章と第4章では具体的にWebの中でのアイデンティティの表現の仕方について考察する。第5章と第6章ではWebの中でのアイデンティティの利用について述べる。第5章ではLinked Dataというアプローチによるアイデンティティを介したWebの新しい利用法について、第6章では研究者情報サービスにおけるアイデンティティ統合について述べる。
本稿においては人、モノ、コトを区別せずにエンティティとして考察するが、第5章ではその例として人のエンティティを扱う。

2.意味、参照、アイデンティティ
エンティティのアイデンティティを語るにはそもそもエンティティが何を意味しているかがわからないといけない。一般にモノやコトを定義するには内包的な方法と外延的な方法がある。内包的な方法では何らかの公理と他のエンティティを使って個々のエンティティが「定義」される。その定義を満たしていることがそのエンティティのアイデンティティである。もし、内包的な定義が完全にできるならばアイデンティティにおける曖昧性は存在しない。
外延的定義においては実世界(参照される外部の世界)におけるエンティティをもってその定義とする。参照されるべき外部世界が明確であり、またその世界におけるエンティティが明確であり、そして参照が明確であれば、ここにも曖昧性はない。もっともそれは外部世界のアイデンティティ問題に置き換わっただけである。
中間的な定義もあるであろう。一部のエンティティは外部世界の参照によって定義され、一部のエンティティはそれらのエンティティとの関係で示されるといった具合である。実際の問題においては内包的定義のみ、外延的定義のみで完結することは難しく、混在して使われていることが多い。
アイデンティティの問題は、内包的定義(普通にいうところの定義)、参照、参照される外部世界のエンティティという要素に分けて考える必要がある。

(続く)

Webのこれまでとこれから (5/5)

2006年12月29日 | 解説記事
7.社会としてのWebから生じる新しい課題
このような変容を遂げる社会においては様々な新しい問題が起こってくることが予想される.それらを数え上げることは不可能であるが,筆者が思いつくもので二つほど挙げることにする.このほか,地理や国家に基づかない社会構造など本質的な変化が多数起こると思われるが,筆者の手に余るので,割愛する.
7.1.新しい「もの」の存在のあり方
我々の社会は当然ながら実空間を基盤にしていたので,我々の社会にある「もの」(人工物)も当然,実空間に存在するものであった.ところが,社会化したWebにおいては,その社会に存在する「もの」はデジタル的存在するものも含むようになる.むしろ,社会で役割を果たすものの多くはデジタルとしての存在が重要であり,実空間上での存在は付加的な特徴になるであろう.いま,サービス工学[3]あるいはサービスサイエンス と呼ばれるもののサービス化はその端緒である.
当然デジタルとしての存在は前章で述べた複製可能性や永続性といった特徴をもつ.社会はこのようなものの危難の上に再構築される.例えば,近年話題になっているネット上での著作権問題の例でわかるように,Web空間には実空間の法則に基づく仕組みは適用困難あるいは適用不可能である.
我々の産業は多くは実空間のものを媒介として成立している.実空間のものからWeb空間のものへ移行するとき,産業の仕組みが大いに変わることは間違いない.
7.2. 個人のアイデンティティと個人の統合性
個人のアイデンティティもまた大きな変容を受ける.その一つはWeb空間上での多数の分離であり,もうひとつは実空間とWeb空間の間での分離である.
個人は社会が複雑化するつれ分断化をされてきたが,これまでは実空間の存在こそ最終的なよりどころであった. Web空間における個人のアイデンティティはもはや実空間上の存在との関連をもつ必然性はない.むしろ関係を持たないことで新しい活動が可能になる.すると,一人ひとりが複数のアイデンティティを持って活動することになる.個人個人にとって複数のアイデンティティを自分自身で一貫性をとるのか(あるいはとらないのか),自己のアイデンティティは複数におくのか,など新らしい自己像が求められる.また他人とのコミュニケーションも非全人格的人間関係が主流になり,ここでも新しいコミュニケーションスタイルが求められるであろう.
さらには物理的個人という制約が緩まることで,集合的知能という新しい知能の形が模索されるであろう.個人と集団は新しい関係をもつようになると思われる.Web上の社会では個人の知識や知的能力を超えて,計算機や他の人々と一緒になって行う知的活動が可能になるであろう.
4章では社会化するWebとWeb化する社会はほとんど一致すると述べたが,絶対に(少なくともこの10年においては)Web空間と実空間が完全に一致することはない.それは,我々が身体を持ち,この身体に基づいて生活している限り,デジタル化されない実空間の存在は残らざるを得ない.このため自由度の高いWeb空間上の自己と実空間にある自己という二つの乖離が著しい二つの自己を維持していかないといけない.これがもう一つの分離である.ここでも自己の基盤をどこに置くかという問題が起こるであろう.

8. まとめ
本稿ではWebの始まりから現在までを回顧,分析を行い,その上で近未来について考察を行った.後半部分は少々大げさすぎると思われるかもしれない.しかし,冒頭に述べたように社会にWebが浸透してから10年もないにもかからず,我々の社会は大きく変化した.そのことを考えればそれほど大胆ではないだろう.
個人的には楽観的に考えているので,さまざまな新しい問題が起こりつつも,それを克服して社会はより知的になっていくと考えている. ここでいう知的な社会とは人々が個人あるいは集団で様々なことを考え,それを実現していくことが自由かつ容易にできる社会のことである.インターネットそしてWebはまさにそのような知的な社会の実現のための仕組みであり,今後もその方向で発展していくと信じている.

参考文献
[1] 武田英明, 大向一輝:Weblogの現在と展望-セマンティックWebおよびソーシャルネットワーキングの基盤として-, 情報処理, Vol. 45, No. 6, pp. 586–593 (2004).
[2] Tim O'Reilly, What Is Web 2.0 Design Patterns and Business Models for the Next Generation of Software, 2005, http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html (2006年12月28日確認)
[3] T. Tomiyama, Service Engineering to Intensify Service Contents in Product Life Cycles, in Second International Symposium on. Environmentally Conscious Design and Inverse Manufacturing,. Tokyo: IEEE Computer Society, 613-618, 2001.


Webのこれまでとこれから (4/5)

2006年12月29日 | 解説記事
6.社会としてのWebの特徴
社会としてのWebということは,社会に存在するあらゆる要素がWeb上になければならない.人,もの,人やものの関係,社会的活動(生活,教育,ビジネス),コミュニティ,組織,ルール,モラル,法律,犯罪,政治,等々である.社会という視点からみてみると,現在のWebはまだまだその端緒についたばかりだということがわかる.やっと,大勢の人(といっても人口の何割かでしかない),人間関係のほんのすこしの部分,社会的活動のほんのすこしの部分等々.これらの要素はこれから次々と「Web化」されていくであろう.
そうするとWebの様相は大きく変わっていくであろう.Webは今に比べればずっと複雑な構造をもつことになる.Webが普及した理由はWeb文書とリンクといった構造の単純さであり,この特徴はWebからなくなりはしないが,社会的な要素を取り扱うためにはそれだけは済まず,社会のもつ複雑な構造を取り込まないといけない.
そのような世界を想像しがたいかもしれない.しかし,すでにそのような世界は存在している.多くのオンラインゲームの中には既に多数の人々が毎日のように参加して,日夜“生活”している.ある種の社会が形成されているといえよう.図5に示すようにReutersのような実空間の企業が参加もするようになっている .
この中では人々の間のコミュニケーションはもとよりコミュニティの形成,商品売買といった社会活動まで行わなわれている.さらには“犯罪”“不正”も行われるようになっている.集団での待ち伏せといったゲーム世界内の不正から,システムの不備をついた不正アクセスといったサイバー空間ならではの不正,それがRMT(リアルマネートレード)という形で実空間の社会とのかかわりを持つ不正と多様である.このような混沌とした世界が我々がこれから生きるであろう社会である.
さてそのような社会としてのWebはどのような性質を持つのであろうか.現在の社会がそのままWebに移し変えられるわけではない.実空間上の社会はその空間のもつ制約のなかで形成されたものであり,一方Web空間は別の制約をもっている.したがって異なった社会の実現の仕方になるはずである.
Web空間の特徴としては以下のものをあげることができる.まずデータの特徴しては,複製可能,再利用可能,永続性がある.複製可能と再利用可能はデジタルデータの一般的特徴である.永続性は新しい特徴である.Web上の情報は消去が簡単で紙文書より永続性がないようみえるが,現在の傾向からするとむしろ逆で,一度Web上に現れた情報はどこかに保存され,ずっと残りうる .プロセスとしての特徴は,時間非依存,空間非依存,多重化可能,並列化可能,量非依存などが挙げられる.時間や空間に依存しないということははじめからのWebの特徴である.さらに近年の計算機の普及によって多重化や並列化が容易になっている.さらにはGoogleが示したように,近年の計算機の低廉化によって計算資源が潤沢になり,実質的に情報の量に依存しなくなりつつある.
このような情報の取り扱いは実空間ではできなったわけである.当然,このような性質をもつWeb上の社会は実空間の性質に基づく今までの社会とは異なる仕組みをもつであろう.