Takeda's Report

備忘録的に研究の個人的メモなどをおくようにしています.どんどん忘れやすくなっているので.

Webにおけるアイデンティティとセマンティックスの表現と利用 (草稿) (その4)

2009年05月02日 | 解説記事
アイデンティティ統合の一例:研究者リゾルバー
RDFSやOWLで記述されたサイトであれば前章で述べたようにLinked Dataの方法で比較的容易に複数のアイデンティティを横断的に使ったサービスを実装できる。しかし、現実のWebではRDFSやOWLで作られたLinked Dataで満たされているわけではなく、通常のWebサイトが多い。とはいってもアイデンティティを提供しているサイトは数多くあり、それを横断するようなサービスが求められている。閉じた世界のみでアイデンティティを持った情報を表現・利用させるこれまでのサービスと異なり、Web上のサービスでは他のサービスと同時に利用するのは自然であり、一つのアイデンティティに複数のアイデンティティがあれば統合したいというのも自然の要求である。
以下ではこのような複数アイデンティティを統合するサービスの実装例として筆者の所属する国立情報学研究所で試行サービスを行っている「研究者リゾルバー」を紹介する。
「研究者リゾルバー」試行版 [蔵川08][Kurakawa 09]では、異なるサービスで公開されている同一の研究者の情報のページをリンクづけるサービスである。サービスとしてはIDで統合できたリンク(各大学の研究者総覧やJST ReaD)および名前や所属の検索によるリンク(Google Scholarなど)の両方を提示し、ワンクリックでそれらの該当ページにいけるようになっている。
このサービスは単にユーザがみて各研究者の情報が集約して閲覧するサービスだけではなく、外部システムがこのサービスを通じて異なるサイトにおけるアイデンティティを横断的に利用できるサービスとして利用されることを意図している。
このケースにおけるアイデンティティ問題とはどんな特徴があるだろうか。このケースでは先の2つのエンティティの曖昧性(「明けの明星」「宵の明星」問題、前章における「GeoNamesとWikipediaのTokyo」問題)は存在しない。それは対象が人物であるからではなくて、研究者という役割がアイデンティティを規定しているからである。一般に大学等の研究者においては、研究という場では自己の活動が自分に帰することが本人からみても周囲からみても当然とされている。この点においてアイデンティティに曖昧性がない。同じ人物を対象としても、著作者一般にするとペンネームの問題、グループ著作の問題など、曖昧性が発生する。したがってケースでは比較的単純なアイデンティティ統合問題として解くことができる。
このサービスにおけるアイデンティティ統合のデザインは次のようになっている。
(1) 基本ID集合の設定
このサービスでは国立情報学研究所が公開している科学研究費補助金採択課題・成果概要データベース に登録されている報告書における研究代表者および研究分担者を研究者の基本データベースとして利用している。このデータベースの研究者情報には文部科学省が付与する科学研究費補助金申請時に必要となる研究者番号が含まれている。この番号は原則として一人の研究者に一つの番号が割り振られる 。この番号を手がかりに研究者を同定する。このため同姓同名である人物も別のエンティティとして認識される。約15万人の研究者が同定されている。
(2) 他のID集合との関連づけ
大学や各種研究組織では研究者総覧としてその所属研究者の情報をデータベース化して公開していることが多い。個別の研究者総覧においては研究者のアイデンティティは保証されているが、これと(1)のID集合とのマッチングをどうとるかが問題となる。
研究者リゾルバーのID集合と他のID集合とのマッチングのために,氏名表記だけでは同定のための必要十分条件ではない.ここでは,以下のように2つのルールに基づいて同定を試みている.
1. 漢字氏名の一致 ∧ 所属の一致 ∧ 所属内でユニーク名であること
2. 科研費研究者番号の一致
科学研究費補助金のデータベースから,科研費研究者番号に紐づけられた最終報告書時の所属機関名が取得できる.所属機関の中でユニークな氏名であれば同一人物として判定する .研究者総覧には,科学研究費補助金研究者番号をデータとして持っているものがある.番号が一致した場合,氏名表記は所属に関する情報とは関係なく,完全に同一人物であると判定する.現在は47大学の研究者総覧を対象として同定を試み,22,311人,全体の約15パーセントの研究者ページにリンクが張られている。
現在は基本的に研究者リゾルバーから研究者総覧へのリンクであるが、一部の大学ではすでに研究者総覧から研究者リゾルバーへのリンクも張られるようになっている。
今回の実装では、ID同定はある時点でのデータに対して一括処理として行った。しかし、リンク元のデータベース(研究者リゾルバー)もリンク先のデータベース(各大学の研究者総覧)も時間とともに変化する。今後はシステム同士でID登録情報を交換することで、変化に対応できる仕組みを用意する予定である。

(続く)


最新の画像もっと見る