2009年11月のブログ記事一覧-Takeda's Report

毛利さんのディベート

2009年11月14日 | 雑感

研究者にとって気が気ではないので、昨日の科研費が俎上にのっていた「事業仕分け作業＠３」を思わず聞いてしまいました（映像はぼろぼろでみえず）。とにかく「仕分け人」の議論のもっていきかたもひどいですが、対応者の方もぐだぐたで、なんとも悲しいばかりの議論でした。

その中で、科学未来館の毛利さんの議論は出色のものでした。研究者としても大いに参考になりました。日本の議論ではどうしても本論よりも傍論からはいっていくことが多いのですが、毛利さんは冒頭でまずこの理念からはいって、議論が脇へそれていくことを防いでいました。理念も抽象的にならずに具体的で簡潔にして、実践はエビデンスに基づいて一つ一つをかっちり押さえていました。
例えば、毛利氏「東京にあるが、日本全体に向けてやっているものだ（だから国がやっている）」という理念に対して仕分け人「毛利さんがASIMOと地方巡業したらいい」。いかにも論点づらしの指摘。発言者はたぶん毛利氏をやりこめたつもりだったでしょう。これは日本式議論でよく格上がつかう手で、無理無理の指摘をして、苛出せて優位に立とうというものですよね。それに対して「やっています。」とピシといってエビデンスを示す。こうされると相手のやり方がいかにも稚拙に見えてしまいます。僕らだとついこういう議論にのせられてしまうですけどね。それでも懲りずに「私はドイツ博物館によくいくんですが、カップルが多くて．．．」という論点づらしの指摘。毛利氏「科学未来館でもカップルが多数派です。」「いや、女性のカップルが．．．」。実に見苦しい。毛利氏「みなさん、科学未来館に来場したことがありますか？」なんて逆質問をされちゃうわけです。

一般に日本的議論では、結末で望まれるのは明確な結論の合意ではなく、お互いのシンクロというか漠とした共感なんですよね。だから、何か指摘されても「おっしゃるとおりです。ですが．．．」みたいな受け答えをする。これはなんとか共感を得たいというわけです。無理無理質問も、そういった意地悪にどれだけ真摯に答えられるかどうかをみているわけです。そのプロセスを経て共感を得ると。こうしてシンクロさえ得られば、あとは当事者同士で問題解決すると。

しかし、これでは建設な議論になりえないですよ。そういった議論になれきっている自分に反省。

DC2009参加記

2009年11月08日 | 会議参加記

すでにずいぶん前の話になってしまいましたが、DC2009 (In'tl conf on Dublicon and Metada data applications)に出席してきました。場所はソウルの国立図書館。挨拶は国立図書館のChief Executive。

僕はこの会議には実質的に初めてです。最初のアナウンスにあったようにこの会議は研究者とprofessonalの会議。単に研究会議じゃないですね。

追記：DC2009 Proceedingsはこちら。
なお、日本から筑波大学から杉本重雄氏、永森光晴氏他、国会図書館から2名などが出席していた。日本からは発表で杉本氏のグループ、ポスターでNII（大向、武田）、立命館大学の木村文則氏らのグループ。

今回はサブタイトルが"Semantic Interoperability of Linked Data"です。Semantic Web研究者としてはこれは興味があります。図書館でどうLinked Dataが使われるのか、どうなんでしょうか。

全体の感想としては、DCMIの活動と図書館系の人のSemantic Webへの取り組みがよくわかったと思います。DCMIとは図書館の情報、人とファシリティをいわばWeb化する活動といっていいのかもしれません。図書館にある情報をWeb化する、それはある意味、至極当然でまあ異論のないところでしょう。一方、図書館員や図書館がWebをメタデータ化するという活動もあるわけです。これは一見無関係のようにみえますが、本や論文が電子化される時代においては、本・論文とWeb上の情報に明確な境界線はありません。その点では同じです。ただ誰がやるかというところで違いが出てきます。機関リポジトリがよい例でしょう。機関リポジトリは大学における情報蓄積、情報公開が目的ではありますが、一方図書館員や図書館というファシリティの活動によるWeb情報公開でもあるわけです。この意味でDCMIの活動は理解できます（ってDCMIを持ち上げすぎ？）
そう考えるとSemantic Web、とくにLinked Dataを次の目標にするのは素直に理解できます。Dublin Coreに基づくWeb化は道筋はついた、次はなにかといえば、もっとメタデータの活用を考えないといけない。Semantic Webはどちらかというと複雑なより構造化されたメタデータをターゲットにしてきた。しかし、Linked Dataで逆にシンプルだけど大量という方向に変ってきています。これならば図書館的世界と近いと考えたのでしょう。確かにあたっていると思います。
実際、Semantic Webに関して強い興味と理解があるのがわかりました。Keynoteの韓国図書館協会会長も半分ぐらいはSemantic Webの紹介に時間をあてていました（ちなみにこの講演は韓国語。同時通訳つき）。多分に国内の人へのPRもはいっていたと思いますが、それでもこのような立場の人の講演でSemantic Webが協調されるというのは驚くべきことです。
もちろん、Linked Dataと図書館的情報には共通点もありますが、相違点も多いです。構造が均質で（比較的）静的な大量データという点は共通点です。しかし、ソースが多様で信頼度が多様であるというのは大きな違いです（でもこれは機関リポジトリ由来のデータにも当てはまるかもしれない）。これをどう克服していくか、そこまではこの会議ではわかりませんでした。

Address。Makx Dekkers (Managing Director & CEO /DCMI)

keynote. Michael Crandall (U. of Washington) Anchoring the Semantic Web
- The Evolution of Dublin Core
- Dublin Coreの復習。Semantic Webへの対応。RDFをベースに。さてDubli Coreとは何だろうか。標準？フレームワーク？オーガニゼーション？人？
- DCの階層。１：語彙の共有（NLでの語彙共有）。２：フォーマルな意味の総合運用性（形式意味論）。３．記述集合の形式の相互運用性（交換可能なレコードの共有）。４：記述集合のプロファイルの相互運用性。
- この会議での主なトピック：レコード中心型のモデルはデータ中心型のモデルにフィットするか？（Tom Baker) / 他の分野とうまくやっていけるのか？
- DCMIの挑戦。スポンサーベースから会員制度の組織へ。創設よりずっと複雑かつ多様な問題を抱える。いまや実装レベルのなっている。それゆえ実装の多様性。創設時よりずっと広いコミュニティになっている。
- DCMIの未来。単に語彙だけじゃない、Linked dataで世界を記述する仕方である。レガシーユーザを未来の方向へ導く。ツールをつくる。教育。
- Dublin Coreとは。１５要素。メタデータ標準。抽象モデル。フレームワーク。組織。Greekyaフリークや人々。

Keynote2件目は　Eunchul Lee (President of Korea Library Association).
- Semantic Web / Linked dataをきれいにおさらいして図書館における課題へもっていく。
- 図書館におけるLinked Data適用の問題：データの変換(Marc21, DC)、図書館員のIT能力、著作権、アイデンティフィケーション、長期の永続性。
- 名前の同定。FOAFとISNI　(International Standard Name Identifier). うん？ISNIは初めて聞いた。ISO標準らしい。これはどのくらい使われているのだろう
か？http://www.isni.org/
- こういう偉い立場にある人がSemnatic WebとLinked Dataとかまで語るのはすごいなあ。日本では長尾先生ぐらいかな。自分の言葉で語る偉い人は。

以下はまた私のtwitter memoの羅列です。
＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

一般発表：Modeling classification in SKOS by M Panzer (OCLC)
- DDCをSKOSに変換する。Dewey Decimal Classification　(DDC)
- 課題。Special types of concepts, inex term, class-topic relationship, internal structure, alternative classifcation, Order in classication

一般発表: using metadata for query refinement and Recommendation by Miao Chen at Syracuse Univ.
- 実際のアプリでいかにmetadataをメリットを出せるか
- ユーザクエリからトピックグループの自動生成

DCMI, Communities and Task Groups by Makx Dekkers
- DCMIの活動の紹介
- DCMIのmission Provide smple standards to facilitate the finding, sharing and managment of information
- DCMI Principles: Open consensus building, Internationl scope, Neutrality of purposes and business models, Neutrality of technology, Cross-disciplinary focus
- What is Dublin Core? / "Legacy" usate: 15要素、ISO15836標準, HTML, XMLSchme表現

午後のセッションはWorkshop: Linking Formal Data
- パラレルでもう一方はよりカジュルアルなデータぽい。こっちはよりフォーマルか。

発表：Dutch gov. metadata OWMS by has Overbeek
- Dutch -> 1200+ org 1600 + website 16M+ citizens
- metadata: Dutch Goverment Core / dcterms: identifyer, tilte, type, creator, moditied
- オランダ政府の各種情報にメタデータをつけるという話。OWMS (Overheid.nil Web metadata standard) Overheid（蘭）＝政府。実際どのくらい実践されているだろうか。興味深い。

発表：Linking data Europeana
- EU 2010 information scoeity initiative
- Connecting europan culture
- 課題：多様なメタデータ（生まれ、とか）の利用。メタデータをつかった推論につかえるか。複数のメタデータ間のアライメント
- 現在公開中のEuropeanaのサイト　http://www.europeana.eu/portal/　　/ 実験サイト http://bit.ly/nwKmE

発表: Linking data through Dryad and HIVE project
- Dryad Goal: one-stop deopostion and shopping of data obejct supprrting published
- DRYAD application profile and Singapore Framework: Functional requiremnts documented (Dube et al 2007) / Domain model (Carrier 2007)

発表：Helping Vocabuulary Enginening: SILS metadata Research cnter NESCent, Library of Congress, US Geo. Survy, Getty, LCSH, NBII, TGN
- HIVE (helping interdisciplinary Vocabulary Engineering) HIVE technogical Infrastructure to sotre metadata of concepts from different vocaburary and
avaibale by HTTP
- Dryad: http://datadryad.org/ / HIVE: http://ils.unc.edu/mrc/hive

結局のこのセッションは全部バーチャル発表（プレゼンの再生）3件だった。これではdiscussionどころではないが。。。それぞれのプロジェクトの紹介は興味深
かったが。

次のセッションの発表。

発表：How data is collected and integrated by FAO -- The AGRIS project a portal for resources discovery in agriculture
- AGRIS metadata: 3 M argicultural resources by 150 institutions since 1975. http://www.fao.org/agris/
- Problems: classic bib metadata is too simple. Solutions: metadata is used to link other resources via Web

発表：Semantic Annotation of Scientific Articles by Sudenshna Das at MIND, Mass. General Hospital, Harverd Medical School.
- Science Collabration Framework (SCF): Replicate Alzforum like community / Based on Drupal /Integrated communication tool / Semantic Web
- Enabling semntic annotation. semi-automatic text-mining. currently mining for Gene names and Gene ontology terms, Tissue, organ, cell types

発表：DCMI Information Services by Makx Dekkers at DCMI. DCMIという組織における情報サービスの現状。Web site, RSS, Wiki, twitter, Facebook (まあ
DCMIの活動の宣伝ですね）

DC2009 二日目。

Keynoteは　Eunchul Lee (President of Korea Library Association).

ポスターは８件。それをおのおの2分で紹介するmadness session. CiNii紹介のプレゼンあり(by i2k)

DC2009 一般発表。A unified approach for Representing Metadata by Kai Echkert at U. Mannheim.
- Subject headingをつけるときにRDF Reificationをする仕組みを検討。

DC2009 一般発表。 Is Tagging Effective? -- Overlapping Ratio wiht Other Metadata Fields by Wooseob Jeong at U of Wisconsin
- tag語は意味があるのか？
- Youtube videoにつけられたキーワードを分析。
- Title, description, tagで語の重複度。25%でtitle-desc, desc-tagで重複。つまりtagはそんなにキーワードづけに貢献していない。

DC2009 午後のセッション　Special session: technical aspects of Linked Data DCMI metadata terms, linked data, and modern syntax standards

発表　"DCMI Metadata Terms, Linked Data, and modern syntax standards" by Tom Baker
- DCMIの４層：　1 Shared (natural-language) definition　2. Shared formal-semantic model 3. shared model for "records" 4. Shared contraints in record
- この辺のDCMIの技術詳細は杉本先生の原稿が参考になります。http://bit.ly/sbnBP
- 1 Shared (natural-language) definition closed systems proprietary system, Web of API, DC-XML/2003
- 2. Shared formal-semantic model Linked data. RDF data extracted from non-RDF formats. DC-RDF, DC-HTML RDFa
- 3. shared model for "records" DCMI abstract model. DC-DS-XML, SPARQL Named Graphs.
- 4. Shared contraints in record DCMI Description Set Profile, SPARQL Query Patterns

三日目。

DC2009 一般発表。Multilayered paper protyping for user concept modeling by Emma Tnkin at UKOLN.
- user modelingは理解するのは大変。例やuser scenarioがあれば。調べ方：ethnographic method & contexual enquiry / Free-listing / Card Sorting

DC2009 一般発表：Metadata framwork for Manga - A mult-paradigm metadata description Framewor for Dgital content by Sugimoto at Tsutuba

DC2009 一般発表：Archiving and Management of digital images based on en embedded metadata framework by Cjien-Cheng Liu,
- 本では紙とデジタルの壁は厚いねえ。日本だと正論では勝てないので、こういうのが五月雨式に始って、なし崩し的になるかな。http://bit.ly/k8Jtf　国会図
書館の図書ネット配信は可能なのか。

- DC2009 TBLのTEDのTalkの再生。http://bit.ly/PmwsA
- TBL語録 "Linked data is extremely simple ...", "Data is relationship.", "Raw Data Now!",

DC2009 発表。　Collorative Curation of Linked Data by Eric Miller
- 名前付けとは：Twitterのハッシュタグ競合
- Power of People, Human Computation
- Raw Data Now -> It takes the big step of fundametally rethinking applications and thier integration. Not app. on the web, but of the web
- A practical use case : The Library of Congress. Digital Preservation http://bit.ly/LfKkq　
- raw dataがあればそれを地図に表示したり、いろんなことができる。
- Linkeda Data Communities: / Enhancing access / Connecting islands of information / Creating and preserving the community
- Eric Miller "Open data opens the door"

DC2009 発表：　Scholarly Works Application Profile (SWAP) by Talat Chaudhri from UKOLN SWAP http://bit.ly/3olNHV

SDOW2009参加記

2009年11月06日 | 会議参加記

順序が逆ですが、ISWC2009の付設のワークショップSDOW2009 Social Data on the Webの報告をさくっとしておきます。写真の一部はこちら。

ProceedingsはCEUR online proceedings No.520として公開されています。

Invited TalkはUnderstanding and Exploiting Social Data What, Why and How
people write on Social Mediaというタイトルで Meena Nagarajan,
Kno.e.sis Center, Wright State Universityの人。
- Network, People, Content
- Effects of Networked Publics
- Mapping User-Generated content to content
- Dimnsions of Analysis - WHAT , WHY , HOW
- Social Mediaではコンテキストが不足している。それを補わないといけない。NLPとかオントロジーとか。
- Named Entity　Recognition: Movie nameとか。
- User Intention Mapping: 意図の推定。/
- 例：
-- BBC SoundIndex
-- Twitris: Know.e.sis. USC: Realtime user perceptions as the fulcrum for browing the Web
彼女の研究グループはSemantic Web Challengeにもでていましたし、ISWC2009で発表がありました。
この紹介のあったTwitrisですが、まさにtwitterのtweetsのコンテキスト推定をして、他のソース（Newsやwikipedia）と連動させるというものです。地域を指定して、用意されたトピックスをクリックするとそれに関するtwitterのつぶやきやnews記事、wikipediaが表示されます。tweet検索にはキーワード集合のようなものを自動生成して付加してるようです。まあうまく動いているようですが、トピック追加は一晩またないといけないようです(index更新？)

一般発表：The NoTube Beancounter: Aggregating User Data for Television Programme Recommendation
- EUプロジェクト。Notube: semantic televison project
- テレビ視聴とWebを融合するとどうなるか、といったプロジェクトらしい。例えばBBCのデータとDBpediaのデータをつなげあわせる。語彙が必要.
- Trend Analysis:コンセプト、シリーズ、場所／文脈等々。個人ごとのパネル表示。
- 推薦：私の好きなシリーズとか友人が好きなシリーズとか。推薦の説明をつける。
うちでも視聴行動に基づく番組推薦とかをやっているので参考になります。まあそんなに驚くような結果は見せてくれませんでした。

一般発表：Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL by Emanuele Della Valle
- いくつかのmicroblog + Semantics -> SMOB, Smesher, Semantic Tweet
- streamとしてのsemnatic Data -> RDF stream :タイムスタンプ付きのtripleの列。それをqueryがC-SPARQL

一般発表：Mapping between Digital Identity Ontologies through SISM by Matthew Rowe / Social Identity Schmea Mapping (SISM)
- Problem: Monitoring Personal Information Online
- Finder all web resources (Google / Sindice, Waton)
- User meta models to present knowledge
- しかしRDFmodelはオントロジーがわからなかったりす。それでsocial Inditity schema mappingが必要。
- Mapping beween FOAF, Ontology for Vcards, XFN Ontology, Perosnal information model ontology and Neopmuk contact ontology

一般発表：Multiple Personalities on the Web: A Study of Shared Mboxes in FOAF by Jennifer Golbeck,
- 個人プロファイルの統合問題
- DataはblogやSNSサービスから ex. LiveJournal 3M
- FOAF Identifierのunique性で統合。
- ９８２，９１２ unique mbox
- 47,563が複数アカウント。
- 83.6%は同じネットワーク内。
- 複数（2 or 5)のaccountのあるmboxを集めて、なぜわけているかを調べる。
- 16のものは３０ account / 350 account -> 空白 / 118 account -> たぶんテスト / 108 -> 19歳の女性。中身はない。
- 92のもの -> セレブリティの名前多数（写真も）。17歳の学生。fan fiction sexual role playng gameの作者。
- accountの４０個を調査：同じ人物が多数。４つだけが別人のよう。なぜ分けるか？ 21歳制限のために分ける
- 性的指向が隠すか見せるかの違い。Fake　mail addressの使用。 123@hotmail.com (14回), none@none.com (13)
- Sybil-type attacks (many accounts for vote casting)
- Compartmentalizing / Errors / Groups
- Privacy implications: このデータセットでは明確なことは導けなかった。今回はfoafのみ。Facebook, LinkedINとかをいれうともっと変るかも。　（以上）
- 質問ではprivacy問題があった。Semantic Webは強力な装置なりうる。個人的感想：まあいたちごっこで、もし技術がここまで統合できるとなったら、また人はそれを避けるように行動するのでは。もちろん逃げられないデータもあるんでそこは問題なわけですが。

一般発表 FOAF on Air - Context-aware User Proﬁles for the Social Web by Sebastian Boehm (Docomo Euro-lab)
- IYOUIT projectの一部。
- IYOUITは去年のISWC2008でも賞をとったもので、携帯のデータを含めた個人行動のアグリゲーションをするもので、システムが結構クールだった。
- そういえばたぶん技術的には関係なそうだけど、こんな記事がでてましたね。
- Data miningの方法で context retrievalをして抽象化、関連づけをして、さらにruleで推論する。　data mining toolであるWEKAを使って推論をする。
- FOAFを使って表現。 MeNow, RELATIONSHIP, VISIT　の追加。（以上）

発表者のよるパネル：
- トピック１：microblogのsearchはどうする？ linkの性質がちがう。むしろフロー。Golback: social networkの利用。qualifyingが重要。commentからtrust networkをつくるとか。Meena: Evaluation of social applications, 国によってプラバシーの基準が違う、データ利用はどうするか。Q: social dataとしてなぜuser profileだけなの？ほかのユーザデータは？
social dataって定義は？ FOAFデータだけ OR Web上のユーザの行動データすべて。（午前はおしまい）

午後再開。The Mobile Wine Agent: Pairing Wine with the Social Semantic Web by Evan Patton
- Sematic Webの古典問題:-) Wine agentの話

一般発表　Semantic History: Towards Modeling and Publishing Changes of Online Semantic Data by Jie Bao
- Webの変更履歴の意味化
- changeの種類、内容、参照
- Semantic history -> reusuable, linkable, fine-grained, app-friendly
- Use of SMW
- application -> query, Stastics, visualization, inference

発表 SiocLog: Providing IRC discussion logs as Linked Data by John Breslin
- IRC dataのセマンティック化。　SIOC, Web IDの利用。

発表 Freemix: Social Networking Meets Data by David Wood
- Speedsheetスタイルのデータを共有してリンクする新しい仕組みfreemixの提案

発表　Social Networks of an Emergent Massively Collaborative Creation Community - Case Study of Hatune Miku Movie on Nico Nico Douga
- hamasaki氏の発表。質問は司会からのみ。Youtubeではそういうことは起こっていないの？　発表内容は悪くなかったと思うけど、喋り内容が未整理な感じ。内容が内容だけに伝わったかねえ、というところ。
- ＴＢＬは在室していたけど、携帯をみていて聞いて聞いていなかったよう。

午後のパネル。hamasaki氏もパネリスト。
- Drupal 7でRDFaのサポート。cf. SearchMonky, Google Snippet
- Hamasaki氏出番無し。

全体的な感想
- 多くの発表ではSocial Dataといってもかなりスコープが狭い。基本的にschemaがある（metadataとして明示的に記述されている）ことが前提で、しかもuser profileのみを対象としているものの多数。
- まあここはSemantic Webの会議なのだからしょうがないといけばしょうがないが、もっと広がりがあってもよいのでは。
- その点で我々の研究は前提からして違っていたのでかなり浮いた感じだった。

ISWC2009参加記

2009年11月05日 | 会議参加記

ISWC2009 (8th International Semantic Web Conference)がアメリカ、ワシント
ンDCで開かれました。場所は空港近くのWestfields Conference Centerというところで、でなんというか陸の孤島です。まあ籠もって議論しようということでしょう。写真の一部はこちら。

登録者は500人強。去年より微減とのこと。参加者の半数はアメリカから。あとイギリス、ドイツ。この3国で3/4。日本は上位９位にはいっていませんでした。研究論文は250件中の43件で相変わらず高倍率です。日本からはたぶんNICTの兼岩さんだけ。
オープニングでおもしろかったのは、応募論文をテキストマイニングした結果を報告したことです。いくつか紹介すると、Ontologyは確率１．．．つまり必ず入っている？（ほんと？）、Serviceは採択論文の方が顕著に高い（次はここへ狙えと？）、Resultも高い（まあそうかな）。逆に不採択論文で一番高かったのがCreation (ええ？、まあ最近のISWCではそっち方面はないもんなあ）でした。

全体の傾向としてはやはりLinked Dataが潮流ですが、もはや巨大Linked Dataがあるのが前提で、そこになにを貢献できるかという研究発表が多かったと思います（まあそういう傾向のセッションにでているせいもありますが）。Linked Dataの世界はいまのところ順調に拡大しているので、まあそこにひっぱられるのはしょうがないところです。しかし問題はいろいろあります。Linked Dataの生成問題として、現行の構造データのRDF化だけでいいのか、それともMitchellのような機械学習と統合するのか、あるいはT2のようなユーザ参加型も統合されるかは興味深いところです。また、Linked Data自身の抱える問題、信頼性、統合、更新ということにどう研究が貢献できるか(Cris Bizerの研究はそこを突いているので興味深い）ということがあります。

最初Invited TalkはPat Hayes. blog(web logic)の提唱というか問題提起とその解決の一つとして surfaceという概念を持ち込んだ　RDF semanticsの提唱。Hayesのトークは楽しいし、内容には価値がある。しかし、それが本当に言語やシステムに活かされるかというとそれは疑問。司会の紹介であったようにいみじくも「議論の人」ですよね。

2人目のKeynoteはT. Mitchell. Populating the Semantic Web byMacro-Reading Internet Text. / 機械学習の大御所。/ SWの普及の３つの方法。人が構造データ書く。DB公開。計算機が読む。３番目の選択を説明。Webの冗長性の利用。初期オントロジーを発展させる。セミ教師付学習（学習のカップリングで問題を容易化）。繰り返しでインスタンスを増やしていく。多くのルールを学習。実際の学習結果を沢山出していてインパクトがありました。これはいけるかもしれないという印象をうけました。

3人目のkeynote: Present, Personalized and Precise: Defining Search for Web 3.0 by Nova Spivak (Radar Networks) / Vetureの人。Twineを開発した人。Twineの成功と失敗。次のWebは？ / Web 3.0 = SW / 次の検索の方向: Semantic,Sharing, Personalized, Tracking, Real-time, KM, Social,　Reasoning /　SWの問題 / 消費者はSメタデータは足さない / Webmasterもそんな暇はない / 人間はそんなにいいメタデータがかけない。/ 結局、機械がやるべき / T2 (Twine 2) / Web-scale Semantic Search / 例えばレシピサーチ / 材料や状況別に集約してfacet 検索可能 / site mapping toolの提供 /
Focus area: lifestyle (FOOD, health, travel, people) / Etntainment (GAME, ...) /Shopping / Find - Share - Follow / まだT2はfindだけ / Webからの構造データの取り出しは何度となくTryされているけど、まだ特定用途じゃなくてweb-scaleでうまくいった例はないだよね。今度は成功するか。

Semantic Web Challenge: これはSWアプリを作って競争しよういうものです。もうすっかりISWCの恒例。Open Track (何でもOK), Billion Triple challenge(10億RDFを使うアプリ）の２種類。今回はOpen Trackに16件と過去最大(BTCは3件のみ）。僕はいつからこの審査に参加しています。16件をまず審査委員で6件に絞り込みます。これはPoster&Demoセッションでの説明を聞いた後、審査委員で投票と議論をします。今回は結構白熱しました。以下のものが残りました。
1. Collobrative Creeation of Point-of-Interest: 地図にみんなでポイントをいれ、それにカテゴリをつける。カテゴリは各自でつけれる。まあSWアプリとしてはよくできているけど、Google mapアプリと比較するとどうかな、というところ。
２．LinkedGeoData: OpenStreetMapのデータをRDF化。3億RDF文。Wikipediaと連携も。巨大データを処理した努力はすばらしい。他のアプリの土台としては評価が高いか？
３．Sig.ma: Semantic Search Engineの結果をきれいに統合。ソースごとに信頼OR削除を指示できる。その状態を外部からURLで参照できる（だから編集状態の保存ということはしない）。クールなインタフェース。イイ。
４．Information WorkBench: DbpediaなどのLinked Dataを整理して表示。その場で編集可能。セマンティックな検索も可能。機能的はてんこ盛り。よく作り込まれている。でもSig.maのほうがシンプルで使えるツールかな。
５．TrialX: 治験を受けるために個人記録をマッチさせるしくみの提案。病名などはUMLSなどから。
６．VisiNav: linked dataをfacet検索。検索がとても高速なのとインタフェー
スがとってもCool。
BTC 1: eRDF: 進化アルゴリズムでRDFを検索。意外な結果もだす。スケーラブル。おもしろいが、何に使うの？
BTC2: Scalable Reduction: パラレル処理。3,712 CPU。

結果は１．TrialX、２．VisiNav 3. Sig.ma, BTCはScalable Reduction
審査だと真剣に論文を読んだり説明を求めたりしておもしろいんだけど、疲れました。とくに今回は19件もあったので。もう来年以降はしないかな。

あとは聞いた論文のメモ。

Session for Social Semantic Webの１件目。Analysis of a Real Online Social Network Using Semantic Web Frameworks. SWの世界にsocial networkのレイヤーを追加という話。で、それで？という研究なのだが、これが標準になったりするのだろうか。

Session for Social Semantic Webの２件目。Policy Aware Content Reuse on the Web by Oshani Seneviratne, Lalana Kagal, Tim Berners-Lee。FlickrでのCC Policyの現状と利用調査。７０％が違反がある。違反をチェックするvalidationツール作成。Semantic Clipboard: browserでコピーするときにpolicy情報提示。

Session for Social Semantic Webの３件目。Social Trust Based Web Service Composition- by U.Kuter, J.Golbeck - Webサービスのtrustを他のユーザの評価を使って計算。複合サービスのtrustは信頼伝搬（注意深い／楽観的伝搬）。これがBest Paper Award。うーんシミュレーションになぜか映画のトラストデータをつかっている。

In use-track: Vocabulary Matching for Book Indexing Suggestion in Linked Libraries ? A Prototype Implementation & Evaluation / オランダの図書館での語彙統合の話。STITCH　Project　(Dutch Cultural Heritage )の一環。indexerのためのツール作成。レキシカルだけではなく確信度も。推薦の精度 p:72%, r:47% 実験実施。

In-use Track2 : Live Social Semantics by Harith Alani / RFIDでのリアル出会いを検知する装置とWeb social dataを結合。ESWC2009会議で運用。（うーん、どっかで聞いたような話だが :-) )

Enrichment and Ranking of the YouTube Tag Space and Integration with the Linked Data Cloud by S. Choudhury from DERI Youtubeのタグを処理。時間、場所のタグ分離、関連動画のタグの利用してタグ追加。共起で関係づけ。活性伝搬でタグの重要度計算。WordNetも使いつつタグをLODの語にマップ。実験。追加タグの評価。ランキングの評価。

Produce and Consume Linked Data with Drupal! by S. Corlosquet from DERI / CMSであるDrupalでLinked Dataを扱えるようにする。自動語彙生成。オントロジーマッピング。他. Drupalはそんなに人気なのか？ 20万サイトある？　Drupal 7からRDFaをnaiveでサポートするそうだ。

Using Naming Authority to Rank Data and Ontologies for Web Search / LDのネットワークのPageRank + ソースのネットワークのRageRank　/ 単純だとけどいいかも。要読論文

Executing SPARQL Queries over the Web of Linked Data by Christian Bizer　/
linked dataのsameAs関係を発見するための各種の関数を用意。それを組み合わせて発見する。WoD-LMP: Linked Dataが変ったときに通知するプロトコルの提案。

Context and Domain Knowledge Enhanced Entity Spotting in Informal Text / UGCでentity spotting 。music いろいろ制限を変えて結果をみる

おまけ。

JWS(J. of Web Semantics)のboard meetingに出席しました。. Elsevierの人がまず社の戦略を語る。Paperを超えたサービスへの試み。化学組成IDとかパテントとかにリンク。Paper以外のデータの載せる実験的取り組み。うーんちゃんとやっているなあ。
JWSのboard meetingとしてはやはりImpact factorで議論。またJournalの立ち位置でも議論。CSではJournalの立場が微妙なのは共通認識。Confでの発表をおまけにつけるとかいくつかアイデアがでるが、とくに結論はでませんでした。

ワシントンは秋の気配で紅葉がきれいでした。足がないので、ホテルから会場まで30分以上歩いて通って、紅葉を担当しました :-)

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！