Takeda's Report

備忘録的に研究の個人的メモなどをおくようにしています.どんどん忘れやすくなっているので.

WWW2009 参加メモ (その4) 一般発表

2009年04月28日 | 会議参加記
あとは参加したセッションと気になった発表など。
基本的にsocial network, semanic web, linked dataを中心に聴講。

ちょっとした聴講メモ。

**Social Web**
*** Tagommenders: Connecting Users to Items through Tags
233 Shilad Sen, Jesse Vig and John Riedl
MovieLensやsocial taggingのデータを使ってrecommendationをするという研究。
Basian Networkなど3種類のアルゴリズムをつかい、総合的に推定。
<よく調べられた研究。>

*** Collaborative Filtering for Orkut Communities: Discovery of User Latent Behavior
365 Wen-Yen Chen, Jon-Chyuan Chu, Junyi Luan, Hongjie Bai and Edward Chang
Orkutにおける community recommendation
Association rules mining (ARM)
Latent Dirichlet Allocation (LDA)
の両方を使って比較。
あと並列化の効果。

*** Personalized Recommendation on Dynamic Contents Using Predictive
Bilinear Models
713 Wei Chu and Seung-Taek Park
Yahoo!のトップページのように動的に変わるページをPersonalizeする話。
Colloborative filteringでは新ユーザや新コンテンツ対応が難しい。
ユーザとコンテンツのfeatureを抽出してfeature-basedでrecommendationをする。
<かなり実践的な話のようだ。>

*** Network Analysis of Collaboration Structure in Wikipedia
115 Ulrik Brandes, Patrick Kenis, Juergen Lerner and Denise van Raaij
Wikipediaのedit networkの分析。
<何か新しいのか??>

*** Social Search in "Small World" Experiments
45 Sharad Goel, Roby Muhamad and Duncan Watts
Mirigramの6次の隔たりの検証。
<これは面白い。丁寧に論文を読んでみないと。。。>

Track: Social Networks and Web 2.0 / Session: Photos and Web 2.0

*** Mapping the World's Photos (Page 761)
David Crandall (Cornell University)
Lars Backstrom (Cornell University)
Daniel Huttenlocher (Cornell University)
Jon Kleinberg (Cornell University)

Best Paper 候補
GeoTagの集中度のくらlandmarkを発見。そのLandmarkを代表するphoto
をtagの共通から発見。
逆にラベルのない写真をどのlandmarkかを推定
<geotagつきのflikrのデータの膨大さに驚く。その集中度をうまく使い、画像を解釈せずに処理。うまい。>


*** Constructing Folksonomies from User-Specified Relations on
Flickr (Page 781)
Anon Plangprasopchok (University of Southern California)
Kristina Lerman (University of Southern California)

metadataから隠れた階層構造を発見する。
Flikr自身のcollectionから単語間の階層関係生成
Signifanceで切る。
複数Pathはflow bottleneckで選択
ODPと比較
<これってsematic webの方ではよくやられている手法。画像系だから新しい?>


Mining-5 Andrew Tomkins
*** Learning Consensus Opinion:Mining Data from a Labeling Game
556 Paul Bennett, Max Chickering and Anton Mityagin

Image Gameのデータの分析。
単語と2-5程度のイメージをみせて一つ選択。二人が合うとAgree。
そのときのデータをMS SearchのRankingと比較。
<このMSのlabeling gameネタは2つぐらいあったと思います。そんなに重要な研究なんだろうか。まだよく理解できていません。>

Semantic Data Management

*** Rapid Semantic Web Mashup Development through Semantic Web Pipes
160 Danh Le Phuoc, Axel Polleres, Giovanni Tummarello, Christian Morbidoni and Manfred Hauswirth
Yahoo! PipesならぬSW Pipesの実装
<これは前にも紹介されていたが、普通に使えそうで面白い。>

Linked Data

*** Large Scale Integration of Senses for the Semantic Web
525 Jorge Gracia, Mathieu d'Aquin and Eduardo Mena
たくさんあるオントロジーの同じ概念を統合することに関する考察。
閾値をどこにおくかを実験。

*** Triplify - Light-weight Linked Data Publication from Relational
Databases
1 Soren Auer, Sebastian Dietzold, Jens Lehmann, Sebastian Hellmann and David Aumueller

RDBからRDFを作り出す話。
RDBからRDFを引き出すSQLパターンをたくさん用意しておく。
WordPress とかシステムごとに用意する。
<安直だが、結構はやるかも。>

*** Extracting Key Terms From Noisy and Multitheme Documents
366 Maria Grineva, Dmitry Lizorkin and Maxim Grinev

wikipediaから単語の関係グラフをつくり、そこからNewmanコミュニティを抽出してランキング。それを単語の重要度などに使う。
<え、それでいいのか?>

****
やっぱり5日目ぐらいになるとだれて理解力が落ちてますね。反省。
WWW2009は論文発表はちょっとクオリティにばらつきがある。各トラックごとセレクションが厳しすぎて研究のクオリティにまして論文自体のクオリティが効いてしまっているのかなあ。

(おしまい)

WWW2009 参加メモ (その3) 4/23, 24 Panelとkeynote 

2009年04月28日 | 書評
4/24のkeynoteはDr. Alfred Z. Spector (VP Research and Special Initiatives, Google, Inc)で“The Continuing Metamorphosis of the Web”。
いま重要なのは
A. Totally Transparent Processing,
B. The Rule of Distributed Computing、
C. Hybrid, not Artificial, Intelligence
だそうだ。Aでは、Voice Searchに力点がおかれていたところがちょっと興味深い。英語圏ではそうなのかな。吉川さん@SVもそういうものを立ち上げていたし。日本だと音声インタラクションとははやらないそう(萌ゲームとはありかな)あと翻訳も強調していた。いま40前後の言語をサポートしているらしい。
Cは興味が近い。AIで効果のあった部分は知能拡張や専門問題解決。いま、巨大なユーザレスポンスがあるので、人の力を使って、多くのことができるようなった。hybrid intelligenceとはコンピュータだけでなく人を含むような系。
まあこれまでもいわれてきた話ですが、Googleのもつ巨大データがあると何か違うことができそうで、その意味では期待感有り。

そのあとはWeb Scienceとはなんぞやというパネル。これは正直言ってよくわからないパネルであった。Web ScienceはNetwork Scienceを含み、社会学や心理学を含む学際的領域。だから研究者も複数の分野を知っておくべきと。しかし、結局Web Scienceが何なのかはわからずじまい。

4/24のkeynoteはつまらなかったので割愛。

WWW2009 参加メモ (その2) 4/22 Key note (TBL) 

2009年04月28日 | 会議参加記
次に恒例のTBLのkey note speach. 年度初めにTBLのこの"ご神託"を聞くのがすっかり癖になっていて、ある意味で期待しています。今年は何を持ち出すのかと:-)

予想通り、linked dataは一押しでしたが、今回はtalkは割と構造的で聞きやすかったです(っていつもそうでないわけですが)

まずはWebで変わったこと、変わらないこと。先のPanelでも出てきたようにWebは意外に変わっていないところが多い。いまだ静的なページは多いし、協調的なWebの使いかも変わらないし、hyperlinkでつながる一つの世界は維持されている。でもいろいろ環境は変わった。ディスプレイの低廉化、モバイル、データの氾濫。

そういった状況下において
1. Web applications
2. Open social networking
3. Open Linked Data
が重要。

1. Web applicationにおいては非集中、モジュラリティが肝要。html+αでいろいろなことができる。


2. Open social networking
SNSは囲い込み。しかし、それはAOL時代とかの昔のよう。それではフラストレーションが溜まる。"I want my data back"。
だからOpenAPIとLinkedData
RDF+OWL+HTTP+SPARQLで実現できる。
プラバシー、匿名性に注意。

3. Linked Open Data
Linked Dataはどんどん増えている。

Linked Data はどこにでもある
- Government (e.g, Obama)
- Enterprise
- Science
- Social network
- Community (eg. OpenStreetMap, linkedgeodata.org)

社会的関心事項としては、データの由来のトラッキングやどういう風にデータを使ってよいかの合意形成という点。

”自分のためにやろう、そうすればみんながついてくる”

ごいったぐらいでしょうか。私のつたない英語理解能力で書いてますんで間違いも多いでしょうけど。

ここでもTBLは社会を強調していますね。



WWW2009 参加メモ (その1) 総論と4/22 panel 

2009年04月28日 | 会議参加記
やっぱりまとめようと思うと遅くなってしまいますね。全く。なので2日目は飛ばして本会議のレポートをメモをまとめる形で書いておきます。

全体の感想。
私の印象では今回のWWW2009は総じて社会色が強かった。これはビジネス色が強かった北京でのWWW2008とは際だった対比を作っていた。北京では、Google,MS,AT&T Labからkey note speakerがでてWebの将来を語っていた。Speakerのセレクションからしてビジネス指向でした。一方、今回はinvited speaker, panelも社会を意識しています。これはリーマンショックからくる業界的な影響なのか、ヨーロッパという場所柄(ヨーロッパは総じてアメリカよりはITでも社会性を重視)からだろうか。例えば今回のPlatium Sponsorの一つONCEはスペインの障害者を支援する団体。たぶん、両方なのでしょう。さらには20周年ということでロングレンジで考えましょうという雰囲気もあったと思います。
シリコンバレー的雰囲気のdog year Webも必要だけど、もう少し長い目、広い視点でWebをみるのも必要だということを感じさせてくれました。


4/23 本会議一日目

今回はまず冒頭でWWW誕生20周年記念パネル。出席者は
* Tim Berners-Lee,
* Robert Cailliau (CERNでTBLとともにWWWを提案)、
* Vinton Cerf (現Google Vice President and Chief Internet Evangelist、”インターネットの父”)、
* Dale Dougherty (現O'Reilly Vice President、O'Reillyの共同設立者)、
* Mike Shaver (Mozilla Vice President、Mozzila Organizationの設立メンバーの一人)。
司会からの質疑形式で行われた。
Q1: まずWWWの最初の印象はという質問。
TBL: コラボレーションのプラットフォームと思っていた。
VC:htmlのソースがみれることは印象的でlearning by doingを促したと思う。DD:WWWをTBLのHyperText91で知った。ただしポスター発表だった。

Q2: WWWの発展で一番エキサイティングなことは?
RC:多くの小さなことの積み重ねがあったことが重要。あとGoogleがいまだ機能しているのはこれはこれで驚き。(VCが反論 :-))
VC:ドメインネームがユーザに見え、そのおかげでドメインネームが認知され、商売にまでなった。あとはindexingができるようになったこと、新しいビジネスを作ったこと。
DD:いかにサイトが急に増えたか、こんなに早く普及したこと。
MS:20年たっても基本的に変わらないことが驚き。TBL:当時はコマンド型のワープロが当たり前でMacのWYSWYGのワープロが先進的だった。にも関わらずHTMLが受け入れられたこと。あと人々が相互に教えあったこと。

Q3: 未来に期待することは?
VC:Internetをmotivateしていること。data linkingは重要。cloud computingの間でもこれは重要。それはnew platformになる。宇宙開発にも重要。政府も真剣にInternetにコミットするようになった。
DD:Potential。若い人にはWWWは電気と同じ。前の世代はnon-WebとWebを繋ぐ。new genrationはsocial media。Twitterは思ったいる以上に重要。とってもオープンなので。新しい世代はWebは当たり前なので、ソーシャルとテクノロジーが合わさって新しいモノができるだろう。
MS:世界人口の残りがWebにアクセスできるようになってもWebが変わらないだろうかは興味のあることだ。Webはとてもシンプル。WWWはシンプルさが重要で、だから簡単に学んだり、コピーしたりできる。簡単さを失わないこと。(拍手!)
TBL:未来のシステムも複雑じゃなくてクリーンに。世界の残りのひとがWebにはいることはexciting。
RC:Webは地球上の問題をjust-in-timeで解く仕組み。あとmobileは重要。データや経路がどこにあることなんて気にしない。anyplace, anytimeは社会的な振る舞いとなるだろう。相変わらずsimple and cleanも。
VC: docuemnt, data, peopleがonlineになることはすごいポテンシャル。

このあとJim Hendlerらが会場から質問(略)

この陣容でやっぱりRobert CailliauとVinton Cerfはよくも悪くもインターネット第一世代。Dale DoughertyとMike Shaverとは発想の原点が違う。インターネットが物理的なネットワークであることからイメージしている。一方、後者はすでに物理的なネットワークはもはや意識になく、社会に普及したインフラとしてのインターネットからイメージしている。TBLはどうなんだろう?よくわからない。
ただ両者とも社会におけるWWWの重要性は間違いなく高いということは同意している。



WWW2009 - LDOW2009

2009年04月20日 | 会議参加記
WWW2009でMadridに来ています。
思った以上に寒い。

まずLinked Data on the Web Workshop 2009 (LDOW2009)なるものに出ています。
http://events.linkeddata.org/ldow2009/

それを聞きながらちょっとした感想を書きます。
いつもあとでメモを整理して書こうと思うと遅くなってしまうので、メモをオンラインでみせることにします(ああ怠け者)。
こういうのはtwitterでやったほうがいいだろうけど、ちょっとまだなれてないもので、ブログでやっています。

***********

WWW2009 workshop:Linked Data on the Web (LDOW2009)

机上には、Nodalities -The Magazine of the Semantic Web-なるものがおかれ
る。
http://www.talis.com/nodalities
BBCがデータを公開したという話やlinked library dataなる記事が並ぶ。これ
は面白そう。

イントロではTBLがちょっと挨拶。
オバマのアドミニストレーションに期待する云々

*** Representing Linked Data as Virtual File Systems (Bernhard Schandl)
Linked dataをfile systemのようにみせる。subclassがdirectoryとかね。
アイデアが面白い。
でもメリットはなんだろう?
SemanticMediaWikiとも共通性がある。どっちがいい?

Session 1: Linked Data Application Architectures
*** Explorator: A tool for exploring RDF data through direct
manipulation (Samur Araujo, Daniel Schwabe)
いろいろなRDFデータベースをロードして操作できるシステム。

*** Faceted Views over Large-Scale Linked Data (Orri Erling, Ivan
Mikhailov)
Web
- Web 1.0: publishing for All
- web 2.0: Commentary for All
- web 3.0: analysis of All
The challenge:
- scale of instance data 10^9-10^11 triples
- scale of ontology 100,000's classes
- faceted browsing, text and structure
- deployment of provisioning
Virtuoso 6
Runtime taxonomy and identity
Entity Ranking
Entity Name Service
salabilityがいいらしい。

*** Linked Data Authoring for Non-Experts (Markus Luczak-Roesch, Ralf
Heese)
素人に書けるLDauthoring
loomp.org
RAP -REF2RDFa - One click annotator (XHTML+RDFa)
ほんとに使えれば役立ちそう。

*** Linking and Navigating Data in a P2P File-Sharing Network (Alan Davoust, Babak Esfandiari)
P2Pスタイルでtrippleが書けてpublishできるツール

Session 2: Applying Linked Data in different Domains
*** Interlinking Distributed Social Graphs (Matthew Rowe)
異なるsocial graphのつなぎ方の考察と実験

*** Publishing XBRL as Linked Open Data (Roberto Garcia, Rosa Gil)
金融データのXBRLをLODとしてpublishするという話。

*** Bringing the "Thesaurus for Economics" on to the Web of Linked Data
(Joachim Neubert)
経済の図書館のシソーラスの話。
Gernam National Library of Economics(ZBW)がSTWを制定
The “Thesaurus for Economics“ (“Standard Thesaurus Wirtschaft“, STW)
SKOSに変換。それをRDFとして公開して、リンクのハブに。
さすがによくわからない。さすがドイツは体系化に真剣であることが伝わってく
る。

*** Adding eScience Assets to the Data Web (Herbert Van de Sompel, Carl Lagoze, Michael Nelson, Simeon Warner, Robert Sanderson, Pete Johnston)
sochalry communicationはPaper単位ではもはや駄目。
OAI: Open Archives Initiative
ORE: Object reuse and exchange:
- authoritative resource maps
- expressing non-protocal-based URIs
- Aggregated resources is itself an aggregation
- Proxy:aggregated resource in context of an aggregation
Adoption
- OREchem
- NSF dataset
- Eu funded DRIVER 2, Europeans, EDLnet
http://driver2.dans.knaw.nl/demonstrator.html
- Oxford Univ.
- ORE Word Plug-in (MS)
- Research output Repository Platform (MS research)
http://research.microsoft.com/en-us/projects/zentity/
- JSTOR to bring resource map for its entire journal collection in
production
Aggregationをちゃんと扱えるようにしようとする実践的報告。
Formatの進化としてはたいしたことはないのだけど、実際に使われるようになっ
ているということが重要。

*** Enabling Tailored Therapeutics with Linked Data (Anja Jentzsch,
Oktie Hassanzadeh, Chris Bizer, Bo Andersson, Susie Stephens)
薬データ drung dataの話。LODD (Linked Open Drug Data)
Link type
- identity
- link discovery
-- string matching
-- smeantic matching
--- Many drungs and diseases have multiple names
Business Use Cases
- http://esw.w3.org/topic/HCLSIG/LODD/Business
これも実践的報告。
実際にmultiple sourceのデータがリンクされて使われているようになっている
という話。
うーん、すごい。

Session 3: Data Linking and Fusion
*** Managing Co-reference on the Semantic Web (Hugh Glaser, Afraz Jaffri,
Ian Millard)
co-referenceをマネージするシステムCRSの提案。
Problem
- Significant overlap of people, publication, etc
Co-reference Resolution Service
- Manage co-reference knowledge as first class entity
- When new co-reference detected, merge bundle together
- Deprecation of old URIs
- Republishing of co-rerefence / equivalence data
Ex: language of the World
CRS "global closure
話としてはCRSはわかるが、universalに実現できるのか。

*** Linked Movie Data Base (Oktie Hassanzadeh, Mariano Consens)
映画データの統合の話。内容的には映画を例にとってLinkage問題を議論してい
る。
LinkMDB in LOD cloud
Linkage Challenges
- Different names for the same movie
-- alternative titles
-- different style
-- Non-English title
- same titles
Linkage metadata
- MD about the source of the links
-- where do they come form
-- how we can trust
-- what technique is used for linkage
-- if the linkage is based on record linkage, what is the similarity /
confidence score
Linkageメタデータをどう定義するかは面白い話。

*** Silk - A Link Discovery Framework for the Web of Data (Julius Volz, Christian Bizer, Martin Gaedke, Georgi Kobilarov)
challenge
リンケージのためのフレームワークの提案。
- a general-purpose link discovery framework is needed
The Silk Link discovery framework

*** A Data Mashup Language for the Data Web (Mustafa Jarrar, Marios Dikaiakos)
Yahoo! Pipesのように簡単なデータ操作がしたい。
解決法:queryをtreeとみなしinteractiveに構造を指定していく
problem
- how to allow end-users formulae queries over structured data assuming
that
-- ther user does not know the schema
-- there no offline or inline schema
-- multiple resources
-- expressive
-- intuitive
MashQL: a general structured-data retrieval solution

*** Towards Data Fusion in a Multi-ontology Environment (Andriy Nikolov, Victoria Uren, Enrico Motta)
Challenge:
- Instance matching
- Schema heterogeneity
- employ automatic schema matching
Schema matching
- many existing tools (OAEI)
- Lily
- Falcon-AO
- CIDER
KnoFuss: Designed for the corporate knowledge management scenario

Session 4: Describing Data on the Web
*** A Query-Driven Characterization of Linked Data (Harry Halpin)
linked dataの統計的分析
大多数はwikipedia由来
3/4は303 redirect
blank nodeはほとんどない
言語はrdf 45%, rdfs 41%, owl 14%

*** Interlinking Multimedia: How to Apply Linked Data Principles to Multimedia Fragments (Michael Hausenblas, Raphael Troncy, Tobias Buerger, Yves Raimond)
Multimediaの部分をどうlinked data化するか
これは規格として重要ですが、まあどれだけ採用されるかですよね。

*** Provenance Information in the Web of Data (Olaf Hartig)
データの由来情報をどう扱うか
Web data provenance -> data creation + data access
provenance model: Actor, Execution, Artifact, Specialization, Universal
Attribute

*** An Ontology of Resources for Linked Data (Harry Halpin, Valentina Presutti)
linked dataの基本的が概念を定義するオントロジーの提案
a simple hub OWL ontology
Identity and Reference on the Web (IRW)
Identification and Reference
Resource type: IR and nIR(non-IR)
Access and Redirection: redirectTo, Accesses
Halpinなどのcoolな提案になっているが、どう利用するのだろうか。

*** Describing Linked Datasets (Keith Alexander, Richard Cyganiak, Michael Hausenblas, Jun Zhao)
巨大化するLODをどう記述するか
proposal: voiD a formal description for LOD
- what a dataset is about
- how and under which conditions to access it
- how the dataset is interlinked
- how to discover the metadata
dataset and linkset

*** DING! Dataset Ranking using Formal Descriptions (Nickolai Toupikov,
Juergen Umbrich, Renaud Delbru, Michael Hausenblas, Giovanni Tummarello)
LODのランキング
General idea: Web Ranking algorithm + dataset ranking

****まとめ*****
最大で70人以上はいたでしょうか。大変盛況です。
最初のセッションでは具体的なツールの話、次のセッションでは各分野でのLinked Dataの現在の浸透状況が報告された。TBLも冒頭でいっていたがLinked dataは今のところWebのほんの一部でしかない。しかし、各分野での試みからWebからLinked Data化されたときのメリットというのがみえるようになったと思う。
異なるサイトのlinked dataが結合されることでlinked dataのありがたみが発揮される。mashedupでもこれは不可能ではなかった。しかし、それはどれかの発表であったように、いったん塀を登っておりるような作業を通じて可能になる(WebAPIを使いこなすことが必要)。Linked Dataはこ塀を低く向こうがみえるようにするよ
うなものである(生け垣か)。
つまり、その肝はリンケージである。それをどうするかが3番目のセッションであった。メタデータ化、自動化やフレームワーク提案などがあったが、ただ、ここはエレガントな解が現状あるわけではない。そこはlinked dataの弱いところで逆に研究テーマである。
最後のセッションはLOD記述のまだ足らないところの議論である。LODのメタデータである。LOD自体がだいたいがメタデータなので、メタメタデータともいえるが、やぱりデータを活用するには必要となるのだろう。