Takeda's Report

備忘録的に研究の個人的メモなどをおくようにしています.どんどん忘れやすくなっているので.

SIG-SWO研究会 Wikipediaワークショップ発表募集

2009年09月28日 | 研究
人工知能学会セマンティックウェブとオントロジー研究会では11/22に研究会を開催します。今回は、第2回Wikipediaワークショップと称してWikipediaに関する研究を募集します。募集要項はここにあります。締め切りは9/30としています。ぜひご応募ください。

今回は、Wikimedia Confernece Japanの中の技術セッションとして開催します。Wikimedia Conference Japanは日本ではじめて開かれるWikipedianの会議です。Wikipediaに関わる人々が広く集まろうという趣旨で開催するものです。アメリカのWikipedia財団からも何人か参加します。初めての試みで海のものとも山のものともつかないのですが、きっと面白い会になると思います。


blogtalk2009参加記

2009年09月24日 | 書評
blogtalk2009に行ってきました。
この会議はblogに関するresearcherとdeveloperが集う会議ということのようです。いわゆる技術発表としてはレベルは高いわけではありませんが、社会科学を含む広い研究者と実際に開発している人が話したりするので、普通の会議とはひと味違います。この会議はThomas Burgが2003年に立ち上げたもので、その頃はいわばblogバブルの時代。新しいメディアとして喧伝されてころ。毎年ヨーロッパのどこかで開催されていて、今回初めてアジアで開催とのこと。僕はThomas Burgには直接知己はなかったのですが、別の人の縁でPCになりました。それでブログでも宣伝しました。
発表者は韓国+日本+ヨーロッパ少々、参加者は発表者+韓国人、といったところです。発表の背後にある各国のblogやsocial mediaの状況が垣間見えて面白かったです。日本以外ではJournalismや政治という問題にblogはいろいろな関係性、影響力をもっているようです。一方、日本のblogはそういった問題以外のところでまず発展してきて、それが今となって政治とかに少しづつ関係をはじめているという違いがあるようです。その辺を自分のパネルで少し話をしました。主催のBurgさん、KISTIのHanmi Jungさん、ZentiumのLeeさん、SNUのKim先生などと話しました。
あとは会議の聴講メモ。
招待講演1:Isaac Mao, 中国で有名なブロガーだそうです。中国では階層的考え方が支配的でblogは新しい考え方だっった。私がはじめた頃、とても珍しかった。いまや200Mの人がbloggingしている。blogは汚職問題やら社会問題を解くのに使われている。中国では社会の世論の仕組みとなっている。伝統的なメディアもblogと連動するようになっている。それは希望だ。中国では人々は sensorship systemを回避しようと必死。中国国内だけでなくドイツやら海外でもsensorship. ブログの10のトレンド: 1. Microlization, 2. Macrolization, 3. Identifiable information, 4. Sematic 5. Bridging, 6. Machine talk (IoT)、7. Mobility 8. Life Archieve 9. Unification of blogs, 10. Emergent properties Q. Sensorshipは続くのか?A.シンジャン地区ならインターネット遮断までできる。しかし上海ならできない。高度に使われていれば不可能。それが我々の希望だ。
一般発表:Real-time Web Search The Road Ahead by Jonghun Park. twitterの流行でreal-time searchの需要が増えている。 Real-time infoの例。スポーツの結果。株価。芸能人動向。新製品。RT Searchの問題。1.Informatitveでない。2.Spam 3.迷子。彼のチームのプロダクト feedmil.com. pointはsocial mediaのqualityをつかって個々の情報をランキングしてあげるところ。
一般発表:筑波の宇津呂さんのグループの発表。blogとnewsとwikipediaを結びつける研究。news記事からキーワードを拾い、それをwikipediaで検索して関連ページを集めて、それからキーワードリストを再構築して(一種のキーワード拡張か)ユーザに選ばせ、それでblogをサーチする。
一般発表:A model for Open Smenatic Hyperwikis by Philop Boulain@U. Southampton. WIkiをsemantic Web (RDF)化する話。ポイントはlinkをノードして扱うところか。
一般発表:Generating Researchers Networks with Identified Person on a Smenatic Service platoform by Hanmi Jung@KISTI。いわゆる論文データベースから社会ネットワーク構築。Springerのメタデータを使って構築しているそうだ。ソフトウエアはよく作り込まれている。まだ誌用段階。Springerの関係ですぐに公開とはいかなないらしい。この研究の情報はontoframe2008  http://www.w3.org/2001/sw/sweo/public/UseCases/OntoFrame/ にあり。
一般発表:Splog検出の話 by Yoshinaka
一般発表:A study on user's voting tendacy in Scial news services by Kanghak kim@KAIST。投票型サービス(diggのようなもの)は報道的に価値のある記事をみつけられるのか? アルファ投票者をみつけ、その人の投票で価値ある記事が発見できればよいというストーリー。Ongoing project。
一般発表:A social network sysmte bsed on an ontology in the Korea Institute of Oriental Medicine by SangKyun Kim 研究所内でのSNSの利用。OWLとFOAFをつかったSNS 。ポイントはプロファイリングのためのオントロジー構築。関係の種類分けがちょっとユニークか(昔、松尾さんとやった関係のオントロジーそっくり)。
挨拶:Calling all bloggers by Laurent Haug, Founder of Lift Conference / Lift Conferenceはblogtalk2009が併設されているイベントです。彼は2001からのアルファbloggerらしい. bloggerの小さなチャレンジ。1.scaling openness? Obamaは103978個の質問に答えられるか?2.アマチュアvs. プロ / プロはうまくしてYoutubeの上位にはいってします。3.会話はどこ?blogはそうでなくなりつつある。なぜ?会話はSNSとかにいっちゃった?行動しよう。bloggerはロールモデルはなろう。変化を先導しよう。規制する人にはなるな。
招待講演2:Future of Citizen Journalism by Yeon-Ho Oh @CEO of OhMyNews / いわずとししれたOhMyNewsの人です。「市民一人一人が記者」コンセプト。価値あるUGCへの条件:Credibility, Responsiblity, Influence, sustanability。OhMyNewsはonlineもofflineも大事にしている。スクールを開催したりしている。Q.OhMyewsはなぜうまくいっているか?A. OhMyNewsには6万人?の記者がある。Siteの場所も限られていて競争があり、それで質が保たれている。
一般発表:Toward Socially-Responsible Managment of Personal Information in SOcial Networks by Jean-Henry Morin, U. of Geneva。Personally identifiable information のあり方の考察。忘れる権利。伝統的メディアでは時間が経てば忘れられる。ディジタルメディアでは自発的に行動しないといけない。匿名性とプラバシー。SNSではそれをだれがどうマネージするべきなのか。
一般発表:Digital Library Application of Social networking by Myungdae Cho / Libraryとsocial mediaの関わり方。とくにSocial networkingとどうか関わるか。how to lift existing metadata into a semantic wbe/ Mapping (Marc21 ->Marc) / Open Source, SungKyunKwan University Library / flickr and youtube とmush up。Library' role in SW / Translate MARC, Thesaurus / Authority data discoverty etc. OCLC SW project http://fictionfinder.oclc.org/
一般発表:Semantic Twitter analyzing tweets for real-time event notification by M. Okazaki / 松尾さんところ学生の発表です。twitterからイベントの情報をrealtimeにとって提示するシステム。地震情報を対象に。Mecabと使い、さらにSVMで正誤を学習。 Toretter 公式情報より早くメールできる。 Korean Web Session: 韓国のdeveloperからのTalkです。Textyle by Namu Lee from NHN. NHNはNaverを運営している会社ですね。Textyleはxpress Engineというものに基づく新しいblogging toolだそうで
korean web session 2: Daum View by Jongwook Kim from Daum. Daumは韓国で有数のポータルサイトですね。Daum ViewとはDaumが運営するblog hostingなのかな。15万人登録。8000投稿/1日 推薦機能。推薦機能に工夫。信頼性によるランクづけ。投票履歴によるOpen Editor選択(?) Recommed = Comment + Link / Flow of information across Services
Panel:武田とLee(Zentium)とBurgが話す。武田は日本のsocial mediaの現状と方向性を自分なりにまとめてみた。はじめてかな、自分の研究以外の話をした。プレゼンはこれ zentiumのLeeさんのトーク。韓国はインターネットの自由度は実は低い。国民番号?による認証や噂の流布による逮捕の可能性。 Thoms Burg. Companyに対するコンサルタント。企業は何をしたらよいか。「conversation mediaに対応するように準備を始めよ」方策。ルール:制御するな、等しい立場、実験、売るな。

Wikimania2009参加記

2009年09月04日 | 会議参加記
空路で気分が悪くなったり、ロンドンで荷物を失ったり、ブエノスアイレスについたときは結構ヘロヘロでしたが、気を取り直して、Wikimania2009に参加しました。

このWikimania2009というのはいわゆるacademic conferenceではなくて、Wikipediaに関わる様々な人々、すなわちWikipediaの運営者、ユーザコミュニティ
の中の人たち、ソフトウエア開発者たちが集まる会議ということです。私はこの
手の会議にははじめて参加しました。とはいえば、会議の雰囲気は普通academic conferenceと大差はありません。
会議の構成もだいたい同じで、Plenary talkが3件、4-5の並列セッションがるという構成です。ただし、セッションの各発表はTEC、CON,COMという印がついていて、それぞれ技術的発表、コンテンツに関する発表、コミュニティに関する発表と仕分けられています。私は技術とコミュニティを中心に聴講しました。

Plenary TalkはRichard Stallman, Jimmy Wales, Sue Gardnerです。Stallmanは大人気でした。

Stallmanは基本的にいつもの話です。ただし、StallmanはWikipediaのやり方に満足していない。主張が集約されないといけないこと、必ずしも「正しい」主張が反映されないことをGNU+Linuxの記述を例にとって説明して(吠えて)いた。そもそもなぜWikimaniaでStallmanなのか。確かにフリーソフトウエアの概念を流用してWikipediaにおける知識共有の概念ができている。しかし、RMSもいっているように運営ポリシーはずいぶん違う。あとでWikipedia Foundationの人と話してわかったのは、RMSはLatin Americaではすごく任期があるのでinviteしたのではないかなと。実際、スペイン語バージョンのTalkは大変な人気だった。

Wikipediaの創始者である、Jimmy Walesは「The State of the Wiki」と題して現状について話を行った。以下は自分のtwitterから
- Wikipediaはとくにかく大きく、世界中に普及した。9言語500k+から177言語では1k+まで広がっている
- >1k+ の言語は2007までは毎年30言語づつ増えている。
- USのアクセスは少しづつ増えている程度だが、他の地域からはとても大きく増
え続けている。
- 言語人口とページ数の関係。ドイツ語はページ数が多い。中国は相対的にててもページ数が少ない。
- 全体としては成長が止まりつつある。ドイツ語も。なzだろう。もう書くことがなくなった?もっと人をまきこまないと。computer geekだけでなく。
- コミュニティは一部の人が支配していることは周知のこと。ここにいるcomputer geekとか
- 分野をみてみよう。トップ100ページをみる。日本語はPop cultureが突出している。
- このトップ100は読者がどれだけみているかということ。
- Wikipediaの方向. 知識の集積はなんののか? pop cultureとは百科事典の方向のうまくあるのか。クオリティは?
- メジャーじゃない言語をいくつか。Arabic、Chuvash
- strategy conversationにやってほしい。face2faceでもオンラインでも。
Wikipeidaはどこにいるかなど。StrtegyWikiにみなさん参加して。
(Q)マイナー言語などではサイテーションがない。そのときは書いちゃいけないのか?
(A)メジャー言語は出版が十分にある。そのときはレファレンスは十分ある.マイナー言語ではその言語じゃなくて他の言語のレファレンスを指すこともある。マイナー言語ではメジャー言語のポリシーを適用するは間違い。例えば英語では900ページのポリシーがある。もちろん信頼できるソースというのは普遍的であるべき。
(Q)方言(カタロニアとか)はどうするの?
(A)方言の問題はローカルコミュニティによる。
(A)成長は基本的に自律的。でもStrategyが効くこともある。インドの言語ではページの大きいところ少ないところがある。

Sue GardnerはWMFの事務局長?。「この1年と次の1年」とだして話をした。マスコミ出身らしくtalkがうまい。まるで、テレビのトークショーをみているよう。Jimmyの話をより具体的にして、アクションとしてブレイクダウンして話した。
- 全ての人が全ての知識をフリーにシェアできる世界を想像しよう
- アジアはまだまだ。中国とは政府と話をした。インドには今度チャプターができる。
- 普通の人を巻き込むためにusablityはてても重要。WMFはusablity projectを進めている。
- Quality問題。Journalistの経験から完璧な正確さなんてない。Wikipediaアカミーの開催。生徒や学生は未来のコントリビューター。NIHのスタッフと一緒になってWikipediaを編集した。
- 集まってStrategyを議論する。これが重要。Sweden Chapterでは実施。

Jimmyのトークでも他の発表でも大きな話題だったのが、Wikipediaの成長の鈍化でした。メジャーな言語における記事数の増加率がさちっている。登録ユーザは横ばいになっている。新規言語も減っている。これに対する原因追及と対策がコミュニティセッションの大きな話題でした。
この点は「Erik Moller: Scaling Up: Can Wikimedia Become A 300 Million People Movement By 2020? 」で詳しく議論されていた。まず原因ついて。昔は足らないところが沢山あったのでちょっとした貢献でも完全でなくても歓迎された。また創業者世代としての気負いもあった。しかし今は、(1)もう赤字がない(ないページがない)、(2)テンプレートを使っているページは編集が大変、(3)たくさんのルール。ではどうしたらよいか。
(1)壊れているところを直す。WYSWYGエディター、マルチメディア投稿のいい仕組み、ユーザビリティ向上、コミュニティ管理、ルールの整理。
(2)マイクロコンテンツを可能にする。コメント、図に対するコメント、段落に対する編集、レビュー、問題報告の仕組み。
(3)コラボレーションの新しいチャンス。ソースチェック、図描画、ビデオ編集、クイズ、翻訳、
(4)何が個々人が貢献可能かを強調する。コンテクスト依存の招待(アイルラ
ンドプロジェクトに参加しようとか)。内容依存の招待(図が足りないとか、)、
個人招待(これやって!)(5)物理的なコミュニケーション(大学とか図書館
tか)を巻き込む。ベストプラクティス。本当の社会運動に!、と。

あとは聴講したセッションから。まずはコミュニティ系。
Sorin Adam Matei, David Braun, Horia Petrache: The structure of social collaboration on Wikipedia contributorの貢献のエントロピーを測ることで、Wikipediaコミュニティの”固さ”を推定する。Entropyが最大ならばみんな貢献しているわけで、Wisdom of Crowdが効いているということ。 大きくなるについて、さちっている。これはWikipediaはだんだん固くなっているということを示している。

Jan Philipp Schmidt: Wikipedia Survey Results - Presentation and Discussion
Wikipedia初の公式サーベイ調査の中間報告。2008年11月に実施。22言語。50以上の質問。30万以上の回答のうち、有効なものは175,000件。 回答最大はなぜかロシア語。次は英語。日本語は5番目。Area の分布は- Culture & arts -> Tech & applied Sciences -> History -> geographyの順。Math&Sci.は自称エキスパート率は高いが、Culture&Artsは低い。しかし貢献が多いというところが面白い。Qualityに関しては、普通の百科事典との比較。信頼性は上位部分(信頼度上位群)では負けるが、中位ではとんとん。深さでは上位群で勝ち。バラエティでは上位群で大差。面白いのはContributor
のほうがReaderよりもコンテンツをシビアにみていること(信頼性で差がついて
いる)。

Mayo Fuster Morell: The governance of digital commons: Wikipedia Governance Case Study
コミュニティが民主的に発展するためにプラットフォームはどうあるべきかについての考察。SIX dimensions of democratic quality 1) information provision easy to use and accessible 2) Technological accessability. 3) Openness to participation in the platform 4) Openness to participation in the provision space. 5) Transparent structure and accountable financial 6) clear and open knowledge management. Distribution of participation in content generation in online communities. Participation as an eco-system 1) Openness to participation 2) Participation has multiple forms and degrees which are integrated. 3) Participation in decentralized and synchronous 4) P.in in public 5) P. is autonomous 6) In part P. is implementation. Scale of views of the Foundation 1) Foundation as an adult proctector fo the community 2) F as a leader. 3) F as any other project which take care of certain issues required to full the mssion 4) Fas a community tool wihtout a voice 5) FasVamire.

次に技術系。
MediaWiki Wave。MediaWikiのeditorをGoogle Wave上で作り替えようというもの。WYSWG, Real time Collobration. MediaWiki Waveのデモ。Google Doc風のドキュメント編集インタフェース、あるいはMediaWikiのEditページで、どちらもrealtimeで更新される。これはすごいかも。

Micah Alpern: Designing a large scale community moderation system for Yahoo! Answers / なぜかYahoo!Answersの話。Yahoo!Researchの人が発表. Yahoo!answersのmoderationは重要。伝統的な方法やMLはだめだった。community-based system
を提案。 コミュニティで自主的に報告して決定するdecision support processをフローとしてつくる。その肝はuserのreputationを使うこと。reporterがcommunityに貢献しているか、reputationはどうなのかなどを計算して、決定の一助にする。この方法でスピードと精度があがった。よしよし。ちなみにO'ReliyのWeb Reputation systemsという本に書いてある
そうだ。

HaeB: Lessons from Citizendium / Wikipediaとは別のfree百科事典プロジェクト /
違い: 実名主義、expertはeditorの役割を持ち、内容の決定権がる。社会的契約、”憲法”のよる統治。
成長しているか?。 爆発はしていない。contributorも記事の投稿数も。記事はむしろだんだん短くなっている。
問題点。Linus' law(たくさんの目があればバグなんて目じゃない)が効いてない。Expertに対する嫌疑。

全体の感想としてはstrageticに進めないといけないというWMF側のメッセージは伝わりました。しかし、それは本当にwikipediaのとるべき道か、あるいはそもそもそんなことは可能なのか(Wikipediaは自律的なコミュニティに支えられている)、という疑問が残りました。確かに巨大化し社会的な影響力ももっている今、まったく無方針というわけにいかないでしょうけど。