京大図書館の図書系職員勉強会
「Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見」
発表者: 清田陽司 氏(東京大学情報基盤センター助教)
http://kulibrarians.hp.infoseek.co.jp/114th/114th.htm
前日夜に、急遽参加させてもらうことにした。
定時ダッシュをしたが、30分遅刻。
20名以上の参加者。採用試験の受験者が数名混じっているとか。
本学さん図書館だったら、正職員の半分程度が集まっている数。
以下、簡単なメモです。(相当自分用です)
#途中からなので、文脈や展開が最初は分からず。
2.図書館の世界と、Webの世界
○情報検索の手段の変遷
・以前、 人に聞く、図書館で調べるなど
・21世紀 サーチエンジン、掲示板 など
○情報探しのニーズ
・Webで探せること = 事実
・ほんまに知りたいのは
=あるテーマについて、どんな資料から探すか
情報の「レコメンデーション」
○テーマ推薦の要件
・カバレッジ ← Web ←Wikipedia
・組織化 ? ← 図書館システム ←Wikipedia ※橋渡しに
これが定番という評価付けも含めて
・信頼性 ← 図書館システム
○Web情報の組織化の取り組み
・PageRank(Web上の民主主義)
・一般の利用者による情報組織化
ブログ:トラックバック
ソーシャルブックマーク
○情報検索におけるロングテール?
3.2つの分類...
・オントロジー 図書館的、上位概念から
・フォークソノミー Web的、ボトムアップ的な分類、複数の上位概念
ゆるやかな階層構造
Wikipedia はその二つ(上位では、オントロジー的。中位/下位ではフォークソノミー的)
#「分類」って、学生時代から嫌いというか、境界領域、学際的な社会学をしていたので。それに森羅万象全てを分類しているような態度? が感じられたので。
#なんで、若干毛嫌いしていましたが、もう少し偏見持たない方がよかったかな。
・図書館の分類体系をWikipediaで拡張してみよう!
・Wikipediaでのカテゴリーをあげていくと、図書館の分類に対応してくる。
4.技術的な話
○
・コーパスとしての利用
・表記揺れ辞書としての利用
・シソーラスとしての利用
・固有表現辞書(商品名など)
○Wikipediaの特徴
(1)多数の参加者による編集 「ガイドライン」あり
「基本方針」も編集する人は読むべき
半定形の書式
(3)外部リソースへの連携
○情報の価値評価
○カテゴリー、意外な関連性を機械的に探す研究
○Hadoop
a large-scale distributed batch processing infrastracture
大規模なデータ/分散型システム/バッチ処理専用/インフラとして(意識せずに使える)
○Hadoopのアプローチ
○既存技術との比較
・プログラミングモデルが単純
○応用タスク
・検索インデックスの作成
・レコメンデーション(協調フィルタリング)
○スケーラビリティ
#この辺りは正直よく分からなかったけど、なんとかシステムとかサービスとかの裏で、しかるべき処理が動いてるんだよな、と。
5.今後の展開
○情報リテラシー教育の題材として
○図書館とWeb 両者の役割を踏まえた見方
・図書館にはWebのいいところを
Webには図書館のいいところを
【質疑】
○OPACに関連キーワードとか出すのは技術的には可能
○OPACに提供できるものは何かないか(大量データ分析)
○書誌レコードのインデクシング、やりなおすと1週間とかかかる。
某書店の1500万件のデータを、なんと! 20分で済んだ。
すごい
○雑誌論文DBとの連携は?
GacosってDBのDBも作ってます。
PC側にプラグイン的に入れるとかどう?
「東大版LibX」FireFox用のプラグイン
「Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見」
発表者: 清田陽司 氏(東京大学情報基盤センター助教)
http://kulibrarians.hp.infoseek.co.jp/114th/114th.htm
前日夜に、急遽参加させてもらうことにした。
定時ダッシュをしたが、30分遅刻。
20名以上の参加者。採用試験の受験者が数名混じっているとか。
本学さん図書館だったら、正職員の半分程度が集まっている数。
以下、簡単なメモです。(相当自分用です)
#途中からなので、文脈や展開が最初は分からず。
2.図書館の世界と、Webの世界
○情報検索の手段の変遷
・以前、 人に聞く、図書館で調べるなど
・21世紀 サーチエンジン、掲示板 など
○情報探しのニーズ
・Webで探せること = 事実
・ほんまに知りたいのは
=あるテーマについて、どんな資料から探すか
情報の「レコメンデーション」
○テーマ推薦の要件
・カバレッジ ← Web ←Wikipedia
・組織化 ? ← 図書館システム ←Wikipedia ※橋渡しに
これが定番という評価付けも含めて
・信頼性 ← 図書館システム
○Web情報の組織化の取り組み
・PageRank(Web上の民主主義)
・一般の利用者による情報組織化
ブログ:トラックバック
ソーシャルブックマーク
○情報検索におけるロングテール?
3.2つの分類...
・オントロジー 図書館的、上位概念から
・フォークソノミー Web的、ボトムアップ的な分類、複数の上位概念
ゆるやかな階層構造
Wikipedia はその二つ(上位では、オントロジー的。中位/下位ではフォークソノミー的)
#「分類」って、学生時代から嫌いというか、境界領域、学際的な社会学をしていたので。それに森羅万象全てを分類しているような態度? が感じられたので。
#なんで、若干毛嫌いしていましたが、もう少し偏見持たない方がよかったかな。
・図書館の分類体系をWikipediaで拡張してみよう!
・Wikipediaでのカテゴリーをあげていくと、図書館の分類に対応してくる。
4.技術的な話
○
・コーパスとしての利用
・表記揺れ辞書としての利用
・シソーラスとしての利用
・固有表現辞書(商品名など)
○Wikipediaの特徴
(1)多数の参加者による編集 「ガイドライン」あり
「基本方針」も編集する人は読むべき
半定形の書式
(3)外部リソースへの連携
○情報の価値評価
○カテゴリー、意外な関連性を機械的に探す研究
○Hadoop
a large-scale distributed batch processing infrastracture
大規模なデータ/分散型システム/バッチ処理専用/インフラとして(意識せずに使える)
○Hadoopのアプローチ
○既存技術との比較
・プログラミングモデルが単純
○応用タスク
・検索インデックスの作成
・レコメンデーション(協調フィルタリング)
○スケーラビリティ
#この辺りは正直よく分からなかったけど、なんとかシステムとかサービスとかの裏で、しかるべき処理が動いてるんだよな、と。
5.今後の展開
○情報リテラシー教育の題材として
○図書館とWeb 両者の役割を踏まえた見方
・図書館にはWebのいいところを
Webには図書館のいいところを
【質疑】
○OPACに関連キーワードとか出すのは技術的には可能
○OPACに提供できるものは何かないか(大量データ分析)
○書誌レコードのインデクシング、やりなおすと1週間とかかかる。
某書店の1500万件のデータを、なんと! 20分で済んだ。
すごい
○雑誌論文DBとの連携は?
GacosってDBのDBも作ってます。
PC側にプラグイン的に入れるとかどう?
「東大版LibX」FireFox用のプラグイン
※コメント投稿者のブログIDはブログ作成者のみに通知されます