goo blog サービス終了のお知らせ 

りぶろぐ

a weblog on librarianship

Google Book Search のデータで蔵書検索システムを作成?

2006-09-02 02:04:16 | IT
http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2164

#Google Book Search ネタが続くなぁ

「作りたい」と前エントリで書いたけど,Google Book Search に協力している University of Michigan はすでに MBooks とかいうシステムを作る予定なんだそうな.

8月31日付け"Chronicle of higher education"によると、ミシガン大学が"Google Book Search"で得られたデジタルデータを利用して、新しい蔵書検索システムを構築する予定であると報じています。

スキャンしたデータは、OCRで文字認識がなされていて、本文検索が可能ということで、本文の中身を検索して、著作権の存続期間が終了した図書は全文データを、著作権が存続している図書は、検索した単語が出てくるページと頻度が表示されるようなシステムになるそうです。また著作権の存続期間が満了した図書は、Google Book Searchとは異なり、テキストデータが提供されるそうです。このデジタルデータを、ミシガン大学は"MBooks"と呼んでいるそうです。


うーん.Google Book Search で提供されるのは書籍の各ページの画像データであるのに対して,この MBooks ではコピペ可能なテキストデータが(もちろん著作権切れの図書に限定して)提供されるという点がアドバンテージということだろうか.そしてそれは Google が PDF を提供し始めてもさほど変わらないと……(ダウンロードできる PDF は画像をパッキングしただけだしな)

確かにテキストでデータをくれりゃあコピペに限らず,Perl などのプログラミング言語での処理,他アプリケーションでの再利用も簡単にできるようになる.なかなか良いアイディアじゃないか.感心した.

さて,しかしながら,コピペが可能となると,次に問題になるのは剽窃 plagiarism なわけだ.

* * *


U. of Michigan Adds Books Digitized by Google to Online Catalog, but Limits Use of Some
には,

Steven J. Bell, director of the library at Philadelphia University, said Michigan's new digital-book service could spur more scholars around the world to use interlibrary loans to request single pages or groups of pages from books held by Michigan. After all, if scholars can consult Michigan's online catalog to find out which pages contain the terms they are looking for, they might request just those pages rather than the entire book.

とある.つまり,この MBooks が ILL(赤字)と組み合わせて使えるということだ.具体的にはどういうことか?

最初に引用したニュースソースにも書いてあるように,著作権が切れてない図書に関しては「検索した単語が出てくるページと頻度が表示される」ようになっているので,ある図書のうち必要な/自分が読みたいページはどこなのかを MBooks で特定し,そのページだけを ILL でコピー請求する.こうすれば依頼元/先ともにコストが節約できるというわけか.

Google Book Search で著作権が消滅した図書を全文公開

2006-09-02 01:34:57 | IT
http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2157

Google Book Searchが著作権が消滅し、パブリックドメインとなった図書の全文を、pdfフォーマットで公開することになったそうです。

全文公開の対象である図書は、"Full View"を表示させると右横に、"Download"ボタンが表示され、ファイルをダウンロードすることができます。提供されるpdfファイルには、図書館の本をスキャンしたデータで、なおかつ著作権が消滅していることや、使用ガイドラインを示した文章が冒頭に添付されているほか、各ページには "Digitized by Google"の透かしが入れられています。

Google公式ブログによると、よく知られた古典から隠れた名作まで、パブリックドメインになった多種多様な書物を、無料で読むことができますと、アピールしています。



当然の展開だね.スキャンして検索できてるんだから全文公開なんて容易いもんだろう.

* * *

興味があるひとは Google Book Search でテキストボックスの下部にある Search オプションを "Full view books" にしてなにか検索してみよう.

例えば,

Google Book Search - The Three First Sections and Part of the Seventh Section of Newton's Principia

はニュートン『プリンキピア』の一部.

右メニューの Download をクリックすれば PDF のダウンロードが始まる.蔵書印には Harvard College Library とある.ページによって紙の色が茶色だったりそうでなかったりというのが気になる.

* * *

Google Book Search もそのうち API が公開されるんだろうか? それでは一般ユーザはもちろんデジタル化に協力してない図書館も Google Book Search を利用してアプリケーションを作れてしまうが……

個人的にはもちろん公開してほしい.なにか作ってみたい.

Amazon.com のデータを MARC に変換するツール

2006-08-24 20:40:30 | IT
http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2126

米 Amazon.com が提供している書誌データを、MARC 形式に変換するツールが開発されています。ASIN番号を入れて検索すると、MARC 形式のデータが表示されます。開発者いわく「件名標目にはご注意ください」とのことです。なお、日本の Amazon.co.jp には対応していません。

#ASIN は Amazon Standard Identification Number なので「ASIN 番号」という表現はなんだかな.でもソース元の Catalogablog のほうでも an ASIN number となっている.いいのか……?



使い道があるんだろうかと疑問に思うが,とりあえず試してみる.例として Peter Morville の Ambient Findability

http://www.amazon.com/gp/product/0596007655/

を使ってみよう.これは情報検索 Information Retrieval に関する面白い本で,最近翻訳が出たばかり.この URL の末尾にある 0596007655 という数字がこの本の ASIN になっている.

結果は次の通り.引用もしておく.

http://chopac.org/cgi-bin/tools/az2marc.pl?kw=0596007655

000 00000nam  2200000 a 4500
001 ASIN0596007655
008 060824s2005    xxu                 eng d
020    0596007655 |c $29.95
024 3  9780596007652
082 04 025.04
100 1  Morville, Peter.
245 10 Ambient findability / |c Peter Morville.
250    1st ed.
260    [S.l.] : |b O'Reilly Media, |c 2005.
300    188 p. ; |c 21 cm.
500    Paperback.
520    How do you find your way in an age of information overload? How can you filter streams of complex information...
650  0 Computer - Internet.
650  0 Computer Books: Web Programming.
650  0 Computers.
650  0 Computers - General Information.
650  0 Information retrieval.
650  0 Internet.
650  0 Internet - General.
650  0 Internet - Web Site Design.
650  0 Internet searching.
650  0 Social Aspects - General.
650  0 Social aspects.
650  0 Computers / General Information.
650  0 Computers / Internet / Web Site Design.
650  0 Computers / Social Aspects / General.
650  0 Computers/Internet - General.
650  0 Database design.
650  0 Database searching.
856 40 |3 Amazon.com |u http://www.amazon.com/exec/obidos/redirect...


これが MARC データ(MARC フォーマットに基づいた書誌データ)というやつ.見たことなかったひともいるかもしれない.

左端の3桁の数字がフィールド識別子.650 が件名標目 Subject Headings を表してるんだと思うが,これは Amazon.com のディレクトリ構造をそのまま持ってきただけ……?

MySpace Becomes LibrarySpace

2006-08-18 10:37:35 | IT
http://www.libraryjournal.com/article/CA6359872.html

LibraryJournal の記事より.短いので全文引用する.


The megapopular MySpace has become the online home for many teens and young adults, and numerous libraries are beginning to set up their own accounts to meet their patrons there, offering links to library resources, contacts with librarians, and lists of “friends.” Given the MySpace template, libraries may come off as teens or dowagers. The Westmont Public Library, IL, is described as “Female, 18 years old,” while the Brooklyn College Library is “Female, 76 years old.” Still, librarians recognize that they may be providing mixed messages. The Hennepin County Library, MN (Female, 86 years old), for example, tells its patrons that it “does not in any way endorse the ads at the top of this page.”


アメリカの図書館(ここでは Westmont Public Library, Brooklyn College Library, Hennepin County Library が挙げられている)が MySpace(有名な SNS サイト)のアカウントを取得し,そのなかで利用者(英語では「パトロン patron」)への PR やコミュニケーションおこなっているらしい.記事執筆者はこの状況を LibrarySpace とあらわしている.

「lists of "friends"」という部分が気になる.「友人」とはほかの図書館のことをさしてるんだろうか.


References:
http://ja.wikipedia.org/wiki/MySpace


***

おなじようなことを mixi(じゃなくてもいいけど.国内の SNS)でやってる図書館はあるだろうか.「まる3」こと山中湖情報創造館の丸山さんは司書コミュでも積極的に話題提供をされてるけど,あれは個人としての側面が強いように感じる.

mixi では図書館界の有名人をちらほら見かける.『図書館に訊け!』を書いたあの人とか,わたしが勝手にライバル視してるあの人とか……


SRW/SRU/CQL

2006-07-21 03:11:15 | IT
http://www.loc.gov/standards/sru/

今月の『情報の科学と技術』は標準規格特集だった.SRW の解説が載ってた平山亮「情報検索および図書館相互貸借の標準規格」だけ読み,それを足がかりに少しばかし SRW/SRU/CQL の勉強をした.不親切なメモを残しておく.

* * *

これらは米国議会図書館(LC)が管理してる規格で,国会図書館のデジタルアーカイブポータルでも使われてる.

前世代の Z39.50 は図書館ハンドブックにも載っているし,国立大の過去問で見たような気がするから,こいつらが試験に出る日も来るのだろうか.少なくともわたしが問題作成者なら出してみたいね.

*

まず略称から:
SRW = Search Retrieve Web services
SRU = Search Retrieve via URL
CQL = Common Query Language

これらの規格は LC (Library of Congress) の標準化グループのひとつ ZING (Z39.50 International: Next Generation) が管理している.

Z39.50は情報検索のためのプロトコル(詳細は知らない).複数の(仕様の違う)OPAC を横断的に検索するために用いられている.でも別に図書館用に限った規格じゃないらしい.

一言でまとめると,Z39.50を Web サービス時代にしたら SRW になったというところだろうか.当然のように SRW は SOAP/WSDL/UDDI ベースである.XML で検索要求を出し,その結果は XML で返ってくる.

一方の WRU は SRW の HTTP GET 版である.つまり,SRW ではタグで記述してるものを,
http://www.moge.com/hoge?xxxx=yyyy&zzzz=aaaa
と URL のうしろにだらだらとくっつけて検索要求を出すことになる.だから "via URL" という.お返事は XML で来る.

SRU の機能は SRW と同等だと思う.いわば違いは POST か GET か,だけ.でも上のサイトは SRU がメインになっていて "SRW is a variation of SRU." と言ってるから,SRU のほうがおすすめなのだろう.

*

あくまで SRW/SRU は情報検索における要求/応答のやりかた(≒どんなデータを送って,どんなデータを返すか)を規定するもの.それに対して,CQL は SRW/SRU のなか(うえ?)で用いる検索用の言語である.

CQL はシンプルな文法かつパワフルな検索能力を目指したらしい.言語仕様が簡単かどうかは分からない.わたしには下のページで「難しい」ほうに分類されてる SQL が難しいとは思えないし.でも確かに prox や encloses は便利そうなので,ある程度強力とは言えるかもしれない.

CQL について詳しくはここを参照:
http://www.loc.gov/standards/sru/cql/index.html

Linking to OPAC (powered by Greasemonkey)

2006-03-01 00:34:37 | IT
http://www2.aasa.ac.jp/org/lib/j/issues_j/metomimi/metomimi2005.html#20050714
http://www.yasuhisa.com/could/entries/000754.php

Amazon から図書館 OPAC へリンクを貼るというテクニック.
技術的には Firefox & Greasemonkey に依るもので,他のブラウザでは利用できないんだとか.

どうも JavaScript を使っているようですね.単に,
1. 表示中のページから JS を使って(ISBN などの)メタデータを抽出する
2. そのメタデータを使って OPAC へリンクを貼る
というだけなんじゃないかと想像します.

OpenURL や CrossRef に比べれば格段にスマートさに欠けますが,
実に簡単で実用的な方法ですね.お見事.

***

2番目のリンク先で,
「残念ながら検索はあまり便利そうではないです。
せめてAmazonのようにWishlistみたいなのを作れてアラートとか出来たら良いのにと思ってしまいます。」
という指摘がされてます.

ごもっとも.わたしは OPAC システムは Amazon に限らずオンラインショッピングサイトをもっと真似るべきだと思っています.
基本的なところではカート機能なんてね.
例えば愛知淑徳大学図書館の OPAC には(ちょっとイメージが違うものの)カート機能があります.

この指摘のような機能をつけるためには,所謂 "MyLibrary" の導入が手っ取りばやいんでしょう.

もはや枯れた感じすら漂う OPAC にも改良の余地は多いです.