MsknGooBlog

IT技術を活用した効率化、Security対策や快適なLifeStyleのためのNewsのClipや実践メモを綴ります。

富士通、国立公文書館の「デジタルアーカイブ・システム」を構築

2005-06-15 23:34:05 | デジタルアーカイブ
6月15日のプレス記事より。4月1日に運用を開始しているのに、なぜ今頃?
富士通、国立公文書館の「デジタルアーカイブ・システム」を構築
当社は、独立行政法人国立公文書館(館長:菊池 光興、所在:東京都千代田区、以下、国立公文書館)様が4月1日より運用を開始した「デジタルアーカイブ」のサービスのうち、「デジタルアーカイブ・システム」を構築しました。
 「デジタルアーカイブ・システム」は、国立公文書館様が所蔵する歴史公文書等の資料のうち約180万画像を、目録データベースから検索し、インターネットを経由して閲覧するサービスです。
 「デジタルアーカイブ」は、歴史公文書等の資料を、目録データベースから目録情報を検索し、資料のデジタル画像を閲覧できる「デジタルアーカイブ・システム」と、重要文化財の国絵図等の大判資料などを高精細なカラー画像で閲覧できる「デジタル・ギャラリー」の2つからなります。


RSSデータを活用したソリューション(RSSニュース他)

2005-05-24 19:59:06 | デジタルアーカイブ
サイトにRSSデータを置くことにより、ロボットのクローリングでも無駄なアクセスをさせずに、有用な情報をインデキシングさせるソリューションです。今や有用な情報の収集は、ロボットでリンクをたどるのではなく、ホームページの開設者の意思によって設置されたRSSを利用してそのURLで直接収集することが効果的。
適用例2:RSSデータを活用したソリューション(RSSニュース他) | データマイニングへの適用 | 構造計画研究所 XMLエージェントプラットフォーム
RSSデータは、更新情報をいち早く配信することに重点が置かれており、Webサイトのトップページなど利用者がアクセスしやすいページに配置されます。これまでもニュースサイトをマイニングするソリューションは存在しましたが、サイト全体をクローリングしてデータ収集するなど、サイトにかかる処理負荷が問題とされることがありました。ここに示すソリューションのように、RSSデータを介してニュース本文にアクセスする方法であれば、サイトに無駄な負荷をかけずにデータにアクセスできます。
多くのサイトでは、一定期間を過ぎるとサイトからRSSデータは消去されます。データマイニングの多くの場合には、長期に渡るデータを対象としますが、RSSデータを扱う際には手元に保存する仕組みが必要となります。XMLエージェントプラットフォームにより、定期的にRSSデータを収集することができます。
RSSデータの関連技術は、近年普及がはじまった新しい技術ですが、個人や企業に応じて必要となるデータをWeb上から抽出する技術として注目されています。XMLエージェントプラットフォームを適用して、RSSデータを利用したソリューションの構築が実現できます。

ソースネクスト、PDFをWordやExcel書類に変換する「いきなりPDF to Data」

2005-03-17 12:59:26 | デジタルアーカイブ
今までにこのようなソフトはなかったのだろうか。個人的に使用すれば、著作権法に触れない?
ソースネクスト、PDFをWordやExcel書類に変換する「いきなりPDF to Data」
いきなりPDF to Dataは、OCR(文字認識)技術によりPDFの文字やレイアウトを読み取り、WordやExcel、Text、JPEG、BMPなどのファイル形式に変換するソフト。Excel形式で出力した場合には、PDFの表組みがセルに入力されるほか色も反映される。複数のPDFファイルを一括して希望のファイル形式に変換することも可能だ。
 このほか、出力ファイル形式をJPEGやBMPにすることで、PDFの文字に加えて写真を画像として読み取る機能も搭載する。なお、画像として読み取った場合、テキストの編集は行なえない。


P2P技術とは何か~ブローカレス理論からSNSによるファイル交換サービスまで

2005-03-08 12:52:31 | デジタルアーカイブ
P2Pの3つの分類はわかりやすい。情報の所在はメタデータの流通と一次情報の流通の仕方の違い。デジタルアーカイブのポータルも、当面はWebサービス連携かもしれないが、その先にP2Pを使った検索・提供の方式を採用することになると思われる。
P2P技術とは何か~ブローカレス理論からSNSによるファイル交換サービスまで
1998年にスタートしたファイル交換サービスのNapsterは、サーバーが存在するハイブリッド型のサービス。2000年には米国でサーバーが存在しないピュアP2P型のGnutellaが、2002年には同じくピュアP2P型のWinnyが日本国内でリリースされている。上村氏は、こうしたP2Pソフトの振る舞いをファイルの検索と転送の違いから、3つの類型に分類した。
 上村氏によると、NapsterやWinMXは、ファイル転送は直接P2Pで行なわれるが、ファイル検索においてはクライアントとは非同期で異なる役割を持つノードが存在する“仲介型”。Gnutellaは、転送は直接行なわれ、検索は分散的に行なわれる“伝言型”、WinnyやFreenetは検索、転送ともに分散して行なわれる“放流型”となる。
 上村氏は今後のP2Pのトレンドとして、ネットワークレベルのP2Pに注目しているという。「例えば、米国では無線アドホックネットワークが注目されている。こうした伝送レベルのP2Pネットワークでは、IPアドレスでの追跡も難しくなるはずだ」とコメント。さらに、「ソーシャルネットワークサービス(SNS)はP2Pネットワークよりも深いコミュニケーションができるため、SNSでファイル交換サービスが発生することもありえる」との見方を示した。

世界のWebサーバーが6,000万台を突破、Apacheが7割のシェア~Netcraft調査

2005-03-04 12:48:01 | デジタルアーカイブ
どのような調査方法かはわかりませんが、数字として参考になります。特に伸び率、シェアは、今後の予測に活用できそうです。
世界のWebサーバーが6,000万台を突破、Apacheが7割のシェア~Netcraft調査
調査によれば、2005年3月時点でHTTPリクエストに応答のあったWebサーバーの数は6,044万2,655台と過去最高を記録。2004年5月に5,000万台を突破してから10カ月で6,000万台に到達したことになり、過去に最も速い増加を見せた2000年頃のペースに近づいてきているという。
 Webサーバーに利用されているプログラムについての調査では、Apacheが全体の69.19%を占め、過去最大のシェアとなった。IISなどMicrosoft製のプログラムは20.55%で、このほかにはSun Microsystems製が3.04%、Zeus Technology製が1.40%という結果になっている。

ちょっとしたメモ - 時間軸を使うURIスキーム、tag:がRFCに

2005-02-28 12:56:53 | デジタルアーカイブ
時間軸を使うURIスキームということで、今後のIRIやURIを考える上で参考になると思います。
ちょっとしたメモ - 時間軸を使うURIスキーム、tag:がRFCに
今どきtagというと流行のfolksonomyのことと思ってしまいそうだが、これは全く別物で、tag:というスキームを用いる新しいURIを定義するもの。近くInformational RFCとなることが告知された。特徴としては、名前解決(リソース取得)を前提としないのでネットワーク上に存在しないものの名前付けに使いやすいこと;時間軸を持っているので、将来にわたって名前の衝突(重複)を回避できること;が挙げられる。
~中略~
名前付けという意味では、urn:スキームも同様だが、こちらはいろいろと登録が必要で面倒だ。これに対し、tag:の場合はドメイン名かメールアドレスを持っていれば、誰でも簡単にURIをつくることができる。
tag: URIの基本的な形は、「tag: DNS名もしくはメールアドレス ',' 年月日 ':' ローカル名」というもの。たとえば、pochiという名前のペットにURIを与えるならば、次のような具合だ。
(例)
tag:kanzaki.com,2005-02-25:pochi
tag:webmaster@kanzaki.com,2005:pochi
日付の部分は、年-月-日、年-月、年のどれでもよいが、月(日)を省略するとその年(月)の最初の日を表す。この日付を加えることで、来年にこのサイトのウェブマスターが誰かに交代したとしても、このURIで識別している内容は不変ということになるわけだ(URIと時間の関係は長年のテーマであり、tag:によく似たurn:duri:という提案もあった)。

IT政策パッケージ-2005 ―世界最先端のIT国家の実現に向けて―

2005-02-26 10:09:45 | デジタルアーカイブ
2月24日にIT戦略本部で決定した、「IT政策パッケージ-2005 」で、国のデジタルアーカイブおよびデジタルアーカイブのポータルに関して、推進のための方針策定がうたわれています。
IT政策パッケージ-2005 ―世界最先端のIT国家の実現に向けて―
政府のデジタルコンテンツのアーカイブ化の推進(内閣官房及び全府省)
国立国会図書館におけるネットワーク系電子出版物の収集やデジタルアーカイブの統合ポータルサイトの構築等の取り組みを活用し、国等の有するデジタルコンテンツのアーカイブ化を一層強化するため、デジタルアーカイブの推進に関する関係省庁連絡会議において、政府等のデジタルアーカイブ構築・運用に関する基本方針を2005年中に策定する。


「ILM普及のカギはコンプライアンス」、米ストレージテックCEO語る

2005-02-08 12:49:53 | デジタルアーカイブ
短期的な保存と閲覧の保証のための技術は法令順守がきっかけになるとは思いますが、長期的な保存に関しては、まだまだ技術開発が未成熟。ファイル形式が変わってしまって物理的に読めても論理的に読めなくなるのは、ある意味、所管の省庁、標準化推進団体やベンダーの責任が重いと思いますが、なにが保証をする技術開発、製品開発のトリガーになり得るのでしょう。
「ILM普及のカギはコンプライアンス」、米ストレージテックCEO語る : IT Pro ニュース
 「ILM(情報ライフサイクル管理)は今後、コンプライアンス(法令順守)がドライバになって、より普及するだろう」。米ストレージ・テクノロジー(ストレージテック)のパット・マーチン会長兼社長兼CEO(最高経営責任者)はこう語る。ILMは、企業が扱う情報を重要性やアクセス頻度に応じて最適なストレージに格納するという考え方である。
~中略~
 また同氏は、コンプライアンスではストレージのセキュリティも重要であると強調する。格納するデータを暗号化できるストレージ製品は同社には今のところないが、ここ1~2年の間に暗号化機能を組み込んだ製品を出荷する見込みだという。


政府:公文書、一元管理へ 散逸防止で「中間書庫」創設

2005-02-08 10:40:23 | デジタルアーカイブ
そもそも管理が大変だから散逸したり、廃棄されたのではなくて、情報公開法で定められた開示請求期限が過ぎたものは「廃棄」するという姿勢で、廃棄してきたことが、これによって変わるのでしょうか?
それよりも、発信文書、決裁文書など本来の公文書は集められないから、情報公開法の中で「公開情報」として公開されているホームページ上の情報や、政府刊行物として「刊行」されている情報を「公文書」ということで集めることで、役割や義務をすり替えていくことが危惧されます。
政府:公文書、一元管理へ 散逸防止で「中間書庫」創設
 政府は7日、公文書の集中管理システムの構築を05年度から本格化する方針を固めた。各省庁ごとに保存している現行方式を改め、重要文書を一元管理する「中間書庫」を創設し、散逸を防ぐ。05年度予算案で調査費1600万円を初めて計上して基本設計を進め「公文書保存の後進国」と指摘される現状の是正に取り組む。
 公文書は現在、各省庁の規則で最大30年間保存される。期限後は国立公文書館法に基づき、保存、廃棄などを決めている。しかし、欧米諸国のような文書管理法がなく、各省庁の管理が徹底せず、保存期間中に散逸したり、廃棄されるケースが続発。情報公開法で開示請求しても「不存在」とされた例が03年度で2059件にも上っている。
 集中管理システムは、各省庁で保存する公文書のうち、重要なものを「中間書庫」に移し、専門職員が保存、維持に当たる。期限が到来した段階で、国立公文書館で永久保存するか決める。

@IT:「ILM標準化には2~5年」、米SNIA会長

2005-01-29 12:13:35 | デジタルアーカイブ
ストレージの情報ライフサイクル管理(ILM)の標準化について「策定までは2~5年かかる」ということだが、策定された時に、今から導入するシステムが、全面リプレースする羽目にならないようにベンダーの努力を期待したい。
@IT:「ILM標準化には2~5年」、米SNIA会長
各ストレージベンダが提唱しているILMのソリューションはプラットフォームが単一のことが多く、データの分析、割り振りについてもある程度、解決されている。しかし、さまざまなベンダのストレージ、プラットフォームが混在する環境では「データのクラス分けの標準化が必要になる」(アダムス氏)。また、アダムス氏はヘテロジニアス環境のストレージについて「上位のアプリケーションに対する認識が重要になる」と指摘し、ビジネスプロセスに合致するデータ・ライフサイクルの構築が求められると説明した。
 データをクラス分けするには、そのデータに関する定義をストレージ業界だけでなく、ユーザー企業の内部でも統一する必要がある。そのようにベンダだけでは解決できない問題をはらむだけに標準化に時間がかかるというのがアダムス氏の考えだ。アダムス氏は「SNIAや各企業がリーダーシップを発揮して進めることが大切だ」と強調した。



「INTERNET magazine」、バックナンバーをPDF化 - CNET Japan

2005-01-29 12:01:54 | デジタルアーカイブ
さすが電子出版に力を入れているインプレスの理想的なビジネスモデル。バックナンバーを出版社自身がデジタル化し、直近のものは有料で提供し、ある年数が過ぎたものは無料で公開する。すべての出版社が、冊子体の出版物と電子書籍の位置付けを、このような観点で整理した事業展開をしてくれると日本のデジタルアーカイブの構築が現実味を増す。ある年数を過ぎたものを国立国会図書館が文化的資産として収集し、将来での利活用を保証する形でデジタルアーカイブに永久保存するという構想が促進できる。
「INTERNET magazine」、バックナンバーをPDF化 - CNET Japan
株式会社インプレス(本社:東京都千代田区、代表取締役社長:塚本慶一郎)は、月刊誌「INTERNET magazine」のリニューアルに伴い、バックナンバーをWebで公開するサービス「INTERNET magazineデジタルアーカイブス」を1月29日より開始いたします。  この度一般公開するバックナンバーは、創刊号(1994年9月発売)~2002年2月号(2001年12月発売)までの約7年間に発行された「INTERNET magazine」全85巻です。対象号の記事は、月刊誌「INTERNET magazine」のwebサイト(http://internet.impress.co.jp/)のコンテンツとしてPDF形式で公開され、キーワードによる全文検索や目次から記事へのジャンプが可能です。
 また今後も、発売後3年以上経過した号については、「INTERNET magazineデジタルアーカイブス」に追加収録し広く一般に公開してまいります。ただし、最新号より直近3年間分の記事は、「INTERNET magazine」定期購読者を対象にした会員制サービスとして限定公開いたします。


2004年上半期国内ストレージソフト市場は好調、前年比10%増

2005-01-26 17:45:29 | デジタルアーカイブ
今後のストレージは、まぎれもなく、ILM(Information Lifecycle Management)の考え方に基づくものになることを実感します。数年後を見越して巨大な容量を一気に導入するのではなく、このようなシステムの管理下で年々必要な容量を追加していることが一般化しそうです。
ITmediaニュース:2004年上半期国内ストレージソフト市場は好調、前年比10%増
ネットワークストレージは、DAS(Direct Attached Storage)から着実に置換されてきており、バックアップ統合・ストレージリソースの一元管理など、ストレージソフトウェアの導入効果が発揮されやすい環境が整ってきたことも市場拡大を促進していると、同社は分析している。
 同社ストレージシステムズリサーチマネージャーの鈴木康介氏によれば、「今後は、ILM(Information Lifecycle Management)の考え方に基づくデータ自動再配置などのストレージ管理ソフトウェアが、その機能拡張と共に市場を広げていくだろう」と見ている。



特集:前編 WebサービスをAmazonで知る――ECS 4.0でアフィリエイト (1/5)

2005-01-21 16:35:34 | デジタルアーカイブ
自らデータプロバイダであり、かつ、サービスプロバイダであるAmazonは、そのデータプロバイダとして提供するデータを、広く一般に対して提供し、一般利用者がサービスプロバイダとなることを支援してくれています。それぞれのデジタルアーカイブを持つデータプロバイダが同じように、Webサービスベースでアクセスできるようにしてくれると、様々な付加価値を持ったサービスプロバイダが立ち上がることができる。双方にインセンティブがあって、理想的なビジネスモデルになっているのではないか。
ITmedia エンタープライズ:特集:前編 WebサービスをAmazonで知る――ECS 4.0でアフィリエイト (1/5)
いまや世界中でいちばん利用されているWebサービスといっても差し支えがないAmazonのWebサービスは2004年、「Amazon E-Commerce Service 4.0」(以下、ECS 4.0)と名前を新たにし、メージャーバージョンアップを果たしたのです。
~中略~
また、ECS 4.0を利用すれば、Amazon.comやAmazon.co.jpといった既存のAmazonのWebサイトと同等の機能を、そっくりそのまま自分でプログラミングして作り上げることも可能です。
 「Amazonが持っている、ほとんどすべての情報を自由に使ってよいですよ。それを利用して、われわれが考えつかないような新しいサービス自由に考えてください」。一般のプログラマーから見ると、AmazonがWebサービスを公開している趣旨を、このようにも読み取れます。

米Googleが画像管理ソフト「Picasa2」を発表~P2Pソフトで画像の共有も

2005-01-20 12:56:05 | デジタルアーカイブ
Googleの戦略的な位置づけはわかりませんが、インデキシングを目的として、ウェブサイトやデジタルコンテンツのセマンティック化が推進されることを狙って、このようなソフトウェアを提供しているのでしょうか。データプロバイダが持つべき標準的な機能の一つを提供するツールにみえます。
米Googleが画像管理ソフト「Picasa2」を発表~P2Pソフトで画像の共有も
今回のバージョンアップでは、デジタルカメラで撮影した画像の編集管理機能を大幅に強化。エフェクトの種類が12種類に増えたほか、画像にキャプションをつけたり、後々検索しやすくするためのラベルを画像に添付することが可能になった。さらにCDライティング機能が追加され、これまで撮影した画像を1枚のCDやDVDにアーカイブできるようになった。さらにWebメールサービス「Gmail」、ブログサービス「Blogger」など他のGoogleサービスとの連携強化や、Picasaが無償配布しているP2P写真共有ソフト「Hello」を使って写真の共有もできるようになった。

企業サイトが歴史を持つとき―デジタルアーカイブの考え方を参考にする

2004-11-28 20:51:01 | デジタルアーカイブ
組織のWebサイトを運用する上で、過去の情報もきちんと見られるようにすることが重要で、どういう点に気をつけるべきかが述べられており参考になります。しかし、美術館博物館公文書館デジタルアーカイブを構築するときの考え方を参考にするということで示されているが、この説明はかなり無理がありそうです。所蔵品、所蔵資料を見に来てもらうために、その一部を見せる美術館博物館と、公文書を見たい人に来なくても見られるようにする公文書館デジタルアーカイブの位置付もデジタル化の考え方も全く違う。参考になるのは、美術館博物館的なWebサイト。「公文書の原本」を保存することが役割の公文書館が例になっているのは、例にすることがPRの意味に使われているようで恣意的に感じる。所蔵しているところに行かなくても、いつでもどこでも情報を得られるようにすることを真剣に考えて、デジタル化の推進やデジタル情報の収集を図っている図書館や、その情報を利活用するためのインフラの構築を目指している組織を参考にすべきでしょう。



企業サイトが歴史を持つとき―デジタルアーカイブの考え方を参考にする自社 Web サイトにおいて、以下のポイントに関してどのようなポリシーが設定されているだろうか? 1.What’s new? 記事の保存期間2.各ファイル内の日付記述法3.生産終了・扱い終了の製品・商品情報の掲載4.サイト内検索の検索結果表示5.サイト構造変更後の新ページへの誘導 ~中略~企業 Web サイトの登場から時間が経ち、「今」だけの情報を提供すればよい一過性の存在ではなく、長く運営・維持するものとなってきている。歴史を持つものとしてとらえた場合、企業 Web サイトのデータの保存の仕方、そしてユーザーへの提示の仕方については、デジタルアーカイブの考え方が参考となるのではないだろうか。