日 時:令和4年6月10日(金)16:00~17:30
場 所:オンライン開催
講 師:■モデレータ:
・大向一輝氏(東京大学大学院 人文社会系研究科 准教授)
■モデレータアシスタント:
・青池亨(国立国会図書館電子情報部電子情報企画課次世代システム開発研究室)
■アイデアソンチューター:
・中村覚氏(国立国会図書館非常勤調査員、東京大学史料編纂所 助教)ほか
内 容:国立国会図書館は、所蔵するほぼ全てのデジタル化資料のOCR処理によるテキスト化事業を実施し、
明治期以降の図書・雑誌等約247万点(2.2億画像)のテキストデータを作成しました。
著作権保護期間満了資料のテキストは、「次世代デジタルライブラリー」で本文検索が可能です。
全てのテキストは、令和4年12月リリース予定の次期「国立国会図書館デジタルコレクション」の全文検索にも利用されます。
この膨大なテキストデータは、新たな情報探索のためのサービス開発、テキストマイニングを用いた研究にも利用できると考えます。
また、本文テキスト以外に、デジタル化資料の画像から自動抽出した、図表・挿絵・写真等の図版データもあります。
これらの膨大なデータセットの活用可能性について、参加者皆で討論して考えるためのアイデアソンを開催します。
参加費は無料ですが、事前申込が必要です。
詳細ホームページ:https://lab.ndl.go.jp/event/joss2022/
場 所:オンライン開催
講 師:■モデレータ:
・大向一輝氏(東京大学大学院 人文社会系研究科 准教授)
■モデレータアシスタント:
・青池亨(国立国会図書館電子情報部電子情報企画課次世代システム開発研究室)
■アイデアソンチューター:
・中村覚氏(国立国会図書館非常勤調査員、東京大学史料編纂所 助教)ほか
内 容:国立国会図書館は、所蔵するほぼ全てのデジタル化資料のOCR処理によるテキスト化事業を実施し、
明治期以降の図書・雑誌等約247万点(2.2億画像)のテキストデータを作成しました。
著作権保護期間満了資料のテキストは、「次世代デジタルライブラリー」で本文検索が可能です。
全てのテキストは、令和4年12月リリース予定の次期「国立国会図書館デジタルコレクション」の全文検索にも利用されます。
この膨大なテキストデータは、新たな情報探索のためのサービス開発、テキストマイニングを用いた研究にも利用できると考えます。
また、本文テキスト以外に、デジタル化資料の画像から自動抽出した、図表・挿絵・写真等の図版データもあります。
これらの膨大なデータセットの活用可能性について、参加者皆で討論して考えるためのアイデアソンを開催します。
参加費は無料ですが、事前申込が必要です。
詳細ホームページ:https://lab.ndl.go.jp/event/joss2022/