monoろぐ

古典和歌をメインにブログを書いてます。歌題ごとに和歌を四季に分類。

国立国語研究所の日本語コーパス“KOTONOHA”

2010年04月06日 | 読書日記

 現代語の用例探しに強力なツールを発見しました。「KOTONOHA」という国立国語研究所が作っている日本語コーパスです。まだ構築途中らしくて、2011年完成予定とのこと。デモ版はオンライン公開されていて、検索ができるようになっています。(KOTONOHAの検索ページはこちら。)
 “生きた=現代の日本語”の全体的な把握のためのデータ、ということで、1970年代以降、おおよそ2005年までのサンプルを収集しているので、青空文庫のデータを補完する形で、用例探しに利用できると思います。
 (ざっとしか説明を読んでないので間違ってるかもしれませんが、1億サンプルが達成目標のようです。「1億語」という表現になっているのですが、抽出サンプルの数が1億、という意味だと解釈しました。)

 残念なのは、より高度な検索ができるデータの配布は。研究者・大学院生に限られていること。一般の個人は不可ってことで、入手できず残念です。
 あと、用例の前後を自由に確認できないのが、不便。現物に自分であたってみたいので、ページ数の表示がないのも不便です。
 そう考えると、“Google ブックス”の方が便利かなとも思います。大体同じ年代をカバーしてるし。(限られた出版物しか検索できませんが。)

 このコーパスを利用したコロケーション辞書の試作も研究内容の一部らしいです(文部科学省の科研=科学研究費補助金の特定領域研究)。どんな辞書になるのか、とても興味があります。

 同じようなコーパスを、古語でも作成してくれないかしら? 時代を、上代・平安・中世・近世に分けて検索できるような。ただ、用例の数はたくさん欲しいので、ランダムサンプリングじゃない方法でサンプル抽出してほしいです。(というか、作品全体をデータとして取ってほしい。)


コメントを投稿