BLOG 思い遥か

日々新たなり/日本語学2020

コーパス資料

2021-08-23 | 日本語学2021

現代語文法は話しことばの文法を専らとする。現代日本語の書き言葉の文法ではない、と断じてもよいほどに、いわば、偏っている。資料にコーパスとしての言語現象、それはもともと話しことばを記録することが困難であった資料体に、コンピュータによるデータ蓄積が、電子情報という記録の技術によって支えられてきた。日本語に文体があるという視点は、現代日本語では意識されなくなる。つまり話しことばと書きことばの境界がなくなってしまっている。収集した言語データのバランスによるところ、記録された言語、その文書を対象にした言語分析はその様子が異なってきたのである。コーパス資料を扱うと、その資料の文書を見ることがない。分析者、データ利用者には文章が見えていないことが多い。大量のデータに出てくる言葉をその一つ一つに出処としての取り上げ方がまずないと言ってよい。これは大量に処理をすることだけを利点と舌機械分析のなせる業である。もうすこし言えば、言葉狩りをするわけだから、どこをどう探したかということを重視する、データの特性をみることがほとんど行われない。文学作品の索引を利用するにも、そのような処理にだけ分析を済ませる方法が行われてしまってきている。用例を出典に戻して検証するということがない、あるいは必要としない議論のくみたてでよいという考え方である。

https://www.ninjal.ac.jp/database/type/corpora/
現代日本語書き言葉均衡コーパス (BCCWJ)
現代日本語の書き言葉の多様性を把握するために構築したコーパスで,書籍,雑誌,新聞,白書,Web,法律などから無作為に抽出した約1億語のテキストに形態論情報,文書構造タグを付与し,オンラインおよびDVDで公開しています。

『太陽コーパス』『近代女性雑誌コーパス』『明六雑誌コーパス』『国民之友コーパス』

国語研日本語ウェブコーパス
3か月間にわたり1億 URL をクロールして構築した200億語規模の Web テキストのコーパス。形態素解析・係り受け解析済みテキストからなる。

電子化された言語資料



https://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/B3-5.pdf
『現代日本語書き言葉均衡コーパス』を用いた
文末表現のバリエーションの分析
言語処理学会 第18 回年次大会 発表論文集 (2012 年3 月)
丸山 岳彦
国立国語研究所 言語資源研究系
>」
述語 +ヴォイス+アスペクト+肯否+テンス+モダリティ


http://www.ic.daito.ac.jp/~yamazaki/corpuslinguistic.html
コーパス言語学とは?
>
大まかに説明しますと、『任意の文章を大量に入力して、それらの文の中で
a)どんな単語が、
b)どんな状況で、
c)どのくらいの頻度で使われているか、また使われていないのか、
d)なぜその単語が使われたのか、
e)その単語はどのような前後関係(コロケーション)で使われていたか』
ということを主に研究する学問です。


コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。