コンコーダンサとは、コーパス(分析用に収集された文書)から単語を抜き出し分析するツールのこと。 AntConcは早稲田大学ローレンス教授が開発したフリーソフトのコンコーダンサだが、機能が充実しており使いやすい。AntConcの使い方やコンコーダンサの活用については、神戸大学石川研究室とPCによる英語研究が参考になる。
ただし、AntConcで活用語を一つの見出し語に集約するため必要となる「lemma」について、導入手順の解説が少ないようなので、まとめてみた。
●AntConcが作る単語リスト
AntConcでは、コーパスから使用頻度別の単語リストを作れる。その際、デフォルトでは、複数形、動詞、分詞、比較級など、単語の活用は全く別の単語としてカウントされる。 しかし、「lemma(見出し語)」出力を設定すると、
324 lean leaned 219 leans 91 leant 14
297 thick thick 282 thicker 12 thickest 3
のように、活用形をひとつの見出し語に集計することができる。この機能を使うには、lemma(見出し語)ファイルが必要となる。297 thick thick 282 thicker 12 thickest 3
lemmaファイルは単なるテキストファイルで、以下のように原型と活用をセットしてアルファベット順にずらずらと記述する。
abjure -> abjures,abjuring,abjured
able -> abler,ablest
able -> abler,ablest
●lemma(見出し語)集計の設定
しかし、数万語のlemmaファイルを作るのは大変なので、既存のものを使いたいところだ。AntConc専用のlemmaファイルは無いが、有償の高性能コンコーダであるWordSmith用のlemmaファイルをそのままAntConcで使うことができる。
以下の要領によりダウンロードして設定する。
- 早稲田大学ローレンス教授のサイトからAntConc本体をダウンロードし、PCによる英語研究 や 神戸大学石川研究室 などを参考にインストールする。
- WordWmith ToolsサイトのChoosing a lemma match fileのページで、3行目"There is an English-language lemma list from Yasumasa Someya at..."に続くリンクからe_lemma.zipをダウンロードする。
- 解凍すると、e_lemma.txtが出来るので、適当な場所にAntConc用の作業フォルダを作って、その中に置いておく。
- AntConcを起動し、メニューから[tool preferences]をクリックし、設定ダイアログを開く。
- [tool preferences]ダイアログで、CatgoryのWordListを選び、以下のようにlemma適用の設定を行う。
- lemma list file の「open」で、先ほど保存したe_lemma.txtファイルを指定する。
- 「Load」ボタンで、lemmaファイルを読み込む。
- [tool preferences]ダイアログの最下欄の「Apply」ボタンで適用する。
- AntConc本体に戻って、コーパスファイルを選んで「Start」
