Anthyの変換効率を向上させるため、コーパスを広く募集したいと思います。
コーパスとは
例文のことです。難しいことは聞かないでください(ぉ
どうやるの?
環境変数"ANTHY_HISTORY_FILE"を指定して、ログを収集してください。
それを(中身を確認した上で)
私まで送ってください
対応しているAnthyのバージョンは8711以降です。
具体的には
ログイン時に読み込まれる設定ファイルに以下の記述をしてください
(これはあくまで例なので、このとおりでうまく行かない場合もあります)
export ANTHY_HISTORY_FILE=~/.anthy-corpus.txt
これだと、ホームディレクトリの.anthy-corpus.txtというファイルに書き込まれます
ちなみにこんな感じに書き込まれます
anthy-9100b - |しゅうせいした|つもりの| |修正した|つもりの|
anthy-9100b - |りりーすしました| |リリースしました|
anthy-9100b - |ごしてき|ありがとう|ございました| |ご指摘|ありがとう|ございました|
anthy-9100b - |さきの|めーるの|とおり| |先の|メールの|とおり|
ログイン時に読み込まれるファイルって?
.bashrcとか、GNOME(GDM)の場合は.gnomercとか、KDE(KDM)の場合は.profileとかです
ちなみに現在は5000くらいで、一応目標は10倍の50000です。
ここまで集まれば、例えば誰かがAnthyの開発を引き継ぐときに、アルゴリズムをどういうふうに修正すればいいかとかわかるでしょうし、新しい変換エンジンを開発する場合でも、どのようなポリシーにすればいいのかの重要な参考になると思っています。
ついでに、50000という数字には根拠がありません。50000で十分なのかはよくわかりませんが、5000では少ないかな、という気がしているのです。
追記:
Ubuntuではデフォルトでログを吐くようにしたりするといいのですかね。気が向いたらそれを送ってくださいと。
さらに追記:
追加その1
追加その2
完結編