Anthyの変換効率を向上させるため、コーパスを広く募集したいと思います。
コーパスとは
例文のことです。難しいことは聞かないでください(ぉ
どうやるの?
環境変数"ANTHY_HISTORY_FILE"を指定して、ログを収集してください。
それを(中身を確認した上で)私まで送ってください
対応しているAnthyのバージョンは8711以降です。
具体的には
ログイン時に読み込まれる設定ファイルに以下の記述をしてください
(これはあくまで例なので、このとおりでうまく行かない場合もあります)
export ANTHY_HISTORY_FILE=~/.anthy-corpus.txt
これだと、ホームディレクトリの.anthy-corpus.txtというファイルに書き込まれます
ちなみにこんな感じに書き込まれます
anthy-9100b - |しゅうせいした|つもりの| |修正した|つもりの|
anthy-9100b - |りりーすしました| |リリースしました|
anthy-9100b - |ごしてき|ありがとう|ございました| |ご指摘|ありがとう|ございました|
anthy-9100b - |さきの|めーるの|とおり| |先の|メールの|とおり|
ログイン時に読み込まれるファイルって?
.bashrcとか、GNOME(GDM)の場合は.gnomercとか、KDE(KDM)の場合は.profileとかです
ちなみに現在は5000くらいで、一応目標は10倍の50000です。
ここまで集まれば、例えば誰かがAnthyの開発を引き継ぐときに、アルゴリズムをどういうふうに修正すればいいかとかわかるでしょうし、新しい変換エンジンを開発する場合でも、どのようなポリシーにすればいいのかの重要な参考になると思っています。
ついでに、50000という数字には根拠がありません。50000で十分なのかはよくわかりませんが、5000では少ないかな、という気がしているのです。
追記:
Ubuntuではデフォルトでログを吐くようにしたりするといいのですかね。気が向いたらそれを送ってくださいと。
さらに追記:
追加その1
追加その2
完結編
コーパスとは
例文のことです。難しいことは聞かないでください(ぉ
どうやるの?
環境変数"ANTHY_HISTORY_FILE"を指定して、ログを収集してください。
それを(中身を確認した上で)私まで送ってください
対応しているAnthyのバージョンは8711以降です。
具体的には
ログイン時に読み込まれる設定ファイルに以下の記述をしてください
(これはあくまで例なので、このとおりでうまく行かない場合もあります)
export ANTHY_HISTORY_FILE=~/.anthy-corpus.txt
これだと、ホームディレクトリの.anthy-corpus.txtというファイルに書き込まれます
ちなみにこんな感じに書き込まれます
anthy-9100b - |しゅうせいした|つもりの| |修正した|つもりの|
anthy-9100b - |りりーすしました| |リリースしました|
anthy-9100b - |ごしてき|ありがとう|ございました| |ご指摘|ありがとう|ございました|
anthy-9100b - |さきの|めーるの|とおり| |先の|メールの|とおり|
ログイン時に読み込まれるファイルって?
.bashrcとか、GNOME(GDM)の場合は.gnomercとか、KDE(KDM)の場合は.profileとかです
ちなみに現在は5000くらいで、一応目標は10倍の50000です。
ここまで集まれば、例えば誰かがAnthyの開発を引き継ぐときに、アルゴリズムをどういうふうに修正すればいいかとかわかるでしょうし、新しい変換エンジンを開発する場合でも、どのようなポリシーにすればいいのかの重要な参考になると思っています。
ついでに、50000という数字には根拠がありません。50000で十分なのかはよくわかりませんが、5000では少ないかな、という気がしているのです。
追記:
さらに追記:
追加その1
追加その2
完結編
ご忠告ありがとうございます。
い さんの言うように、ライセンス等は明示する必要があると思います。
フリーな日本語入力システムを使っているとはいえ、変換履歴に関する権利はユーザにあるので、はっきりさせておく必要はどうしてもあるでしょう。せっかく集めたデータが無駄になるような可能性は、潰しておくに越したことはありません。
なお、メールアドレスを載せれば良いというものでもありませんし、メールアドレスを載せたくないという人もいるでしょう。協力者のリストに名前を加える、というのが一般的ではないでしょうか。
また、デフォルトでログを出力するのは適切ではないように思います。変換履歴には、使用者の人間関係、趣味、趣向を知ることができる情報が含まれることがあります。ユーザの知らないうちにそういったファイルが出来てしまうことは問題でしょう。オリジナルUbuntuにない脆弱性を加えるのは、機能的にどうしても必要な場合を除いて避けるべきだと考えます。
もちろん、別途パッケージを用意し、ログを取りたいユーザが明示的にインストールする形ならば、何ら問題はないと思います。
ライセンスやセキュリティについては、面倒ですがしっかり気を配り、文句のつけようがない状態にしておくのが良いと思います。せっかくの活動に、ケチがつく結果になっては面白くないですからね。
Anthyと同じです。
>協力者のリストに名前を加える、というのが一般的ではないでしょうか。
苦情に対応するための目印です。
>また、デフォルトでログを出力するのは適切ではないように思います。
私もそう思います。
>もちろん、別途パッケージを用意し、ログを取りたいユーザが明示的にインストールする形ならば、何ら問題はないと思います。
この方向で。
とりあえずもっといろいろ考えてから追加でお知らせしようと思います。