いくやの斬鉄日記

オープンソースからハイスクールフリート、The Beatlesまで何でもありの自称エンターテインメント日記。

Anthyのコーパス収集のお願い

2007年09月24日 23時17分09秒 | 言語入力機構
Anthyの変換効率を向上させるため、コーパスを広く募集したいと思います。

コーパスとは
例文のことです。難しいことは聞かないでください(ぉ

どうやるの?
環境変数"ANTHY_HISTORY_FILE"を指定して、ログを収集してください。
それを(中身を確認した上で)まで送ってください
対応しているAnthyのバージョンは8711以降です。

具体的には
ログイン時に読み込まれる設定ファイルに以下の記述をしてください
(これはあくまで例なので、このとおりでうまく行かない場合もあります)
export ANTHY_HISTORY_FILE=~/.anthy-corpus.txt
これだと、ホームディレクトリの.anthy-corpus.txtというファイルに書き込まれます
ちなみにこんな感じに書き込まれます
anthy-9100b - |しゅうせいした|つもりの| |修正した|つもりの|
anthy-9100b - |りりーすしました| |リリースしました|
anthy-9100b - |ごしてき|ありがとう|ございました| |ご指摘|ありがとう|ございました|
anthy-9100b - |さきの|めーるの|とおり| |先の|メールの|とおり|

ログイン時に読み込まれるファイルって?
.bashrcとか、GNOME(GDM)の場合は.gnomercとか、KDE(KDM)の場合は.profileとかです

ちなみに現在は5000くらいで、一応目標は10倍の50000です。
ここまで集まれば、例えば誰かがAnthyの開発を引き継ぐときに、アルゴリズムをどういうふうに修正すればいいかとかわかるでしょうし、新しい変換エンジンを開発する場合でも、どのようなポリシーにすればいいのかの重要な参考になると思っています。
ついでに、50000という数字には根拠がありません。50000で十分なのかはよくわかりませんが、5000では少ないかな、という気がしているのです。

追記:
Ubuntuではデフォルトでログを吐くようにしたりするといいのですかね。気が向いたらそれを送ってくださいと。

さらに追記:
追加その1
追加その2
完結編
コメント (5)    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« ヨイコノミライ 完全版 | トップ | 今日やったこと »
最新の画像もっと見る

5 コメント

コメント日が  古い順  |   新しい順
ライセンス ()
2007-09-25 00:00:37
コーパス集めるなら提供してもらうデータの権利放棄を求めておくのと、収集/加工した結果をどういうライセンスで再配布するかをはっきりしておかないと、後で揉める事になりますよ。
返信する
Anthyで使う時点で (いくや)
2007-09-25 00:09:16
自明じゃないですかね。
返信する
とりあえず (いくや)
2007-09-25 00:22:47
もらった人のメアドをコメントで埋めておこうと思います。
ご忠告ありがとうございます。
返信する
ライセンスなど (小林)
2007-09-25 04:28:03
いろいろ頑張っておられるようで、頭が下がります。ちょっと気になるところがあるので、意見を書いておきたいと思います。

い さんの言うように、ライセンス等は明示する必要があると思います。
フリーな日本語入力システムを使っているとはいえ、変換履歴に関する権利はユーザにあるので、はっきりさせておく必要はどうしてもあるでしょう。せっかく集めたデータが無駄になるような可能性は、潰しておくに越したことはありません。

なお、メールアドレスを載せれば良いというものでもありませんし、メールアドレスを載せたくないという人もいるでしょう。協力者のリストに名前を加える、というのが一般的ではないでしょうか。

また、デフォルトでログを出力するのは適切ではないように思います。変換履歴には、使用者の人間関係、趣味、趣向を知ることができる情報が含まれることがあります。ユーザの知らないうちにそういったファイルが出来てしまうことは問題でしょう。オリジナルUbuntuにない脆弱性を加えるのは、機能的にどうしても必要な場合を除いて避けるべきだと考えます。

もちろん、別途パッケージを用意し、ログを取りたいユーザが明示的にインストールする形ならば、何ら問題はないと思います。

ライセンスやセキュリティについては、面倒ですがしっかり気を配り、文句のつけようがない状態にしておくのが良いと思います。せっかくの活動に、ケチがつく結果になっては面白くないですからね。
返信する
いろいろ (いくや)
2007-09-25 08:54:20
>い さんの言うように、ライセンス等は明示する必要があると思います。
Anthyと同じです。

>協力者のリストに名前を加える、というのが一般的ではないでしょうか。
苦情に対応するための目印です。

>また、デフォルトでログを出力するのは適切ではないように思います。
私もそう思います。

>もちろん、別途パッケージを用意し、ログを取りたいユーザが明示的にインストールする形ならば、何ら問題はないと思います。
この方向で。

とりあえずもっといろいろ考えてから追加でお知らせしようと思います。
返信する

コメントを投稿

言語入力機構」カテゴリの最新記事