いくやの斬鉄日記

オープンソースからマリみて、Beatlesまで何でもありの自称エンターテインメント日記。

テスト版Anthyもリリース

2009年11月28日 20時51分42秒 | Ubuntu/Kubuntu
これはjapanese-testersに入れるのはためらわれたので、新しいPPAを作ってそこに放り込みました。ココ
特に問題なければ、最終的には9100iとしてリリースされることになるんじゃないかと思います。当分先だとは思いますが。
ひとまずはjapanese-testersに放り込んで、より多くの人に使ってほしいですね。
japanese-testers→9100i-rc→9100i→Ubuntu入り、という感じでしょうか。いつになるんでしょ。。

今もこれを使って入力していますが、そんなに劇的に変わった感じはしないものの(そらそうか)、今までよりは良くなっているような気がします。気のせいかも知れませんけどねー。

変更点は山盛りあって、
・学習結果を保存しまくるパッチを適用した
・候補の選択をいじるパッチ(だったかな?)を適用した
・alt-cannadicを20090921にした
・コーパスをちょっと変更した
・その他さまざまな修正
となっています。

まー試してみてください。
コメント (2) |  トラックバック (0) | 

Anthyのリリース延期

2008年03月26日 01時05分19秒 | 言語入力機構
3/29に予定していたAnthyのリリースは延期します。
遅くても4/29、できればUbuntu Hardyよりは先に出したいです。

というわけでパッチをお待ちしております。コーパスもいただければ盛り込めるかもしれません。

とはいえ、正直ChaIMEに期待したほうがいいと思います。
今試したら前試した時よりもかなり高速化されていますね。
コメント (3) |  トラックバック (0) | 

Anthy-9100eリリース!

2008年01月29日 00時13分01秒 | 言語入力機構
ダウンロード

公約どおりにリリースできたことを私も驚いています。
大量のパッチをくれ、やる気を引き出していただいたIidaさんに感謝します。
変更点は以下のファイルのアップデートとコーパスの追加です。
depgraph/conjugate.table:
mkworddic/udict:
mkworddic/compound.t:
ご協力いただいた方々、ありがとうございます。

次のバージョンですが、辞書とコーパスに関してリファインしようかと思います。
あと、mkworddicにadditional.tを追加しようと思っています。
よって、バージョンも9101にしようかと思っています。
リリース日は3/29を予定しています。

というわけで、次のリリースに向けた募集です。
・大量のコーパスへの対応
・additional.t, udict, compound.tへの追加
・depgraphの変更
・testで正常に変換できないものの修正
・(あんまり取り込めないけど)コーパス
・その他さまざまな変更(今あるものを再確認していただけるとうれしいです)
・ゴリゴリ開発する人

注意点としては、原則としてパッチで、コーパスは生のファイルままください。
1ファイルに対して1つの差分でお願いします。

そうそう、gutsy-experimentalにも放り込んでおきました。

(ぶっちゃけこれはAnthy-devに投げるメールの下書きなわけであります)
コメント (4) |  トラックバック (0) | 

2008年のオープンソースな日本語入力

2008年01月20日 21時51分04秒 | 言語入力機構
結論を最初に書くと、今年の年末にオープンソースな日本語入力を総括すると、現状のままだと「いよいよ本格的に活動停止!」という感じになるのかな、という話です。

とりあえず現状Anthy 9100eは予定どおり29日にリリースするつもりです。来月に延期しようかと思いましたが、大量のパッチをいただいたのでこれを適用します。まだ全部は見てませんけど、結構変換効率が上がるのではないでしょうか。

Anthyのコーパスですが、これ以上追加しても性能の向上には寄与しないんだそうです。というわけで、送っていただけば受け取りはするもののどの程度取り込めるかは未知数です。もし今後もAnthyの性能向上を図るなら、まずはこの辺から取りかからないとダメそうです。誰かやってみませんか? 私にはどこをいじればいいのか見当もつきません。

Anthyには辞書の問題もあって、何十万という登録語を効率的にメンテナンスする方法がありません。これはAnthyがAnthyであるうちは解決不能だと思われるので、次に出てくるであろうオープンソースな変換エンジンに解決して欲しいと思います。あるいはSKKの辞書を使うとかもいいかもしれませんね。まぁ品詞はどうするんだという問題もありますが。

新しい変換エンジンを作る場合にもう一つアドバイスしたいのは、継続するような仕組みを作るということです。これはAnthyもできていることですけど、いじりやすくしておくのは重要ですし、単語もSKKみたいにすればいいかもしれません。あとはかつての変換エンジンが商用UNIXで使われるために作られていたように、昨今の変換エンジンは組み込み向けに作ってもいいかもしれません。それの商用サポートとかまで考慮すると、なおのこといいでしょう。まぁこれもAnthyでもできそうなことですが。

インプットメソッドはどんな感じなのでしょう。まずはSCIMから。
scim-bridgeは継続してリリースされていますが、それ以外はさっぱりです。いろいろパッチは出ているので、これを検証しなくてはいけないのですが。
SCIM IMEngineもほぼ完全に停止状態で、とりあえずgcc-4.3対応はしないとダメなくらいです。Debianに関してはぼちぼち進んでいます。というか停滞中です。
uimも現状あまり時間が割けていなさそうです。私には見えていないであろうこともあるので、詳しくはよくわかりません。

せっかくなので私個人の話をすると、私は他の人が頑張っているところを見て自分も頑張ろうと思うので、現状はあまりやる気がありません。
おかげでアニメの消化率がやけによく、ぽんばしに行く回数も増え、マザーボードを衝動買いし、睡眠不足もあまりなく、ドラクエIVも超絶な速さでクリアーし、くぎみーのごまえーを聴いて喜んでいたりするわけです。
…あまり関係ないものも混ざりましたが、別にこんなことをしたいのではなく、モチベーションが沸いてこないだけなのです。

とはいえ、現状どうにかなりそうな要素はないので(どうにもならなさそうな要素はありますけど)、結論としては今年は去年以上に何もなさそうです。
コメント (2) |  トラックバック (0) | 

Anthy-9100d リリース!

2007年10月29日 00時39分42秒 | 言語入力機構
というわけで、9100dをリリースしました。

ダウンロード:
https://sourceforge.jp/projects/anthy/files/?release_id=27771#27771

主な変更点:
・alt-cannadicを最新版に変更しました
・皆さんのご協力のおかげでcorpusを5500以上追加し、全部で10000を越え
 ました
・その他細かな修正

注意点:
・alt-cannadicの最新版にはg_fname.tという辞書が追加されましたので、
 それにしたがってdict.args.inにも変更を加えています

今後の予定とお願い:
・次のリリースは1/29を予定していますが、場合よって早くなったり遅く
 なったりします
・大泉さんによるalt-cannadicの更新はこれで終了という連絡をいただいて
 ます。alt-cannadicに対するパッチもお待ちしています
・これまでどおりcorpusも募集しています。corpus.4.txtには間違った
 corpusの登録方法も書かれているので、参考にしてみてください

ここだけの余談:
・コーパスの数ですが、手元で生成したものが3000強、いただいたものが2500強でした。自分でも驚きましたよ…。
・これはもう既に9100dにしてますけど、変換効率が向上したという実感はあまりありません(ぉ
 まぁ使い始めた直後ですし、そんなもんだと思いますけど。
・霞はもうちょっと延びます。corpusからパラメータを生成するところでちょっとハマりました。元々手を抜きすぎた私が悪いのですが。

追記(10/30):
誤解があったら困るので追記ですが、alt-cannadic自体の更新は続きます。Anthyで採用しているalt-cannadicが不透明な情勢という意味です。
コメント (0) |  トラックバック (0) | 

Anthyのコーパス収集のお願い 完結編

2007年10月23日 21時55分10秒 | 言語入力機構
えー、遅くなってすみません。
大変ありがたいことに、すでに何名の方からかコーパスをいただいております。

一応方針は以下のようにしようと思います。
・一定のルールで広く募集するのはやめます。とりあえず送っていただいて、ライセンスなどの話を合意してから、作業に取りかかります
・事前の告知どおり10/29に次のバージョンをリリースする予定なので、25日くらいまでにいただけると助かります。それを過ぎても取り込めるかもしれませんが
・それでも漏れた場合は、次の次のリリースに盛り込みます。予定では来年の1月29日です

というわけで、よろしくお願いします。

ちなみに9100dの変更点は、コーパスの大幅な追加(2500くらい?)とalt-cannadicを9/24のものに差し替えることが大きなところでしょうか。あとはMLに報告されている不具合は解消できると思います。
alt-cannadicの最新版は取りこめるんですかねぇ。どうなんでしょ。。

追記:
と思ったら、すでに2500は越えてます。3000くらいになる気がします。
うち2000以上は私ですが(ぉ

追記(10/24):
続々集まってうれしい悲鳴を上げています。まだお返事書けてない方もいます。しばしお待ちください。
現段階ですでに3000は越えています。
コメント (0) |  トラックバック (0) | 

今考えていること

2007年09月27日 00時45分51秒 | 日記
これから書くことは今考えていることで、なんら決定したものではありません。
そりゃ選択肢だから当然ですな。

1.public domainはやめて、LGPLにして受け付け。送っていただいた時点で念押しのメールをお出しし、了承を得られたものに関して取り込む。その際はランダムに並び替える。いわば2chに書き込みするときに出る警告を手動でやる感じです。

2.思い切ってコーパスをアーカイブから外し、統計データのみにする。コーパスのライセンスに関しては気にしなくてよくなりますが、私が死んだらどうしますかね。あと、完全にソースからビルドできないのはやっぱり違和感があります。

3.何か本質からかけ離れた話ばかりで、実は誰もAnthyの変換効率向上なんて望んでない。私のコーパスをひたすら足していって、私にとって使いやすいAnthyにしてしまう。それがひょっとしたらあなたにとっても使いやすくなるかもしれない。ただ、これは辞書のメンテをされている大泉さんに申し訳ないです。あと、魅力もなくなって誰も引き継ぎたいと思わなくなりますよね。でもダントツローコスト。

追記:
4.広く集めるのをやめ、月1000生成できる人を私を含めて5人集める。これで月5000。1年で6万。(゜д゜)ウマー。これも人さえ見つかればローコスト。

さらに追記(9/28):
5.やっぱり現行のまま。あの程度の長さでは著作権は発生しないものの、念のためにpublic domainにすることに承諾してもらって受け付け。編集著作権も、機械的に吐き出したログ+自分にとって都合の悪い箇所の削除程度では発生しないと考えるのが妥当。
ただ、著作者人格権を行使しないという合意は公序良俗に反する可能性あり。これがネック。判例ありますかね。
でも、完全に白にしておく必要があるのかどうかは激しく疑問です。
コメント (0) |  トラックバック (0) | 

著作物の定義

2007年09月25日 23時18分03秒 | 日記
著作物

これを読んでいただければ、Anthyのコーパスに著作権が発生しないということがご理解いただけますかね。
コメント (2) |  トラックバック (0) | 

コーパス集めの雑感

2007年09月25日 21時10分17秒 | 日記
こちらはチラシの裏で。

コーパス集めのお願いで最初に出てきたのがライセンスの話とは、正直予想していませんでした。まずは個人の権利を確認するというのは、なかなか殊勝な心がけだと思います。

そもそも、Anthyの変換効率が上がってうれしいのは誰なんでしょう。私(いくや)? ディストリビュータ? 名も知らない誰か?
確かにそういう人たちもうれしいでしょうけど、一番はご自身のはずです。

ライセンスもAnthyと同じという以上何と明示すればいいのでしょうか。普段使っている分にはライセンスは気にならないのに、自分が協力するとなったらライセンスを気にするんでしょうか。

いずれにせよ、ライセンスが理由でコーパスを提供しないということにはならないはずです。Anthyと同じにすることが気に入らないというのであれば、Anthyのライセンス自体が気に入らないということになるはずです。それなら、ご自分の権利を云々いう前に他人の権利を尊重してAnthyを使うのを止めるべきです。

もし提供しない理由がいくやのやり方が気に入らないとかであれば、やむを得ません。ただ、それはAnthyの変換効率を向上するというメリットを上回るほどのものなのでしょうか。
私は大きなことをやるためには小さなことはあまり気にしないので、そういうところに気が回らないのだと思います。それがお前の限界だというのであれば、甘受するしかありません。
コメント (3) |  トラックバック (0) | 

Anthyのコーパス収集のお願い 追加その1

2007年09月25日 20時46分55秒 | 言語入力機構
まず前提ですが、必ずご自身の文章のコーパスをお送りください。例えば何かの本を写したとか、そのようなコーパスが混じることは避けてください。

コーパスの例をもう一度見ていただきます。
anthy-9100b - |しゅうせいした|つもりの| |修正した|つもりの|
anthy-9100b - |りりーすしました| |リリースしました|
anthy-9100b - |ごしてき|ありがとう|ございました| |ご指摘|ありがとう|ございました|
anthy-9100b - |さきの|めーるの|とおり| |先の|メールの|とおり|
これら一つ一つには著作権は発生しないと考えます。よって、ライセンスも適用されません。
送っていただいた時点でpublic domainにすることに同意したとみなします。

Anthyのソースとともに再配布され、同じライセンス(public domainにライセンスというのもおかしいですが)で再利用される可能性もあります。当然ですね。

送っていただく前に、必ず内容を確認してください。いただいたものをノーチェックでソースに入れるということはしませんが、私に見られたら困る個人情報などは事前に削除しておいてください。もちろんそのような内容が含まれていたからといって、公開したりはしませんが。

ログを書き出すファイルは事前に作成しておかないとダメのようです。
$ touch ~/.anthy-corpus.txt
などを実行してください。

また何かあれば追加します。

追記:
すみません、corpus.1.txtはpublic domainです。
あと、↑をちょっといじりました。

さらに追記:
送っていただく分はpublic domainとさせてもらうことにしようと思います。

さらに追記:
public domainで個人を特定する必要はないので、メールアドレスは不要になりますね。
コメント (0) |  トラックバック (0) |