ここではAnthyを例にしますが、少なくともATOKも同じです。
単語収集/未分類語に、私のWikiと誤変換晒しあげの一部を盛りこんでみて思ったことです。
1.誤変換の理由を知る必要がある。辞書にないからなのか、文節区切りによるものなのか、それ以外か
2.単語の正確な読み方を知らなくてはいけない。まぁ当然ですけど
3.単語の品詞や意味を知らなくてはいけない。Anthyが認識する品詞はこれだけあります
4.複合語の場合はどうするのかわからない
5.Anthyの辞書の中に入るパスが今のところない
Wikiから語をパースして個人辞書に入れるというのは大変興味深いですが、品詞の選択に時間がかかるので(慣れてないのもあると思いますけど)、あんまり気軽に、とはいきません。
例えば、個人が登録した場合は自動的に(?)#SELFという品詞になって、とにかく当てはまりそうな場合は当てはめる、とかすると登録者は品詞を考慮しなくてもいいですし、エンジン作者もそれほど手を入れずに実現できるかも知れませんけど、処理はかなり富豪チックになってあんまり幸せにならなさそうです。
というわけで、何かいいアイディアを思いつくためのメモでした。
追記:
上に書いた方法だと、個人辞書が膨大になった場合に大変なことになりそうなので、とてもスマートとは言えません。
単語収集/未分類語に、私のWikiと誤変換晒しあげの一部を盛りこんでみて思ったことです。
1.誤変換の理由を知る必要がある。辞書にないからなのか、文節区切りによるものなのか、それ以外か
2.単語の正確な読み方を知らなくてはいけない。まぁ当然ですけど
3.単語の品詞や意味を知らなくてはいけない。Anthyが認識する品詞はこれだけあります
4.複合語の場合はどうするのかわからない
5.Anthyの辞書の中に入るパスが今のところない
Wikiから語をパースして個人辞書に入れるというのは大変興味深いですが、品詞の選択に時間がかかるので(慣れてないのもあると思いますけど)、あんまり気軽に、とはいきません。
例えば、個人が登録した場合は自動的に(?)#SELFという品詞になって、とにかく当てはまりそうな場合は当てはめる、とかすると登録者は品詞を考慮しなくてもいいですし、エンジン作者もそれほど手を入れずに実現できるかも知れませんけど、処理はかなり富豪チックになってあんまり幸せにならなさそうです。
というわけで、何かいいアイディアを思いつくためのメモでした。
追記:
上に書いた方法だと、個人辞書が膨大になった場合に大変なことになりそうなので、とてもスマートとは言えません。