P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

格フレーム処理・共起用例を考慮した変換全般のの雑想メモ

2017-08-27 | 変換エンジンのこと
ジャストシステムの日本語入力エンジン ATOK 30周年記念サイトのページに、以下のような記述が見られます。
// 「人が泣く」と「動物が鳴く」では、同じ「なく」の読みに対して違う漢字を使います。
// ATOKの辞書に「犬」や「猫」などを登録する際には、「動物」という情報も付与しているので
// 「犬が鳴く」と変換できます。
連載 ATOKの“かしこさ”の秘訣とは?|ATOK 30周年記念サイト|ATOK.com

…これは大変興味深い機構で、この考え方を延長していけば「太郎」や「あの子」も「人物を指すもの・人名」だと認識したうえで、「あの子が感動のあまり泣く」などといった変換も原理的には可能かもしれません。
これを実現している仕組みには、おそらく「格フレーム変換処理」というものが活用されており「動物」というクラスの下位概念に「猫」や「犬」がおかれていて、
「犬が鳴く」といった表現記述を問う時には「犬→動物の一種」;動物のアクション「なく」の相当字は「鳴く」である…と一種ののクラス集約性によってクラス参照がおこなわれ推論的に選ばれていくという高度なプロセスを辿っていることが理解できる良い例です。
これらは犬は動物の一種であるといった意味構造的な関係性までコンピュータが認識している上での処理であって単に同一同音異義語内で機械的に対応付けているだけのもの(意味関係まで理解していない)とは一段違った処理であることに留意しなければならないかと思います。

また2項以上の叙述構造の関係性において正しい変換候補を選び出すための手法として「共起」という概念も重要になってきます。
//猫を解体/猫を飼いたい
//鮪を包丁で解体/鮪を包丁で飼いたい
//巨人に先生される/巨人に先制される
参考文書:共起性を考慮に入れたかな漢字変換の試み:山形頼之 (産業技術総合研究所)IMワークショップ 2016/12/29

…「猫」は「飼う」ものですが、「解体」したらとんでもないことになってしまいます。
またこの文章の変換直後に「まぐろほうちょうでかいたい」と打ち込んだら、正しく「解体」と変換されるでしょうか。
こういった変換では「ある2つ(以上)の単語が文中に共に出現しやすいという性質 - 共起」というものをうまく利用して連接関係を正しく反映させることができます。

ペンタクラスタキーボードの通常変換においても、このような手法の成果をうまく取り入れることが必須になってくるかと思います。


あとは格関係・助詞との連接において不自然な変換などの例もみられます。
(例)
対策を寝る/対策を練る
絶対に夜食をしないと近い/絶対に夜食をしないと誓い

これらは「対策」と「練る」の2項関係の対応も重要ですが、「-を練る」のように練るに接続する格助詞「を」との用例関係の認識がより重要になってくるかと思います。
「-しないと誓い」の「-と誓い」、これは「-と近い」の例もあるので一概にには言えませんが、対応関係が事前に登録されていない2項関係の場合に正しい変換を導き出すのに必要なヒントになるかと思います。

このような述語/用言部分の誤変換とは逆に
(例)
帰社が走る/汽車が走る/記者が走る

などの例のように主語/名詞部分の誤変換の例も見られます。
先ほどの考察のように、汽車=乗り物=走るもの や 記者=人物=走るもの のような推論構造で辿ることも可能かとは思いますが、
「汽車→が」、「記者→が」はよりつながりやすい/「帰社→する」がよりつながりやすい(頻度):のようにより自然な格助詞との接続情報を持つことにも有用な意味があるかと思います。
またこの場合も対応関係が事前に登録されていない2項関係の連接情報がコンピュータの手元にないときに助詞との接続情報のデータをもとに候補を選び出すことが代替的に機能することもあるかと思います。


…とここまで書きましたが格関係の接続処理にもきめ細やかな懸案事項が種々あるのだな…と思いました。
ここでひとつWeb上で見つけた関連の深い文書を紹介したいと思います。
FI 変換 (日本語入力方式の概要と移行):oracle社の解説ページより

UNIXとWindowsで商品化されたワークステーション向けかな漢字変換システムWnn6では高い変換効率を誇るFI変換という機能が搭載されており、以下のような格関係・接続関係に対応したFI(Flexible Intelligence)変換を実現しています。
・格係り受け変換
・所有格変換
・受身変換
・使役変換
・合成語変換
・修飾語変換
・複文変換

※Wnn6はオムロン社の提供するソフトウェアですがここでは参考サイトとしてoracle社のサイトを挙げさせてもらいました。
FI変換のシステムは非常に先進的で各種の格関係処理に大きなインスピレーションを与えてくれると思いますので興味のある方はリンク先をご参照ください。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

語と語のつながり方を考慮して変換する

2016-10-04 | 変換エンジンのこと
AI変換、用例変換、格フレーム変換、係り受け変換、trigram、共起情報、コロケーションなどのワードがいっせいに押し寄せ混乱しつつも脳裏をよぎっているのですが少し整理してみたいと思います。
まずAI変換は従来の用例変換の進化系でMS-IME97やATOK8などから市場で使われだした技術で、それまでの用例変換が文法上・係り受けなどの接続用例から変換していたものが、AI変換ではより高度になって前後の文脈や意味関係を認識したうえでの変換が可能になっているとされています。
各社のAI変換の指し示す内容にはやや違いのあるものの特にMS-IME97のケースにおいては非常に参考になる記事を見つけたのであげておきます。
(引用)AI変換では、形態素解析だけで文節区切りを決定するのではなく、意味解析を行った結果をフィードバックして決定を行う。したがって、複数の文節区切りが考えられる場合でも、より適切な変換結果を提示できることになる。(MS-IME97徹底研究)・日本語入力プログラムについて考えるより

要は隣り合わせあるいは複数の文節にまたがる2~3単語間の関係性のデータベースを保持管理して文脈に応じた変換を判断するのに使うしくみにおいて使われ、その内容を記述するのに重要な役割をもつ専門用語群なのですね。

AI変換であるとか用例変換という言葉自体は消費者向けの商品アピール文句で使われていたり、格フレームについては自然言語処理・認知言語学的な色彩が強く、共起についてはコーパス言語学や言語統計で使われており、
trigramという言葉はN-gramのN=3の時のモデルでN-gram(+統計)の意味そのものは<ある文字列の中で、N個の言語単位(文字や形態素、品詞など)が出現する頻度や共起パターンを分析するための言語モデル>を意味しています。全文検索技術の文字列解析の分野のトピックで使われることが多い言葉です。これと関連してMicrosoft IME 2007で採用された変換エンジンのアルゴリズムではTrigram/SLM(Statistical Language Model:統計的言語モデル)という手法が用いられています。
さらにコロケーションは<類語。二つ以上の単語の慣用的なつながり。連語関係>とあって統語論・語彙論的な側面を強く持つ言葉です。
これらの言葉は時にジャンル横断的に使われているものの、おおむね掘り下げる分野によって微妙に使い分けられている術語のようです。

いろんな用語がありますがいずれにしても直前の変換確定結果に惑わされることなく意味・用例に適った変換をするためにベースとなる基本の仮名漢字変換エンジンにプラスアルファではたらき、変換候補の優先順位を吟味する段階において意味用例の関連情報やつながりやすさのデータを参照し最適な候補を選び出すのを支援する重要な機能であることがわかります。
例が適当であるかわかりませんがひとつ挙げてみると、
(例)
住まいが大阪に移る を変換した後に
この写真の場所は大阪に映る がきちんと変換されていれば理想的な用例変換あるいはAI変換が機能しているのを実感できるのだと思います。(現在使用中ののIMEでは正しく変換されませんでしたが)

いきなりかな漢字変換アルゴリズムの基本、最長一致法コスト最小法をすっとばしてややこしい話をしてしまいましたが、これらについていずれ説明したいのは山々なんですがなにせ基本事項ですから技術的に間違っていることを書くわけにはいかないですし、例文も良さそうな例も浮かんでこないので後回しになってしまいました。
これらの解説についてはいつになるかはわかりませんが図入りで説明できたら図を添えて、できなかったらテキストで軽く説明したいと思います。

まあそれというのもペンタクラスタキーボードでは「でにをは別口入力」があるのでコスト最小法を当てはめるにしても助詞や助動詞などが解析せずとも断片化して未変換文字列中に散在しており扱いが特殊そうであることが問題でして、そういったIMEの基本変換アルゴリズムとの兼ね合いをうまく構築するに未だ至っていないので説明不足も致し方ない部分もあります。
専門知識はないなりに「でにをは別口入力」の特徴を活かした変換アルゴリズムの大まかな青写真くらいあってもいいものですがいまだ探求中でありひょっとするとこれが一番の難題かも知れないと感じ始めております。今後ペンタクラスタキーボード入力に最適な変換エンジンのカタチを模索するうえで「でにをは別口入力」などのイレギュラーなファクトは、整然と体系化されたコード手法にはかえってノイズとなってしまう危険性が懸念されるところです。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

細切れ変換はもったいない!でにをは別口入力との連携で一括変換が扱いやすくなる…はず

2016-08-18 | 変換エンジンのこと
みなさんは細切れ変換派でしょうかそれとも長文一括変換派でしょうか。昨今のIMEには複数の文節の区切りを自動的に決定し入力効率を高める連文節変換が標準で搭載されているものが主流でありせっかくの機能を活かしきれないのは非常にもったいないのですが、自分も言う割にあまり活用できていないのが現状です。
なかなか一括変換を常用するまでに至らないのは、誤変換にまつわるデメリットをつい心配してしまうから踏み込めないのかもしれません。
理想としてはひと続きの長い文章を一気に変換するとき、うまくいったときの爽快感はなかなかのものです。しかし、思うような変換にならず面倒な修正作業を強いられるのは厄介で思考も中断されてしまいますし、しまいには書こうとしていたことを忘れてしまったりしてダメージが大きな事態となってしまい煩わしい事この上ないものです。こうしたことが続くと地道に逐次変換していく方がかえって賢明ではないかと割り切れないながらも身についてしまっているのだと言えます。

ペンタクラスタキーボードにおける入力文には、でにをは別口入力で入力された助詞や助動詞などのパーツが未変換文字列中に内包されており、変換の際にはこれらのマーキング情報が入力文の解析に役立てられます。
ここで重要なのは「でにをは」等助詞助動詞をいくつか入力していてもなお、最終的に変換キーを押すまではでにをは情報はいったん宙に浮いたまま変換プロセスが依然継続しているということです。
世間一般のIME使用時の入力場面ではひとつふたつ助詞・助動詞の現れた区切り目で細切れ変換をしている例が多いかと思われますが、ペンタクラスタキーボード使用時は潜在的に文の区切りを別入力しているという期待感から変換のタイミングのスパンが大きくなる、もしくはしたくなるように仕向けて行こうという目論見があります。
これは実際やってみないとわからないものですが、細切れ変換派の方でも長文変換を任せてもらえるような信頼感を得られるようにしていくことが非常に大切だと思います。
こちらの魂胆としては、でにをは別口入力を伴った連文節変換は区切り情報がはっきりしているので適切な文節区切りを得ることができ通常の連文節変換よりも変換精度が高いはずであろうとの仮説があります。
それによってユーザーが長文一括変換を選択してもらえるような誘因となって自然にリスクを気にせず連文節変換をすることがだんだんと習慣になっていくことが究極の目標です。

つまるところ変換エンジンの解析の出来が成否を左右すると思われますが、これがでにをは別口入力と組み合わさったときの挙動を正確に見極める必要があると思います。
別口入力について細かい所をいうと助詞は一文字のものばかりではなく[ので][とは]などの複合助詞があったり、[から][まで][しか]など二文字以上の助詞もありさらにはそれらが単体の[か][で]などの接続と混同・干渉しないように判定を明確にしていかなければなりません。
「でにをは別口入力」の作用副作用、解析時においての振る舞いなど今一度掘り下げていくことがさらに必要になりそうです。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする