P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

サ変動詞のトンチキな誤変換をなくせ!

2021-09-12 | タッチ液晶部予測変換その他の挙動について

確立すると確率するの誤変換にはいい加減うんざりしますねー。(書く率なんてのもある)
コンピュータの漢字変換ソフトウェアでは、後ろに「する」を続けることができる動作性の名詞を「サ変名詞」「ザ変名詞」などに分類し、ユーザによる辞書登録時もこれらを指定できるものがある、とありますが
ペンタクラスタキーボードの品詞管理はちょっと変わっておりそもそも品詞分けを設定せずともでにをは助詞別口入力があるので格助詞の前にあるのは名詞ですよ、「でs」「だ」マーカーのついている前にあるものは何らかの用言だよ(名詞述語文を含む)、サ変活用形「し」のマーカーのついてあるものの前にはサ変的な用言がくるよ…というように個別の因子ではなく別口パーツ配置の具合をみて決定してあるものであります。
そのため、明示的に品詞というラベルを使うのは避けて、あえてそれをぼかした「よろづ」(イ万/ロ万/ハ万)という術語を使っています。

冒頭のようなサ変動詞がらみの誤変換はまだまだ無尽蔵にあり、以下に列挙しますが
本稿ではこれを入り口にさまざまな対処策を模索・考察していきたいと思いますのでよければお付き合いください。
()内が本意のほうの正しい変換であります。


先生する(先制、宣誓)
容易されており(用意)
師弟する(指定)
状況する(上京)
内臓する(内蔵)
確率されておらず(確立)
多様される(多用)
多様して(多用)
傘下する(参加、酸化)
帽子する(防止)
軽快している(警戒)
関心します(感心)
高速され疲れますよね^^;(拘束)
俎上する(遡上)
快哉する(開催)
大化する(退化)
高尚する(交渉、考証、公称、口誦)
好例する(降霊)
格子する(行使)
雑草する(雑想)
糖分する(等分)
服装する(副葬)
天球する(転厩)
故事する(固辞、誇示)
反故する(保護)
習慣する(収監)
仕様して(使用、飼養)
重体する(渋滞)
妖怪する(溶解)
階段する(会談)
補色する(捕食)
最高神しても(再更新)
背信してる(配信)
童謡する(動揺)
痩身する(送信)
手荒いする(手洗い)
城址する(上梓)
航海する(後悔)
天災する(転載)
債権する(再建)
東洋する(盗用、登用)
名言する(明言)
親切する(新設)
蓮ちゃんする(連チャン)
気性する(起床)
最下位する(再開、再会)
覇権する(派遣)
兆候する(長考)
栄光する(曳航)
害虫する(外注)
閃光する(先行、選考、専攻)
決勝する(結晶)

上記のようなサ変絡みの誤変換においての問題原因は

1.ユーザーが細切れで入力しているがために[語幹部分]と[--する]の部分の連携を活かせずに個々で変換されているため起こる誤変換
2.かな漢字変換IMEに不備があって品詞ベースの形態素接続規則(品詞接続表)がうまく機能していない、またはそういうアルゴリズムを採用していない
3.辞書データや学習結果により悪例のほうが許容集積されノイズとして残ってしまっている

などの要因が考えられるかと思います。

-------------------------------------------
ペンタクラスタキーボードの入力機構においてサ変動詞のさばきはどのようにしているかというと
・サ変動詞連用形「し」については別口入力マーキングが付随しており解析上サ変検出の標識となって判別材料となっております。
・未然形については込み入っていて、
aし(-ない、-よう)については別口入力の「し」でマーキング、
bせ(-ず)、cさ(-れる、-せる)
については別口入力は付随せずべた文字列からの解析推定でサ変部分を検出します。(扱いが統一的でないのはご理解ください)
・終止/連体形(する)については予測変換を手元の液晶で提示し、変換の混線を回避する方策とします。予測変換を用いない場合はべた文字列解析です。
・仮定形(すれ)については同じく別口入力は付随せずべた文字列からの解析推定でサ変部分を検出します。
・命令形(しろ、せよ)についてはこちらも込み入っていて
aしろについてはちょっと違和感ありますが[し]ろ、と[し]の部分を別口入力で、ろはべたの文字列で入力してください。分解能を高める為ですのでご理解ください。
bせよについては別口入力は付随せずべた文字列からの解析推定でサ変部分を検出します。(扱いが統一的でないのはご理解ください)

とまあまだまだ模索中でありますがさすがにすべての活用形に応じて個別の別口入力を作るわけにはいかないのでこのようなモザイク含みの様相をお許し下さるよう重ねてご理解申し上げます。
割り切って言ってしまえば、「し」がらみの活用だけは別口入力で、それ以外の活用はべた文字列で御慣熟していただき、
使用場面の多い終止形・連体形「する」については液晶予測入力の手段も用意してある――これは補助的なおまけぐらいに考えておいてください。

このモザイク含みの統一的でない処理体系には異論もあるかもしれません。
ロジックを策定するP陣営側にとっても動詞とその活用形をとり回す規則のメンテナンスの面からいって常道から外れすぎているとのご批判も受ける事かと思います。
しかし私としましても決して場当たり的に散漫なルールを作ったものではないのであります。
別口パーツ「し」につきましてもこの単文字は誤変換誘発対策の帰趨を決める重要な勘所でありますし
取ってつけたかのように見える液晶パネル予測入力にしましてもこうしてサジェストできる活用形を限定することによって過剰な提示候補を絞れることにもなりますし何より連体形の方は後続に続く予測ワードの提示が流れを中断せずに継次的に表示できますので頻出動作として理に適っております。
これは連体形・連体修飾だからできることであり規定チャンクは一種のクリシェとして予測可能性の高い語句の並びになっていくことが経験的に分かっているところからくるものであります。
これが連用形・連用修飾であった場合にはそうはいきません。後続にくる用言は展開を急転させるうっちゃり力をもっているので先の予測が容易ではありませんし候補提示数も横溢してきてしまいます。
なのでこれはこれでマーカーを要求するに足る手当てが必要になってくるのです。単に「し」というリテラルだけを見るのではなく連用形形態素は後続が予測/解析しづらいという文法的傾向・語彙的傾向も加味した立体的な組み立てとなっているのであります。
しかも連用形には連用中止法というややこしい用法がありましてこれが読点なしで使われてしまうと
○近く市場調査を行う
×知覚し冗長さをおこなう
のような誤変換が起こってしまいかねず、べた文字列ではだかのサ変「し」をタイプしてしまうことの結構なリスクを無視できないものとなっているのです。
このように要所要所で分解能を制御する粒度調整が必要になってきています。
残りのべた文字列で解釈する各種活用形には、用法に固有性があって過去の助動詞を好む動詞、受身使役を好む動詞、仮定形を好む動詞など全部が全部とは言いませんがコロケーション学習・用例学習の効果が期待できるもの(先行される/専攻したなど)が多く見受けられる面もあるので個別のケースで対処していけば良い、との目算もあります。

なお、昨今取りざたされている「接種」と「摂取」の誤変換につきましては、これは一応サ変動詞各々の用法の使い分けの問題であり前段のような品詞素性の違うワードがサ変動詞変換に侵食してくる事態のケースとは別物の懸案でありますので、これはこれで別記事でのちのち触れていければよいと思っております。
今は品詞に則した厳格な分類ではなくゆるい制約の「よろづ」という概念を使って「サ変動詞」「サ変名詞」「サ変動詞っぽいもの」「名詞であるが無理くりサ変を付加できなくもないもの」などなどの境界領域を泥臭くではありますが上手く束ねて、
各種の入力ヒント:以下のモノ

・別口入力「し」のマーカーがあればあるに越したことはない
・「する」形は予測入力で液晶パネルから
・「した」は[し]た と厳密に[]別口入力マーキングをして
・「せず」「させる」「される」「させず」等は衝突する解釈も少なそうであるしある程度長尺なので楽観視
・「しろ」は白、城 との衝突も懸念されるのでここは厳密に[し]ろ と[]別口入力マーキングをして
・「せよ」は衝突もないのでべた入力で楽観視

のように、くり返しにはなりますが設計の骨格となる重要なインターフェイスですので何卒お含みおきください。(大抵の結合はよろづロ万の属性づけに+サ変活用がついたものであるとシンプルにとらえる視点です)
ネガティブにとらえると整合性のない、モザイク含みの、パッチワーク的な 頼りないインターフェイスと見えてしまわれるのかもしれませんが、
物は言いよう、「ベスト・コンビネーション」「アンサンブルの変換」「立体的粒度のさばき方」
と、好意的に受け取ってもらえれば幸いであります。

こうしてみますと、タッチ液晶操作まわりの作り込み、インターフェイスの精緻化が新たな課題としてあがってきたようでありますね。
今回はこれ以上の深掘りは諦めて次回以降に取り組んでいきたいと思います。
ちょっとだけメモ、忘れないように骨子だけ記しておきますと、

液晶予測入力で入力した確定文字列はディスプレー由来通常インターフェイスでの確定の時よりも辞書学習の重みづけが強くなるさじ加減をおこなう。
理由は予測候補は文脈全体を商量して決定するディスプレー由来入力とは違い
タッチパネル由来入力は入力文の直近の単チャンクフレーズ専用の視界での変換候補が提示されるのでより解釈の限定性を帯びている。
すなわちサ変チャンクならサ変チャンクとして決め撃ちしたうえの下ごしらえ済みの候補が定型的に選択・決定されるので
諸所の事情の込み入った解釈空間を必要とするディスプレー由来入力のもつややこしい事情に付き合わなくてもよいからである。

…今はちょっと言葉足らずでうまく噛み砕いて説明するのはやめておきますが、ここらあたりをもっと考察していって次回以降の掘り下げに向かっていこうかと思います。

あっっ!大事なことを忘れていました!!

今回の記事を期に新カテゴリ・「タッチ液晶部予測変換その他の挙動について」
を設置しました。今後も記事製作に励んでいきたいのでみなさまどうぞよろしくお願いします。

 


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« ちくわパン 打線組んだよ ... | トップ | アニメの訳語タイトル(英語&... »
最新の画像もっと見る

タッチ液晶部予測変換その他の挙動について」カテゴリの最新記事