goo blog サービス終了のお知らせ 

P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

引っ越し着手しました。ご挨拶にうかがいます(はてなブログ)

P突堤が進化します!
ブログ引っ越し移転先はコチラ↓
新ブログURLをクリック
ブックマーク・コメント気軽にどうぞ

同訓異字の使い分けを考える以前に

2016-12-24 | 変換三属性+通常変換のシステム考察
前2記事で同訓異字の使い分けに第三の属性を有効に活用して使い分ける例をあげましたが、これらは聞く/聴くのような同根の語の派生的な異字を使い分けるのには向いていないことがわかります。
しかしながら認識・構造の変化に着目して”通機的”という特徴から違いを見出し属性を区別するオプションを用意したのは少なからず有効であるかと思います。
語と語の接続を考慮した用例変換をうまく用いることによって適切な変換を決定できる場合はよいのですが、前提となる文脈・話題がわかっていないとそれ単体だけでは判断できないことがあります。
例えば<結構使ってる/結構浸かってる>のようにただこの文単体だけで変換をしろと言われてもコンピュータが完全な正解を選び出すのは困難です。
望んでいる方の漢字を変換するためには結局はユーザー自ら個別に意味用法を指定する方法が原始的だか確実な方法だろうと思われます。<浸かっている>の方が使用機会ははるかに稀であろうとも実際にタイプしたい時のためには”第三の属性”で打ち分ける仕組みが必要です。

この例は厳密にいうと少々間違いがあります。余談ですが、音便の関係などによって、活用形で同じ訓読となるが、終止形が異なる場合
例:いって→行って(←いく)、言って(←いう)
のような例の場合には正確には同訓異字とは言えません。
よってこの例の場合 使う/浸かるとなり終止形が異なるため同訓異字ではありません
しかしかな漢字変換ではべた書きのかな文の字面が同音である場合全般に変換選択性が問われるのでここでは広い意味で字面の同一性あるものに言及したいと思います。


さて似たような使い分けのもう一つの例は[嗤う・訊く・寂しい・判る・可笑しい]のように意味するところはほぼ同じなのに”カッコいい方の漢字”であえて使い分けをする例です。
これらの例では必ずしも書き分ける必要はありませんが、ユーザーにとっては文章を書く上での美意識みたいなもので特にこだわりを持つ方もおられますし、一般的にもかなりの程度浸透しています。
ただ行き過ぎるのも考えものでことさらに厳密にはこうだ、などと過度な使い分けを強いるのもみっともない話です。衒学的に過ぎるのも無知の裏返しであるともいえます。
しかし無知を承知でそれでも書き分けたいというのであればそれはそれでニーズでもありますから、三属性変換の整合性に配慮しつつうまく取り込んでいくのも必要かと思います。
先の例では[嗤う・訊く・寂しい・判る・可笑しい]の表記の漢字を第三の属性で使い分けることが考えられます。(まだ検討中ですが)

どちらの例にしてもより深いレイヤーで機能している用例変換・コロケーションを考慮した変換で対応できるところは対応しつつも、そのメカニズムが届かないぽっかりとした空白地帯を埋めるように第三の属性の変換がカバーするというのが理想です。
また”通機的”というフィルターだけにこだわらずとも用例変換の接続語彙が多様過ぎて困難な場合にうまく候補を絞るための便宜として第三の属性を積極的に活用していくことも考えなければなりません。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

通常変換の属性決め撃ち問題

2016-11-09 | 変換三属性+通常変換のシステム考察
別口入力の導入によって、助詞に関してはぎなた読みのような区切り間違いによる誤変換はほぼ解決したとは思いますが、三属性変換の解釈の違いのエラー要因はさまざまありいくつか誤変換の例文をあたってその傾向を考察してみました。
公式の比較例のほかに笑える系の誤変換サイトでのものも見ましたが昔はそんなまさかな誤変換も実際にあった時代も存在するわけで、ひとつの誤変換の裏側に広がっている背景的な広がりを考えるとあながちシャレとばかりは言っていられないものです。
ペンタクラスタキーボードは従来のIMEの蓄積を一旦スクラップ・アンド・ビルドするわけですから変換精度の悪かった昔の変換例でも役に立つ部分はあると思います。

(誤変換例)
幸せって余分だな:IME 2003
幸せって呼ぶんだな:IME 2007    (マイクロソフト資料)
だいぶ使った→大仏買った
うさぎ追いしかの山→うさぎ追い鹿の山

これらの例では「余分」「大仏」「鹿の山」のように突飛な感じで名詞が浮いていますが、「呼ぶんだな」のようにだ+終助詞でひとり言で詠嘆のニュアンスを出しているのが汲み取られず「余分」が優先されていますし、程度の副詞「だいぶ」が汲み取られず「大仏」が切り出されています。
古文表現の「うさぎ追いし」では助動詞「き」の連体形「し」で過去の回想の意がありますがこういった基本動詞の口語的や古文的なバリエーションにはあまり対応しておらず予想外の「鹿の山」が変換されてしまいます。

(例 続く)
ちょっと様子を見たい件も→ちょっと様子を見た意見も
去年に比べた海水順だ:ATOK 2007
去年に比べ高い水準だ:ATOK 2008
恥メッカらもって毛羽いいのに:ATOK 2007
はじめっから持ってけばいいのに:ATOK 2008   (ATOK 2007と2008の比較)

続く例では希望の助動詞「たい」のついた「見たい件も」が素通りされシンプルな「見た意見も」が選ばれています。こういった例ではより込み入ったモダリティのある表現に重きを置くように通常変換を作りこんでいった方が一見妥当そうに見える変換に流されなくてよいと思います。
「見た意見」というのはかたまりでは名詞なので属性イの名詞の変換で済むと思いますがどうでしょうか。(「見たい件」もかたまりでは名詞ですが「見たい」というモダリティもあり混然的であると思います)
「去年に比べた海水順だ」は「比べた」(用言)-「海水」(体言)の接続ですが、「去年に比べ高い水準だ」のほうは「比べ」(用言)-「高い」(用言)-「水準」(体言)となっており修飾関係がより込み入った後者の方が優先されるべきです。
「恥メッカらもって毛羽いいのに」ではどうも名詞が悪影響を及ぼしているのがうすうすわかってきました。「はじめっから持ってけばいいのに」の口語表現に追いついていないのもありますが、名詞全般が安易に確定化され過ぎているような気がします。

これらの全体像を考察してみるとまず第一に口語的な派生表現や含意・モダリティのついた用言などを具体化しやすい名詞・体言に幻惑されずに浮かび上がらせることが重要だということが前提にあります。
不自然な・あるいは無理のある叙述構造は局所的に見るのではなく文の言い口がなんであるかをわかっていれば適切な認識につながると思いますし、込み入っているところにより具体性・固有性の鍵が秘められているのだと勝手な経験則を当てはめたくなります。

そのうえで三属性変換の観点からみると、先述の派生的表現に対応しつつも三属性の判断の分かれる場面では名詞属性イ・第三の属性ハはちょっとバイアスをかけて抑制していって結果的に属性ロの用言全般の属性が指向されるようなスタンスで臨むのがひとつのアイデアだと思います。
ステイし→捨て石となるのは避けたいですし、あまり使われる場面があるかどうかわかりませんが、咲くし→佐久市・佐久氏となってしまい急に絞られた特定の話題に入ることはリスキーであり違和感のもとになります。
こういった特定的な手掛かりはまずは通常変換では一発で出ないプロセスを経てその後ユーザーから明示的に体言なら体言と入力・指定する方がそれ以降学習により特定的な語が頻用されるということが明確に分かって具合がいいものです。
それに叙述的・関係描写的な言い回しは同じ言い方をそうそう重複して使用するということがないであろうと考えられますが、固有名詞みたいなものはその話題においてはしばしば何度も使われるものです。

こういった三属性を選択できるからと言って平等に扱うのではなく、どちらかというと属性ロの用言全般に重きを置いて構えることを「属性決め撃ち問題」と名付けることにします。
三属性には単に意味機能の違いを分別するだけではなく、話題の特定性を割り振ろうとする思惑を含んでいる機能があるものだといえます。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

通常変換の誤変換抑止力

2016-11-04 | 変換三属性+通常変換のシステム考察
~すること、そういうものだ…などのように事、物と漢字にはあえてせずにすっきりみせようとする意識がはたらく例が日本語文章の中には多く見られます。
ペンタクラスタキーボードではそういった意図を反映させるために[通常変換]を活用していきたいと思います。あえて個別の属性に絞り込んで指定していくのではなく、第一義的な通常変換のキーを押したときにでてくる”標準的な”変換で出てくるのはこういったひらがな表記のものを指向することによるものです。
これからそういったさまざまなケースについて列挙していきますが、はじめに断りをいれておくと変換をするうえにおいては同音異義語の衝突を回避するために通常変換・各三属性変換で使い分ければよいかとは思いますが、順次的に変換できる単語の配置であったり適切な構文解析により同音異義語の衝突を問題としない場合もありつつも語の意味・ニュアンスに焦点を置いて話を進めていきたいと思います。

例えば副詞の「あまり」「たえず」の場合、「余り」と書くと余分な余りを意味する名詞としてとらえられやすく程度や評価のニュアンスのある副詞としての機能が失われるように感じます。こんな時に通常変換を用います。
つづいて「たえず」(いつも、常にの意の副詞)の場合動詞の「絶える」の未然形にずがついたもの(例:絶賛の声が絶えず)と意味上区別したいときに通常変換で変換してひらがな表記の「たえず」が出てくるようにすればいいと思います。このとき属性ロの用言全般のカテゴリーになる「堪える」「耐える」などとも住み分けが自然にできていてあしらいもよいかと思います。

次に連体詞「来る」(きたる)についてですがこれは動詞の「来る」と全く同じかたちであり混同しやすいので最近では「来たる」と書く趨向もあるようですが、厳密な書き分けの例として引用すると
「来る11月23日」-この場合、まだその日は来ていません。これから来るのです。│「英国より来たる客人」-もう既に来ているのです。
(参照)「来たる」と「来る」の違いを教えてください。選挙があってるとき「菅総... - Yahoo!知恵袋
上記の例のように使い分けたいときは連体詞の来(きた)るにしたいときは通常変換で、自動詞ラ行四段活用(古典)の来(き)たるにしたいときは属性ロの用言全般で区別すれば機能の違いをあらわすことができると思います。
ひらがな表記の書き分けの話とは微妙に違う例ですが関連事項なのでとりあげてみました。

次に「こと」「もの」「とき」に代表される形式名詞の例です。詳細な使い分けの解説はここでは割愛させて頂きますが公文書や教材、新聞記事などではひらがなで書く規範がはたらいておりセンシティブなところであります。
これらも通常変換による使い分けが役に立っていくことと思われます。ただ実際の変換の注目単語へのフォーカスと選択の問われ方は変換文字列によって一概ではないためどの程度役立つ場面があるかは不明です。

さらにこれらと同じようなものに動詞の後ろに接続する補助動詞がありひらがな表記に留意する必要のある言い回しが多数あります。例として、
いえる
済ませておく
実現してみせる
やってみる
走っていく
していただく
説明できる
してほしい
腹が立ってくる

などがそれにあたるでしょう。

以上、ひらがなで書き表したい語や言い回しをとりあげてみましたが、通常変換と属性変換の細かな守備範囲の違いは未だ(これも同音異義語の区別が生じる副詞なので通常変換の出番ですね)さまざまなケースが考えられて定まってはおりませんが、ひらがな書きの用法はとりあえず通常変換で対応すればよい、との指針ができたのでまずはよかったと思います。
誤変換を抑止するというよりは、美意識を体現するための機能もしっかりと充実させていかなくてはならないと思います。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

三属性変換は万能ではない

2016-10-06 | 変換三属性+通常変換のシステム考察
三属性変換は便利な考え方ですが使い分けたい同音異義語のタイプによって期待できる変換に向き・不向きがあってその役割というか位置づけを今一度確認する必要があると思います。
例えば<加算・貸さん・可算>のような同音異義語ですと

加算…属性ロ(用言全般・サ変名詞)
貸さん…通常変換で対応(貸さん・見せん・飛べんなどの語は文法的派生であって意味属性を区別する三属性変換の受け持つ諸事ではない)
可算…属性ハ(第三の属性);「可」は可能を意味する接頭語

のように使い分けることができます。また同様に<子安・肥やす>のような例だと

子安…属性イ(地名・人名)いわゆる名詞
肥やす…属性ロ(用言全般)

のようになります。これらは割と意味概念の違うカテゴリ間での三属性の使い分けですのである意味典型的であり、三属性変換の意図するところでありうまく機能してくれるであろうという腹積もりがあります。
(もちろん長文や連文節変換のプロセスの通常変換ではある程度はおまかせで変換されるのが期待されるでしょうから個別的に三属性変換の出番となって使い分けが必要となる場面は少ないのかもしれませんが、短いセンテンスなどで役に立ったり誤変換修正過程で素早く候補を出すのに重宝することを狙いとしております)


これらの例とは対照的に<撮る・執る・捕る・取る・採る・摂る>や<聴く・聞く>などのような微妙にニュアンスの違う動詞の場合は三属性変換で使い分けるのは難しく、無理にこじつけて属性を分けようと思っていてもうまくいきません。
これは早い段階で断っておこうと思っていたのですが、三属性変換はかゆい所に手が届き微妙な同音異義語の使い分けがすらすらできる…などというような甘い期待を抱かせてしまった向きが少しあるかと思いますが、これは全くの誤解で単に意味属性の本質的に異なる語句の大ざっぱな使い分けで効力を発するものだというだけの話であり、面倒な難題がこれでスッキリ解決できるという類のものではないということです。

紛らわしいのは三属性の変換で<書く/欠く>や<決心/結審>のように単に属性ロ(用言全般)のときと属性ハ(第三の属性・通機的)のときのように一部特殊な場合において動詞やサ変名詞の使い分けを提案しつつ試みているケースがあることです。
これがボタンの掛け違いで曲解されて動詞の同音異義語の問題を解決できるものだという印象を与えているという図式が浮かび上がってきます。ですので誤解をされないよう注意深く紐解いてこちらの意図を理解してもらうため更なる説明していきたいと思います。

「通機的」なる判断基準をもって同音異義語を使い分けようとする試みは三属性変換のものの見方である「語句の意味概念情報を構文解析時だけでなく候補選択場面においても活かそう」という意味で地平を広げてくれますし、
動詞の属性を属性ロ(用言全般)だけに押し込めてしまうのをよしとせず、せっかくある「第三の属性」を利用して特徴的な意味を持つ動詞を別個汲み上げれば動詞全般の候補選択時においてもきめ細かいポテンシャルを発揮すると思います。
「通機的」の定義するところの詳細な輪郭はまだぼんやりとしていますが人間や生き物の通常範疇の動作や自然現象・物理現象の様態描写的な表現は属性ロの用言全般のくくりで分類し、通機的という特徴的な表現で定義される属性ハの語句は言語表現としてなじむかどうかはわかりませんがトポロジカルに違う、デジタルな構造・論理の変化をあらわす属性だということができます。(例えば「断つ」や「撒く」のように)
この感覚は前述の<聴く・聞く>の使い分けよりも意味・表記上の混乱が少ない(辛うじて)かと思いますし失敗するリスクも比較して少ないアプローチだと思います。何より抽象的ではありますが通底した分類感覚が存在しそうに思えるところが良いところだと思います。


長々と講釈を垂れて結論が遅くなってしまいましたが、三属性変換の真に意図するところは「典型的な三属性の分類ケースでは活用できるが、微妙なニュアンスの使い分けは用例変換に任せればよい」ということであまり前面に立たず用例変換のテリトリーには立ち入らないように機能するのが余計な干渉を起こさず良いのではないかと思っております。
<測る・量る・計る>などの違いは書く人の美意識だとか感覚差などによる個人個人の使いようがあると思うので、無理にユーザーに言語感覚を押し付けようというのは適当でないはずです。
用例変換の眼目はペンタクラスタキーボード特有のものではなく昨今の一般的なIMEでも培われている技術なのでまずは通常変換のプロセスでうまく機能すること目指していけばよいですし、三属性変換で仲立ちした意味情報も何らかの形で用例変換・AI変換に役立てればいいと思います。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする