P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

格フレーム処理・共起用例を考慮した変換全般のの雑想メモ

2017-08-27 | 変換エンジンのこと
ジャストシステムの日本語入力エンジン ATOK 30周年記念サイトのページに、以下のような記述が見られます。
// 「人が泣く」と「動物が鳴く」では、同じ「なく」の読みに対して違う漢字を使います。
// ATOKの辞書に「犬」や「猫」などを登録する際には、「動物」という情報も付与しているので
// 「犬が鳴く」と変換できます。
連載 ATOKの“かしこさ”の秘訣とは?|ATOK 30周年記念サイト|ATOK.com

…これは大変興味深い機構で、この考え方を延長していけば「太郎」や「あの子」も「人物を指すもの・人名」だと認識したうえで、「あの子が感動のあまり泣く」などといった変換も原理的には可能かもしれません。
これを実現している仕組みには、おそらく「格フレーム変換処理」というものが活用されており「動物」というクラスの下位概念に「猫」や「犬」がおかれていて、
「犬が鳴く」といった表現記述を問う時には「犬→動物の一種」;動物のアクション「なく」の相当字は「鳴く」である…と一種ののクラス集約性によってクラス参照がおこなわれ推論的に選ばれていくという高度なプロセスを辿っていることが理解できる良い例です。
これらは犬は動物の一種であるといった意味構造的な関係性までコンピュータが認識している上での処理であって単に同一同音異義語内で機械的に対応付けているだけのもの(意味関係まで理解していない)とは一段違った処理であることに留意しなければならないかと思います。

また2項以上の叙述構造の関係性において正しい変換候補を選び出すための手法として「共起」という概念も重要になってきます。
//猫を解体/猫を飼いたい
//鮪を包丁で解体/鮪を包丁で飼いたい
//巨人に先生される/巨人に先制される
参考文書:共起性を考慮に入れたかな漢字変換の試み:山形頼之 (産業技術総合研究所)IMワークショップ 2016/12/29

…「猫」は「飼う」ものですが、「解体」したらとんでもないことになってしまいます。
またこの文章の変換直後に「まぐろほうちょうでかいたい」と打ち込んだら、正しく「解体」と変換されるでしょうか。
こういった変換では「ある2つ(以上)の単語が文中に共に出現しやすいという性質 - 共起」というものをうまく利用して連接関係を正しく反映させることができます。

ペンタクラスタキーボードの通常変換においても、このような手法の成果をうまく取り入れることが必須になってくるかと思います。


あとは格関係・助詞との連接において不自然な変換などの例もみられます。
(例)
対策を寝る/対策を練る
絶対に夜食をしないと近い/絶対に夜食をしないと誓い

これらは「対策」と「練る」の2項関係の対応も重要ですが、「-を練る」のように練るに接続する格助詞「を」との用例関係の認識がより重要になってくるかと思います。
「-しないと誓い」の「-と誓い」、これは「-と近い」の例もあるので一概にには言えませんが、対応関係が事前に登録されていない2項関係の場合に正しい変換を導き出すのに必要なヒントになるかと思います。

このような述語/用言部分の誤変換とは逆に
(例)
帰社が走る/汽車が走る/記者が走る

などの例のように主語/名詞部分の誤変換の例も見られます。
先ほどの考察のように、汽車=乗り物=走るもの や 記者=人物=走るもの のような推論構造で辿ることも可能かとは思いますが、
「汽車→が」、「記者→が」はよりつながりやすい/「帰社→する」がよりつながりやすい(頻度):のようにより自然な格助詞との接続情報を持つことにも有用な意味があるかと思います。
またこの場合も対応関係が事前に登録されていない2項関係の連接情報がコンピュータの手元にないときに助詞との接続情報のデータをもとに候補を選び出すことが代替的に機能することもあるかと思います。


…とここまで書きましたが格関係の接続処理にもきめ細やかな懸案事項が種々あるのだな…と思いました。
ここでひとつWeb上で見つけた関連の深い文書を紹介したいと思います。
FI 変換 (日本語入力方式の概要と移行):oracle社の解説ページより

UNIXとWindowsで商品化されたワークステーション向けかな漢字変換システムWnn6では高い変換効率を誇るFI変換という機能が搭載されており、以下のような格関係・接続関係に対応したFI(Flexible Intelligence)変換を実現しています。
・格係り受け変換
・所有格変換
・受身変換
・使役変換
・合成語変換
・修飾語変換
・複文変換

※Wnn6はオムロン社の提供するソフトウェアですがここでは参考サイトとしてoracle社のサイトを挙げさせてもらいました。
FI変換のシステムは非常に先進的で各種の格関係処理に大きなインスピレーションを与えてくれると思いますので興味のある方はリンク先をご参照ください。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

日本語の特徴を再認識させられる記事紹介 その1

2017-08-11 | にほんごトピック

このブログではいろいろな考察・説明をおこなってきましたが悪筆・乱筆な為か記事を読むとアタマがモワッときてしまわれる方も多いでしょうから、ここらで箸休め的にぴとてつがWebをめぐっているうちに出会った素適な文章を紹介しようかと思います。
にほんごトピックの読み物的な鋭い考察・着眼点のある、それなりに知名度も高そうな感じの話題をあげてみます。
まあ勝手リンク集みたいなものですがブックマークとして皆さんにも広く知ってもらいたい内容のものばかりです。
ひとこと的なコメントも添えて早速挙げてみましょう。

[Webで出合ったにほんごトピック記事8選]
第4回 ケベッコワと外来語:日本語が外来語なんかではビクともしない4つの理由 | 金谷武洋公式ブログ
   →「ジャックは、そのレストランでフィアンセとピザを食べた」無尽蔵の外来語の中で埋もれない日本語の強靭さ

Bloga enneagramica (ブロガ・エニアグラミカ) : 日本人は、漢字の訓読みを発明した
   →日本人は凝り性なのか漢字解釈のガラパゴス化でより芸術家肌な方向へ進化していく

「おニュー」「マスト・アイテム」外国語を借用し母国語化する日本人の巧みさ【イギリス】 / 海外の反応~外国人が見た日本
   →「勝負パンツ」ってすごい言葉だ

日本語って奥深い。日本語でしか表現できない言葉いろいろ - Spotlight (スポットライト)
   →イギリスで日本語教師をしているライターさんが微妙なニュアンスの日本語を紹介

米原万里「漢字かな混じり文は日本の宝」 - モジログ
   →漢字という「記号化された絵」を見るための言語は「読み手寄り」の側面がある

小日本とか侮蔑する様な言葉は各国、各言語であるの? : 2chコピペ保存道場
   →日本語はシラブル数が多いので短縮語が必然だが、英語は大抵の基本語が1~2シラブルで済むのでわざわざ短縮しない

【海外の反応】 パンドラの憂鬱 海外「なんて論理的な言語なんだ」 日本語の構造を簡易化した図が外国人に大好評
   →膠着語である日本語は「てにをは」が文章構造の大きなカギとなる

「うなぎ文」「こんにゃく文」に見る日本語の特異な面白さ - NAVER まとめ
   →この他に「私の娘は男です」(娘のところで生まれた子が男の子だった)という文も同類のタイプでありますね

…お時間おありの方は是非読んでみてください。では、良いお盆休みをお過ごしください。



(2018/8/6 一部記事改稿:リンク変更とリンク追加)
にほんごトピック記事の最初の金谷武洋さんの記事が移動していたのでリンクを新しいものに差し替えました。
第4回 「ケベッコワと外来語」 - 金谷武洋の『日本語に主語はいらない』(gooブログ)☆旧
→第4回 ケベッコワと外来語:日本語が外来語なんかではビクともしない4つの理由 | 金谷武洋公式ブログ☆新

またその後のWeb巡りで新たな興味深い記事を見つけたので追加でもう一つ記事をリンクして「8選」とさせていただきました。
「うなぎ文」「こんにゃく文」に見る日本語の特異な面白さ☆新

(2020.8.6 追記事の投稿とそれに伴う当記事のタイトル微修正)

当記事はもともと[日本語の特徴を再認識させられる記事紹介]でしたがその2-記事を作成したことにより
[日本語の特徴を再認識させられる記事紹介 その1]へとタイトル変更しました。
本稿の第2弾記事[日本語の特徴を再認識させられる記事紹介 その2]のほうも良かったらご覧ください。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

アルファベット/日本語混在入力に強い(2)

2017-08-06 | アルファベット液晶入力+テンキー部
Tシャツ、Uターンなどような混在語をスムーズに入力できたらいいだろうな…というわけで
以前の記事、アルファベット/日本語混在入力に強い(1)-で列挙した混在語について今回は追加の語句例とミニ考察を交えながらの追記事を書いてみようかと思います。
ペンタクラスタキーボードの利点であるアルファベット/日本語完全分離入力のお陰で以下のような日常目にするパターンの語句の入力も曖昧にならず変換文字列として投げ込むことのできそうな例もいくつかあるかと思います。
早速まずは例をあげてみようかと思います。

(例)T字カミソリ Tシャツ Yシャツ U字工事 Uターン Iターン Eメール Jリーグ O脚 イッテQ みるみるUPっぷ↑↑ トイレへGO!
テンションMAX ラジオDEショー! いつもNAVI Wワーク Bックをオフにしている店  Mッフィー Mステ アンタってツッこみどころ多いWAね
ゆるゆるうんP A応P TVッ子 S高 福PがMXに ポケモンGO スポーツch Mac風 攻略wiki

まずこのブログの基本コンセプト2017ver.のタッチ液晶部の解説にも書いてありますが先に挙げたような混在語におけるアルファベットは、デフォルトでは大文字と捉える事とし、Macやwikiのように小文字交じりあるいは全小文字のアルファベット語は個別例としてネガティブリスト的に記憶させれば良いかと思います。
異論はあるかもしれませんが入力時Shiftキー同時押しなどによって大文字小文字を区別するなどの厳密な指定を必要とするものよりは「まず入力したアルファベット片は大文字のものである」ということが決まっていればシンプルでわかりやすいと思うのです。
そもそも「yしゃつ」と入力したところで大文字の"Y"が小文字の"y"になってしまうのはトホホな現状です。従来のかな漢字変換の入力文字列中においてのアルファベット部分の分別・切り出しは完全であるとは言えずペンタクラスタキーボードのように字種担当がそれぞれ独立・分離して初めて「理想的な未変換文字列」が完成するのだと考えます。
なにやら「y」というアルファベット部分を感知したとしても後続の文字に母音が来ると「や・ゆ・よ」と日本語の字種として読ます方が妥当だとしてアルファベットの一打鍵とはみなされにくいという「遠慮」のような作用が働いているかのようです。
それを如実に表す困った例として「Uターン」「Eメール」「O脚」などが出てきますがこれらの語を素でプレーンに入力しても「うたーん」「えめーる」「おきゃく」となるだけで全く埒があきません。
ならば最初から「これとこれは違う字種だよ」というのが自明な仕組みにした方が間違いがなく、ややこしい煩わしさもありません。
これがわかっていれば先ほどのような「遠慮」的現象も起こらずアルファベット混成語=デフォルト大文字のような決め事の導入も諸事情が絡むことなく大胆に設定できるかと思うのですがどうでしょうか。

このような仕組みの本筋にあるものはまずは「U字工事」などのような語がそもそも単語辞書に登録してあればすんなりと変換できるという当たり前のことを申し上げたいところなのですが、ひとつ突っ込んだところを言うとペンタクラスタキーボードにおける未変換文字列というのは混成語であっても字種の違いに揺るぎがないということが確定しているということを強調しておきたいと思います。
従来の標準的入力方式での未変換文字列-特にアルファベット/日本語混在文字列は前述の「うたーん」「えめーる」などのように母音が来てしまうとアルファベットのままにしておきたい文字片もかなに変換されてしまう現象が起こってしまい、これを回避するためには細切れでその都度入力確定していくか、Shiftキーを適宜押してモードの遷移を操作していかなければなりません。
従来方式のモード遷移・字種さばきの境界はあいまいであり単語登録の段に入ってもなお不確定性が忍び込んでいくことになります。
これを最初から物理的に字種分離が明快なキーボードでおこなえば通常の変換時はもちろんの事、単語登録時のよみの文字列にも字種情報がしっかり反映しているのであいまいさが入り込む余地がありません。当然、よみの文字列も多字種混成のものとなり混成語の入力に望まれる完全な形での未確定文字列の要件が整うことになります。
重要なところはかな漢字変換のプロセスよりもひとつ前の変換前のベタ文字列の決定の段階からアルファベットの扱いにあいまいさが残るということであり重ね重ね言いますがこの問題を解決するには字種を兼任させない字種完全分離のキーボードでもって構造的・原理的な策を立てるのが一番シンプルな答えだと思います。


…ミニ考察のつもりがずいぶん長々と書いてしまいましたが言いたいことは少しは言えたと思いますので、記事をお読みの皆さまにはあとちょっとお付き合いをお願いしたいと思います。

そもそも単語登録に入っていれば具合が良いということは申し上げたかと思いますが、登録がされていない単語、初めて入力する単語、未知語の類にも混在入力における強みを発揮するためにはやや発展的な考察になりますが以下で述べるような処置が有効であるかと思います。
たとえばT字という語句が登録されていなかったとして、T時・T次・T地などの間違った変換候補がでない・あるいは下位順位に提示されるようにするためには連結規則の特徴として[アルファベット1字]+[じ]の配列のときには[字(じ)]の字が優先される…のようなルールを各々整備していくことでユーザーの利便性が向上するのではないかと思います。(すでにこのような仕掛けは常識かもしれませんが)
加えて言うと「SAN値」「F値」のように「ち」に続くときも同様です。これらの配慮があるかないかの有無は使い勝手の意味では大違いになります。
「じ」のような1文字語への連結だけでなく「IT用語」のときには「擁護」は来ない、「TL感想」のときには「乾燥」は来ない…などの2文字以上の語にも接続特性を考慮した変換候補の提示があればより利便性は高まっていくでしょう。
さらに言えば「福PがMXに」のような場合「P」はプロデューサーの「P」であることを理解して「服」や「副」は来ない…(他の人名でも同様)という意味属性情報の参照/推論-的な処理も高度ではありますが考えられます。
この辺は発展的内容として心づもりぐらいはしておきたいところです。フレーム論的な事や意味解析的なトピックも今後避けて通れない話題かと思います。

…これで大体言いたいことは言及しましたが、もう少し挙げるなら
「みるみるUPっぷ↑↑」「Bックをオフにしている店」「Mッフィー」などのような[アルファベット]+[っ]とつながる言葉とかでしょうか。かな入力にしてもローマ字入力にしてもモード移行でShiftキーを押す場面がせわしない入力かと思いますが、ペンタクラスタキーボードならShiftキーを一切使わずに思ったままのリズムで素で入力できます。
これは地味に便利なところで使う場面も多々見られるポイントなので大きなセールスポイントと言ってもいいのではないでしょうか。

このように細かなところではありますがアルファベット/日本語かなの完全分離入力の仕組みはコツコツとユーザー本位の理想的な入力へ近づいていくのに知らず知らずと寄与しているのがわかってもらえるかと思います。
最後にいま一度文頭で挙げた便利な混在入力の語例をもう一度見てみてください。特に初めて入力するときにこのような変換がきちっとうまく変換できるとするならば、ちょっとうれしいと思いませんか?

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする