P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

マリトッツォ、姜葱醤、産直にんじんのおいしいジュースが修羅ウマ!

2021-07-22 | 未分類カテゴリ

 

生協の「産直にんじんのおいしいジュース」が美味しいんです。自然な甘さとは思えないほどの甘露な甘さがたまらない!
姜葱醤(ジャンツォンジャン)は中華街の業務用スーパーで買いました。チキン南蛮にまぶして食べたけれどあっさりしているけどパンチもあって美味~♪
そしてみんな大好きマリトッツォ。ホイップクリームオニ盛りプリンを見かけなくなって久しいけれど、これはホイップ党も納得の鬼盛り具合がいいですね。

そんな生活に彩りを加えるキラキラフードの話題ものせつつ、ブログ過去記事発掘もひとつよろしくという具合でアリマシテ。
(ここ数年お盆の時期が近づくと日本語関連のオススメ記事を紹介するのが通例になっております)
以下にリンクを貼っておきますのでご興味のある方はのぞいてみてください↓↓↓

日本語の特徴を再認識させられる記事紹介 その1 - P突堤2
日本語の特徴を再認識させられる記事紹介 その2 - P突堤2

流行りものもいいけど日本語の不思議に思いを馳せてみるのもいかがでしょうか。
一応、日本語入力をテーマにしているブログですので。トレンドは言葉の中にもあるのよ?

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

助詞省略のtwitter構文と副詞ヴァージニティ

2021-07-04 | 文解析は副詞が鍵

「始めて」と「初めて」とが混線し、不適材不適所となっているトホホな誤変換をよく見かけます。
よくよく思案を巡らせてみると、「始めて」は
「--を始めて」(ヲ格をとる)
「うっせえわが流れ始めて」(複合動詞)
「会議始めてしまうよ・みるよ・おくよ」(モダリティ/アスペクト/補助動詞/助動詞相当フレーズの末尾への付加)
「アルバイト始めてから」(文法機能語フレーズの末尾への付加)
等々接続配置や格のとり方の特徴がみられることがわかりますし

「初めて」については
「初めてお目にかかります」(文頭・副詞用法)
「モツ鍋なんて初めてだ」(叙述用法)
「声出して笑ったの初めてかもしれない」(叙述用法かつ定型的フレーズの付加)
のような特徴がみられ両者には瞭然たる違いが浮き彫りになってきており対照的です。
このあたりの分析を適切におこなえればかな漢字変換のIMEにも着手不能と言えるほどの困難でもなさそうなのですが、実際のところこれらの分解能不備で生じる誤変換は未だに解決の目途がみられる気配はなさそうです。

これらの例と同一線上には
「機能LINEで会話してたんだけど」(○副詞昨日)
「かけそばを一杯食べた」(☆副詞いっぱいとの混線)
「余り計算したくない」(☆副詞あまりとの混線)
3例の文例なども示唆に富む事例と言っていいでしょう。いずれも悩ましい問題であります。

これらに対して抜本的に解決できるというほどのものではないのですが、ペンタクラスタキーボードの基本コンセプトを応用して何か手立てはないものかと案じたところわりと実践向き?そうなアイデアをひねくり出したので今回はその骨子をお伝えしたいかと思います。
とは言っても"一考を案じる"…というような懸案対峙的に向き合って考えたものではなくて通常変換/三属性変換の挙動を作り込んでいっているうちに雑メモで副詞誤変換のいなし方を諸所に残しておいていて、それをラフにまとめておぼろげながらの対処見解をパッチワーク的につなぎ結んだモノであります。
まだ生煮えのアイデアではありますが導入のためにわかりやすそうなフレーズであらわしてみますと、少々独特の造語ではありますが

副詞ヴァージニティ

という用語を提案してみました。
字面から察するに想像が尽きぬところなのですが、「始めて」「機能」「帰って」「ナンだと」などが文頭にくるとピーピー警報が鳴って、全力で座りの悪さをアピールする、
いやそれだけでは生ぬるくてインターフェース、構文解析、いやいやもっと前の入力の段からして構造的にそのリスクを回避しようではないか、という試みであります。
噛み砕いて言うと、特定のターゲットのワード(よみ文字列)においては、文頭で配置されているか否かをいささか神経質に判定材料にして
そこにヴァージニティ(童貞性)はあるのか?副詞の活躍場所を奪わないで!
という反俗精神というものを構文判定のマインドに持ち込もうというものであります。
(なんだかワケのわからないことをぬかしおるな…というのを我慢してもう少しお付き合いください(^^;)

そもそもの話なのですがペンタクラスタキーボードの変換体系は上位にまず通常変換があってそれではカバーしきれない特定フォーカスの変換候補をその下位にある三属性変換が各々受け持っています。
通常変換では解釈バイアスがかかっていており、モダリティやアスペクト、受身/可能/尊敬/自発、談話機能などのニュアンスが味付けされているものをひとつのゲシュタルトとみなしてデフォルトではより複雑なほうの解釈を好むというものであります。
わかりやすく例で列挙してみると、(前者は通常変換/後者は三属性ロ万)

後で刺そうとして/後で誘うとして
愛でたい/目出度い
日曜日来るって/日曜日狂って
おいてかれるよ/老いて枯れるよ
撒けそう/負けそう
漏らせる/盛らせる
敬意を占めそう/敬意を示そう
看取れたんだ/見蕩れたんだ

…とこんな調子でかえって通常変換で適切でないフレーズのほうを優先してしまうケースもあり痛し痒しというところではあるのですが
少なくとも変換候補オーダーが出るまでユーザーに心づもりをさせずに選択候補が出たとこ勝負でドーン、という事態になってしまうのではなく、常に非対称に格納していますので
ユーザーにとっては挙動の予測がしやすく、もし得心の行かない候補が出てしまっても通常変換→三属性変換と遷移することによって目的の変換候補を出すことができますし忌避行動は用例学習されるので二回目以降の変換では通常変換でも学習結果を反映して通常変換バイアスにこだわらない柔軟な返しを用意するものであります。
もちろん初回の変換でも当該箇所の変換をいきなり三属性変換に個別指定してやればすんなりニュアンスを酌んだ変換をしてくれるところも同様です。

副詞ヴァージニティはこうしたメイン課題をいろいろ検討していくうちに副産物として生まれたアイデアの一つです。
副詞ヴァージニティについては先程の例の「初めて」「昨日」「あまり」のようなひとチャンク固定されたよみ解釈のものもありますが

「去年に比べた海水順だ」(○去年に比べ高い水準だ)

のようにぎなた読みがらみの副詞句弁別にも援用できるものであります。こちらも通常変換バイアスはここでも有効に影響範囲でありたいところです。
記事冒頭の多面的な格関係・用法からの構文分析がもし困難であるというのなら、副詞ヴァージニティのように形態的アプローチで簡易的に決めてしまうのもお手軽でいいのかもしれません。
ただしちょっとひねりを加えてあるのは通常変換バイアスの決定において単にテキストを流し込んで判定するのではなく、ユーザーに通常変換なのか三属性変換なのかを指定させることができ双方向的に関与できる、というのがミソであります。
人間と機械が協調動作することで所望の目的を達成するシステム、まさに人間=機械系の特性を貪欲に取り込んだ設計であると自負しています。


さて通常変換挙動の副産物としてほかにもまだアイデアはあるのですがそれらの中でもなかなかに難題のものが当ブログでアジェンダ名詞と名付けている助詞省略時の主語・状況語のトピックであります。
元々副詞には時の副詞として「昨日」「来年」「先日」「2時間」なども名詞範疇でありながら副詞的色彩を帯びているものがざらにありますし、
「ごはんを食べたとき」「思いの外」「ツツジの花が数輪」のように体言結びの句を提題的に使っているものもあります。
最近の話題としましては、「twitter構文、便利だからつい多用しがち」などにみられるネット定型文などもあり助詞省略の体言提題はここでも根強い剛健さを誇っております。
実はこの構文、冒頭に話題を設定してあとは自由に見解を述べられるので汎用性が高くフォーカスを絞れるので短文必須のtwitterにはうってつけのロジカルな語法なのではないかと認識を新たにするものであります。
よく使われるイディオムとしては、
「○○、△△過ぎるな」
「○○、△△しがち」
「○○、△△みたいなとこある」
「○○、△△するもバレる」
など組み合わせも展開も縦横無尽であります。
今のところはかろうじて読点で区切って書かれているのでぎなた誤読のリスクはあまり無いようなのですが今後は読点すら省略されてしまう表記が主流になってしまいやしないか行く末が心配でなりません。
なにしろ読点を省いてしまうと分かち書きのない日本語では単語の境界が溶けあってしまい構文解析の難易度は一気に高くなってしまうのでそれくらい日本語入力にとっての勘所だということであるのです。
苦し紛れでひねりだしたアジェンダ名詞でありますが拙案の私が言うまでもなく、同様の概念はすでに学術界では「はだか格」「単説題目語」「無助詞」「はだしの名詞」「主語に『は』も『が』も使えない文」…等々などで掘り下げられております。
特に無助詞については単に助詞を省いただけというものではなく、助詞標識がゼロであることをもってして他の助詞付きの提題とは一線を画したそれ固有の意味用法をもつのだと位置づけるとらえ方もあるということを知ったときには新鮮な驚きを感じたものであります。
私は言語学・文法知識には要領を得ない半可通ではありますがペンタクラスタキーボードの入力機構からみた見地で「変換機構の都合を斟酌した文法」とでもいうべきアレンジを加えることによる再定義をこれらの術語から着想を得て提案したものであります。

ここまで副詞ヴァージニティとアジェンダ名詞について考察してきましたが私の書き方が悪かったせいでこの両者にいったい何の相関があるの?と疑問に思われてしまうのも無理もない話でありまして、
これらのトピックを無理に統一的に説明しようとして同じまな板の上にのせてしまうのにはいささか野放図にすぎることは重々承知しておるところであります。
そしてそれが実際、なんだか副詞なのかアジェンダ名詞なのか、あるいは接続詞的成分でさえもその認識領域・境界意識というものがわからなくなり私自身埒のない混濁に陥っているのをひしひしと自覚できます。
そこへきて通常変換のなんやかんやゲシュタルトであるとか「ところだ」「走っていく」「てほしい」「万有引力でもって」「ドコモだけ」「象みたい」などのように通常変換バイアスの影響下として
形式名詞・補助動詞・テ形副詞句・補助形容詞・文法機能語の解釈を優先する指向性をもつ振る舞いなども併せて考えなくてはなりませんし、なんだか抽象を大きく膨らませて深追いしすぎてしまったせいで手に負えないシロモノになってしまったというのも事実ではあります。
しかし少なくともこれら列挙したものについてはいずれも何らかの"ヴァージニティ"が存在し得る、または初出解釈時にはこれらの峻別意識を尖らせた方が便利で有益であるというのは明白であります。(virginには「未使用の」という意味もあります)
ただそれよりもむしろアジェンダ名詞のほうがヴァージニティという軸で説明するのが困難だということにやがて気が付くという一波乱が起きてしまいました。

これは問題です。

「収量とれなかった」というアジェンダ名詞文があります。この語自体はあまり頻用することの無いワードなのですが助詞抜きで使おうとすると「終了とれなかった」とトンチキな誤変換を発生させる不遇ワードであります。
似たような例では「用事済みました」が「幼児住みました」になってしまう例、「歯医者変えたんだ」が「敗者買えたんだ」になってしまうというのも脱力誤変換を誘発させるセンシティブな例であります。
どちらかといえば評価や報告に関する諸元説明としての用法が多くて、悪い方の誤変換候補に関しては抽象物よりも具体物や日常時事問題要素をはらんだいわゆるパワーワードの癖の強さが鼻につく傾向があるかと思います。
なお、ここでは「横アリ」や「いつメン」のような短縮語は語構成上の整合性やインターフェース混線(単語登録や未知語処理)の兼ね合いから議論の俎上からはあえて外しておく事にさせていただきます。(もちろんアジェンダ機能をもつものもたくさんありますが)

こういったタイプの語に関してはその後の展開性に着目して「ころがし値」とでもいうようなポテンシャル記述でパラメータを設定するほうがむしろ理に適っているかもしれません。
ころがし値は体言にしか設定できない類のものでありそれと同時に助詞抜きフレーズとの親和性の高さという語彙語用的視点も考慮、また有助詞であることを典型から外して考える疎外律のイディオム感も持ち合わせています。
具体的なところはよく分かりませんが(無助詞)ころがし値の高そうな文例としましては、

この電球φ、切れてるよ(姫野伴子(1999))

に出てくる「この電球」などがよくパラメータ規範に沿っている語彙特性をもっている言葉だと思います。助詞付きではかえって違和感がありますね。
このほかにも関西弁に見られる一文字語に小ぁ行の音引きを付加した

気ィ 茶ァ 手ェ 胃ィ 蚊ァ 身ィ 戸ォ 酢ゥ 毛ェ

などの語もころがし値の高そうなイディオム感をもっている単語であるでしょう。こちらは高々有限個であるので思い切って力業で網羅しておくのもよさそうです。
ころがし値はこのように一度アジェンダ名詞として結節したうえで、後続に展開的な叙述を連鎖できるかという観点のもとで定義される値であります。
ちょっと注意したいのは「クマ改善」や「クラス練習」のように一見サ変動詞に係ったアジェンダ導入にみえそうな(連用素材っぽい)場合もよく見て構造を解きほぐしてみると
確かに「クマ⇔熊」の対立や「クラス⇔暮らす」の対立を使い分けられそうでそこにヴァージニティを見出す価値はありそうなのですが
これはどう見ても連用素材句という一フレーズととらえるには緊密すぎますしやはりここは複合語のさばきの範疇で処理していった方が適切であるのかもしれません。
やはりアジェンダ名詞のあとの叙述フレーズが単文的に述語ひとつで結んであるのもいいですが複文的にひとチャンクになった長い叙述:引用節や名詞句の組み込みであるとか格関係の具陳してある重複文叙述が連なっている文章のほうが前段の連用導入が際立ってヴァージニティーの存在意義を手応えることができるのでいいかと思います。
いずれにしましても副詞ヴァージニティところがし値とは密接に関連しており、

統語全体からみた文頭の特徴検出が副詞ヴァージニティ、
個別の語頭からみた統語全体への収束見込みを推し量るのがころがし値

という実は同じ根のある文法的性質のものを2つの対岸から俯瞰したものがこれらの術語となって顕れたものであるということにようやく到達した結論なのでありました。
正確には、文頭副詞というよりも叙述部頭、規定句頭と言い直した方が適切であるかと思いますが、大切なのは検出の入りばなというよりもヴァージニティーの寄り代となる叙述素材がまさにあるかどうかということを問う観点であるのではないでしょうか。
ここで今一度、単語とはなにか、文とはなにかということについて根源的に立ち返って「変換機構の都合を斟酌した文法」を構築していくことが肝要なのではないか、ということです。
文節で区切るIME文法は一度解体して、「各種ヴァージニティ」の「検出入り/検出解き(フラグ区切り)」にのみ特化して分解能を高める方策が求められているかと思います。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新カテゴリ発進・形容詞研究

2021-07-01 | 形容詞研究

従来より【形容詞の新語】はなかなか生産されにくいとされてきましたが、その傾向もだんだん拘束力がなくなってきているような兆しを感じます。
「エモい」が強すぎるせいか目立ちにくいのですがネット打ち言葉文化の萌芽で「びみょい」とか「ガジェガジェしい」といったような自由な新語を目にする機会は確実に増えてきており、
日本語に限らず外国語文化の中にあっても「instagrammable(インスタ映えする)」であるとか「rageux(ネット上で過激な意見を主張する人)」などにみられるように話題を映す鏡として【形容詞の新語】の需要は高まっているようであります。

そこでまずはこのコピペから

798名無しさん@英語勉強中 2018/09/20(木) 02:04:29.56
イ形容詞は丁寧形が不自然になりやすい。
白いです
白かったです
話し言葉だと違和感がないが、書き言葉では避ける人も少なくない。

なのでイ形容詞の新語は丁寧さを必要としない言葉が多い。
うざい
やばい

(引用:5ch English板より)

…なかなか鋭い分析ですね。
日本語のフォーマルな新語としての形容詞語がみられないのも、ここらあたりに遠因があるのかもしれません。


さてペンタクラスタキーボードの操作体系において形容詞には別口入力の提供を検討したことはあるのですが結局採用には至っておりません。
やはり造語新語生産性が低いとみて喫緊の必要性をあまり感じなかったからであります。
確かに一度は別口入力で終止形/連体形活用語尾「い」について新規採用の可否について考察したこともあるのですが
全ての形容詞にいちいち「い」をマーキングするのも煩わしいですし、「ぽい」「たい」「いい」「ほしい」など頻出フレーズへの対応を考えると頭を抱えてしまいます。
あとはわざわざ別口入力を用意してまですることなく、用言フレーズなのであるから三属性変換のロ万で末尾いのつく未知語をたとえば「イスカンダルい」のように形容詞解釈させる道も用意してやればいいのではないかという小細工で処理すればいいとの認識もありました。
このあたりの考察は過去記事

未定義③キーにあてる別口入力キー候補その4…[い] - P突堤2
形容詞も思い通りに変換したい - P突堤2

にて触れておりますので興味のある方はどうぞご覧ください。

こうして一度はスルーされた別口入力「い」だったのですが、
しかしこれを別口入力「く」(連用形)とした場合、もしかしたら再考の余地があるのではないか…との考えがよぎってきました。
ここでは詳しくは述べませんが、連用形なら頻度は少なさそうですし、補助形容詞との連結も「い」のときよりは抵抗感がやわらいでいるかと思っております。

そこで思い切ってカテゴリを独立させて、別口入力「く」(連用形のひとつ)の実現性について今後の記事で深掘りしていこうと思いますのでそこらあたりについていろいろ書いていこうと思います。
新カテゴリ名は

形容詞研究

であります。
これに伴って[形容詞も思い通りに変換したい - P突堤2]だけはカテゴリ移動させて
[変換三属性+通常変換のシステム考察] から [形容詞研究] のほうへ移しておきます。なのでこの記事は同カテゴリの中の2番目の記事となります。悪しからずご了承ください。

研究という大仰なカテゴリ名ではありますがいままで形容詞を軽視していて別口入力という可能性を見落としていたという悔悟の念もありますし、昨今の新語の趨勢への期待感も込めて少し背伸びをして真摯なタイトルにしてみました。
書けそうなことは別口入力以外にも形容詞新語、規定成分のチャンクのとらえかた、形容詞転成の副詞、旨っ・辛っ・安っのようなイ落ち形態、それに第三形容詞などなどいろいろありますので
新カテゴリを銘打つに足るコンテンツが書ければ良いかと思います。至らぬところもあるかとは思いますがどうかご期待ください。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする