P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

補助線・勇み足

2020-12-05 | 文解析は副詞が鍵
前回の記事、
活用形の拡張:接題目形…補助線 - P突堤2
で考察していた中で出していた例で
耐えかね:(VN+接辞)"導入フレーズ"とするのは早合点でした。ちょっと練り込みが足りなかったかな?
やはり「--かね」の部分はまがいもなく複合動詞であり、それは今回意図したような接辞の類とは分けた方がいいようです。
ちょっと言い訳をさせてもらえば以下の理由があります。

耐え[かね]の部分に関して:
・自立V+付属Vの形に引っ張られ過ぎた。後部要素がなまじ付属Vだっただけに接辞的にとらえてしまっても構わないんだ、という気のゆるみがあった。
・[かね]はテ形・タ形にしたとき音便形にならず[かねて]と素直な形になる。
 他の複合動詞後部要素に着目してみると、「切り(きった)」「込み(こんだ)」「付き(ついた)」「合い(あった)」「上がり(あがった)」「抜き(ぬいた)」
 …等々ある中で、音便形を取らない[かね]のような語に法則外のニュアンスを(勝手に)感じて、何やら特別感の計らいで[--かね]は例外的に接辞的にとらえても構わないという先入観があった。
 これには語彙イメージ的背景がありまして、複合動詞型の連用形転成名詞をざっと列挙してみると
 「焼き増し」「申し開き」「置き去り」「出涸らし」「浮き彫り」「走り書き」などのように容易には音便のテ形タ形に接続しにくい、これは格助詞の「で」と混線しているせいもあってますます[かね]のような音便形にならない後部要素に稀少性を感じてしまう一因かもしれなかったかもしれない。
 しかし実際には音便形を取らないでテ形やときにはサ変兼務可能な複合動詞由来の転成名詞はいくらでもあります(「やり直し」「受け取り」「聞きかじり」等)。

いずれにしましても[--かね]は複合動詞のカテゴリーのものとして組み入れるよう軌道修正し、接辞運用の利便性の誘惑をさっぱり断ち切って、動詞としての振る舞い、文構造解析のさばきに立ち返って連用中止法の構成構図を地道に究明していくほかないかと思います。

…とは言うものの接題目形を適用したい狙いの最たるものとして[--すぎ(過ぎ)]があります。これは活用形の着目は置いておくとして
多すぎ 高まりすぎ 痛がり過ぎ 汗ばみ過ぎ しょぼくれすぎ なさすぎ
などのように形容詞語幹との接続はとりわけ特殊でもありますし、形容詞語幹+「がる」からの接続、さらには
活用接尾辞一体型動詞「汗ばみ-すぎ」の例や打ち消しの助動詞「ない」&形容詞語幹につく付加の「さ」のカタチ「居なさすぎて」からの[すぎ]
等々のように純動詞+[すぎ]のカタチよりももっと拡張されて文法的許容性バリエーションも多彩なものになっています。
もはや[すぎ]は一般動詞とりまわしで済みそうな接題目形でカバーできる範囲を大きく超えてなにぶん文法的な要素も絡んできそうですのでここで結論を急ぐのはやめてもう一層の掘り下げが必要かと思います。

以上、接題目形についてはこれで完成形とはせず、もっと材料を集めて反芻・咀嚼・消化してより一層のパースペクティブを確立したうえで練り直していこうかと思います。
なんだか、一度振り上げたこぶしを納めどころに困ってしどろもどろとカッコ悪い感じではありますが、これはこれでいいのです。
なにしろ今は膨大なインプットの最中でありますから、知識を定着させるためにはこういったアウトプットを適宜織り交ぜながらやっていった方が断然有意義なのです。
インプットばかりしていてはちっとも完成形には届かない、まずは「早くプロトタイプを作る→評価と調整を繰り返す」の黄金律にしたがって前進していくしかありません。
なのでこれに懲りずに予定通り「接頭辞接尾辞」まとめ記事を形にすべく、年末追い込みをかけていこうかと思います。

この頃は記事のペースも亀の歩みとなってしまい心中もどかしい気持ちもあるのではありますが、読者様にはどうぞ温かい目で見守っていただけますようよろしくお願いします。



<おまけ画像:日本語入力の新しい試み>


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

活用形の拡張:接題目形…補助線

2020-11-08 | 文解析は副詞が鍵
ある種の句接辞において、副詞句/節を形成し後続の述部を連用修飾するものがあります。
動画を観賞[中]急いでメモした、学生[当時]手が届かない代物だった、等々助詞抜きで後続の述部に接続していくのが特徴です。
これらの中には
就任[後]-だろう、職業[柄]-なのか、など述部というより助動詞や接続詞と直接つながるものもありますがここでは典型的に副詞的職能をもつタイプのものや用例に絞って考えていきたいかと思います。
接続の仕方についてポイントとなるのは後接が[助詞抜き述部接続]となっている事です。これは前接の名詞的投げかけが、副詞的係り方というよりもやや接続詞的、あるいは題目提題的であると言えると思います。
ちょっと唐突に題目という言葉を持ち出してしまいましたが、そもそも以前から副詞-接続詞-題目語の境界が横断的になっているということについて以前から注目していました。

この気温差ヤバ~い
今日の服胸ポケないから
年齢層自分の周りだわ……って
どこに目ぇつけとるんや
道中お気をつけて

などのような何気ない助詞抜き接続のものはいずれも名詞的な先行語がその後の叙述成分の提題的要素としてはたらき連用修飾の色彩を帯びています。
先人の研究によれば「題目語」「はだか格」などさまざまなアプローチで説明が試みられておりますが当ブログなりの自己消化をしてひねり出した術語は
「アジェンダ名詞(句)」と呼ぶことに思い至りましたので暫定的にこの語を土台として考察を進めてまいったところであります。

ここまで典型的にはN+接辞+Vの形を念頭に置いて話を進めてまいりましたが、ここから一歩踏み込んで
Nが純名詞・抽象名詞だけではなくて、動詞から転成した連用形転成名詞もあくまで名詞扱いとし、VN+接辞+Vの形の句接辞も成立するのか、このあたりを深く掘り下げてみようかと思います。
前段として記事冒頭での例:観賞中にしても着地ざまなどにしましても観賞/着地という語基自体は動詞様態的ニュアンスが強いもののカタチ上は漢語名詞であり便宜的にはNの扱いとなりますが以下の例ではどうでしょう↓

ここで(VN+接辞)この部分を"導入フレーズ"と設定しますと

<ア.導入フレーズの例>
届けざま
帰りしな
行きがけ
渡り中
読みおわり
読みはじめ   (おわりもはじめも動詞としてではなく接辞名詞としてのはたらきとします)
起きぬけ

…ここまでは自分的にも目論み通り導入フレーズのカタマリがアジェンダ名詞的に振る舞っているな、という感触が得られました。助詞抜きでも違和感はありません。

<イ.さらに導入フレーズの例>
笑いながら
避けつつ
耐えかね


…こちらは「ながら」「つつ」「かね」にしましても接辞というよりは文法機能語の範疇ではないか、と接辞と言い張るには少し強引ではないかとの懸念も出てきます。
おまけに「(耐え)かね」のかねについてはむしろ複合動詞の範疇ではないかという疑問を持たれてしまうのももっともな話ではあります。
しかしV-かねるのような結合は統語的複合動詞でありますし活用形の形によって「--かね」のような連用中止用法であると短尺ということもあってチャンクの分離上境界の判別に苦労させられる元ともなります。(金・カネとの混線)
この接続詞的接続はすでに同様のような「別口入力[て]」でもマーキング検知が有効にはたらいていて区切り境界は早めの網で捉えた方が経験的に良策であることはわかっておりますので
別口マーキングほどではないですが早めの形態マッチングで「VN+かね(接辞)」が掬い取れれば構文解析運用上も利点が多いものだと思います。
ちょっと吟味してみますと「笑いながらに」「耐えつつが」みたいな助詞付随はかえって考えにくいのでアジェンダ名詞(の助詞あり用法が)がそもそもないとも考えられますが
「避けつつ[の]」「耐えかね[て]」みたいに一部助詞とは連結用法も健在ですので文法語とはいえ生産力そのものがまず多いことを重要視…接辞的に取り扱うことで物理キー[三属性変換ハ万]の機構を存分に活かすことにもつながってきています。

<ウ.さらに突っ込んで導入フレーズの例>
話し方(よく分からないよね)
怯えぶり(見てごらんよ)
履き心地(前より良くなってる)
混ざり具合(ちょっと尋常じゃないな)
逃げ性能(前者より後者の方が高いっスね)
うぬぼれ展開(散々見飽きたよ)
*囲い込み戦略(着々と実行中だ)
*斬られ役(なかなか堂に入ってる)
*タカリ外交(絶賛展開中)
*サボりキャラ(定着してきたね)

…こちらの例はアジェンダ名詞使いであることに疑いの余地はありませんが粒が立ちすぎてきていて<副詞的/接続詞的に述語にかかる>という職能が大分薄れてきてしまいました。やっぱりアジェンダ名詞という看板は単純語にだけ許容したものの方が説明がすっきりするということなのでしょうか。悩みどころです。
あと気になるのは副詞+述語(句を含む)というよりは格用法が単純化されやすい…逃げ性能最高だよ…みたいに主述一体の連語フレーズになってしまうケースが多く<副詞的提題>+<何がどうした(込み入った述語部)>という構造が見られにくくなっています。
これは通常変換で副詞を敏感に検知する構えがあったとしてもこちらのフレーズの場合単に主語動詞だけの用例共起の枠組みで事を済ませられることになり何か物足りません。
やはり構造・統語を包括的に捉えるには副詞を軸とした通常変換解釈バイアスのポテンシャルを存分に生かしたいところなのですが…。まあこのへんはペンタクラスタキーボードだけの事情であり本質的な問題ではないのかもしれません。
しかしアジェンダ名詞とは申したものの個々の生成チャンクはそのまま辞書や単語データに登録・立項されていることはむしろ稀で構文解析上は"アジェンダ名詞"というクラス素性などと設定しても徒労に終わってしまいかねず新しい枠組みでの捉え方が必要になってきてきます。

そこで今回提案していきたいのが活用形の拡張、「接題目形」なのであります。
対象となるのは今回のさまざまな導入フレーズで考察してきた、VN+接辞+述語の形となる句接辞(とその拡張の機能語接辞)についてです。
ここで紛らわしいようでありますが↓以下のケースにおいては別物と考えとりあげる対象外であることに留意ください。

<接題目形の対象外例>
道行くすがら
場数踏んでるゆえだろうね
気づくあたり流石です

…これらは前接の動詞が連体形であり後接の接辞部分も形式名詞であることから典型的な連体接続であり明確に分けて考えなければなりません。
今回の導入フレーズではいずれも従来の活用形態で言いますと連用形からとなっており、本来用言に連接するものが<導入フレーズ>=<アジェンダ名詞?>=形式名詞とも少し違うような抽象結語(句接辞)と一体化して結びついており単なる連用形とは容易に考えづらいケースのものであります。
この、「一体化した結びつき」というのがキモであり平たく言うと接題目形ではVN+接辞の部分を含めて一語であるとみなし「[続]けざま」の「続」は語幹、「けざま」の部分は活用語尾と捉えることにするのです。
同様に「[力]み加減」の「力」は語幹、「み加減」は活用語尾、さらには「[癒]され中」の「癒」は語幹、「され中」の部分は使役/受身ながらも活用語尾として捉えるといった具合です。
(「され中」に関して言えば「する-される」みたいなサ変の語尾変化ともとれるのでもしかしたら語幹の切り取り方はまたちょっと違ってきますが…適切な例ではないかもしれませんが意欲課題として)
なんにせよ文法的な形式語ではなく具体語彙である加減や心地みたいなものまで活用語尾にするとなると文法的にいびつで整合性が取れなくなるのではないかとの心配はありますがコンピューターで構文解析をさせる段において密かに役に立つのではないかと期待しているところなのです。
連用形は連用と謳っておきながらも連用中止法・連用形転成名詞であるとかこの例のような題目接続であるとか例外も多くならばタイピカルな連用形でなくて活用語尾と一体になってアジェンダ機能をもつものは連用ではなく副承の職能連接でありますのでこうして独立した解釈で接題目形を立てることが接続テーブル参照/構文解釈コストづけの面から言っても避けられないことだと思います。
つまりカタチ上は連用形と同形でありながらも職能の面から言って初手から別物であるのでこれを別カテゴリにとりたててみよう、ということであります。

あとは転成名詞との住み分けをいかにして乗り越えていくか、こちらが大事になってくると思います。
<ウ.>のフレーズ例では*が付くにつれて単純な複合語として捉えた方がすっきりするのではないかと思われるフシもありますし、
悩み事 かかりつけ 挫折慣れ みたいなところはもうほとんどアジェンダ職能はみられません。
あとはとる構文の形が副詞成分→叙述成分みたいにならずになにかの装定化成分(連体修飾)になったり、補語や目的語になったりするので兼任や構文特性などともバランスを取って解釈を進めていかなければなりません。
例えば接題目形の要件を満たしそうな「食べである」みたいな題目でも存在文でしか出てこなかったり「とる」「なる」など特定の構文でしか成立しない語彙もあるのでその辺のところの精査も必要です。
仮に構文特性がこちらが想定しているアジェンダ名詞的職能と違う場面での使用が多いと判断すれば辞書的には転成名詞や文末用言としての位置付けて対処し、同時に通常変換で接題目形を取りたがる性向を少し抑制するように調整しなければならない場面も出てくるということであります。
そしてそもそも連用形転成名詞の形をもたない「食べ」や「書き」などを接題目形に組み込むのか、不自然であればネガティブリスト的に例外措置テーブルを設定するのかいろいろ懸案は出てきて来るかと思います。
転成名詞単体では出てこなくとも「聴きつつ」みたいな形は当然自然ですし接題目形特有の接続勢力語彙空間というのもありますのでこの辺の見極めは未だ未踏の領域と言っていいかもしれません。
あとは宿題としては「家に居さえ」の「さえ」、「食べでもしなきゃ」の「でも(これは複合助詞)」みたいのは後接がアジェンダ展開をせずに用言との接続とみなせるので適用外かとは思いますが文法機能語彙、具体固有語彙に限らず接続パーツの親和性組み合わせには今後も注視していかねばならない課題であるかと思います。


※この記事は近日中にあげる「入力上の待遇⑤に入る前の基礎説明事項:接頭辞接尾辞」記事について補助線という形で先行UPするものであります。
接頭辞接尾辞記事のカテゴリーは「ジャンル横断的な問題」となっておりますがこの記事単体につきましては「文解析は副詞が鍵」に資するものだと判断しましたのでそちらのカテゴリとして分類するものとします。
入力上の待遇の一連の記事はシリーズ化しておりますので全弾投下次第まとめのリンク列挙をいたしますので一区切りつくまでどうかお待ちください。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

未知語を複眼的に概観する

2020-01-19 | 文解析は副詞が鍵

変換メカニズムのあらましが見えなかった頃は<カテゴリ:文解析は副詞が鍵>の見通しまで勘づくのがやっとで
まだ素朴に「解析でカバーしきれない未知語はとりあえず全部カタカナ語に変換しちゃえ…いらん複雑怪奇な誤変換であがくよりよっぽどいい。」
…なんて思っておりましたが考察を深めていったほんの触りの感触では「これはどうも簡単にいく話じゃなさそうだな…」というのが頭をもたげはじめています。

品詞でいえば未知語の多くはカタカナ語/漢語複合語/接辞生産物に関わらず固有名詞の類がもっとも顕著な勢力であるかと推測します。
確かに動詞形容詞形容動詞の未知語もあるにはあるのですがペンタクラスタキーボードの別口入力マーキングの助けもあって
造語動詞の--る、みたいなものは別口入力[○R][×r]ならびにそのテ形の[て]キーがありますので新語の類はこれで凌ぐとして
非ル形動詞で純に大和言葉な未知の動詞、たとえば「などう」みたいなものをひねくりだすことも考えられなくはないですがそこまで心配するのは稀で当座の既存の辞書で大方間に合うかと思います。
ちょっと不安なのは複合動詞や補助動詞とのバリエーションですが少しラッキーなことに複合動詞は「×疑問禁じ得ない」「×駅降りそびれた」みたいな助詞抜きフレーズになりにくそうな気配が漂ってきていますので助詞・格関係をヒントに動詞部分の捕捉がシャープにできそうですので未知語との混線も和らぎそうだな…と楽観視しております。
動詞連語表現においても「~する」のサ変動詞関連にはかろうじて[便利キー・し]がありますので連用形「し」で同音混線するリスクだけは避けられますし、終止形/連体形「する」なら尺があるので未知語の受け皿として特徴検出も対応できそうであります。
あとは「~である」「~になる」「~ている」も別口パーツが効いているので問題ないでしょう。
一方形容詞は対応する別口入力のパーツがないのがちょっと心配ですが形容詞には造語生産力もあまり高くないので構想段階なら軽視しても良い、と考えます。
そして形容動詞にはもとより別口パーツ[だ][な]がありますしこちらは生産力はあるもののほぼ「--的な」やカタカナ語でいけると思いますのでこちらも性質は悪くないと思います。
最大の懸案が「活用なし用言」なのですがこれの考察は後に回すこととして今は品詞視点や通常変換での振る舞いに注目していきつつ話を進めていきたいと思います。

さて文解析の次なるフォーカスは助詞(でにをはのような単文字ではなく複数文字助詞)の類(さえ・より・から・まで・くらい・ほど・しかetc...)などや
(みたい・ばかり・まま・副助詞のほど・だけ・がち・あげく・~といい…といい・~みたい・~のおりには・打ち消し+じまい...etc)などのような文法的機能語などでありますが
文法トピック的には内容語と機能語の対立みたいな切り口でいくと文の個々の素材となる名詞/体言は未知語候補の筆頭に控えるという見通しが容易に立てられますが、
叙述においても副詞の作用込みであったとしても文の実質としてはたらく「内容語」としての動詞・述語は主語客語を携えて配置されるのが大きな構造上のヒントになりますし
体言を修飾する装定ならば終止形と同型であるとはいえ体言に前置される配置上の特性で見立てはつきそうですし最低限「Ø」(新別口入力の区切り要素:ゼロ文字マーカー)の助けを借りればセパレート認識できます。
また、「ひどく(形容詞の副詞的用法)疲れた様子だ」「期待に応えるよう(動詞の副詞句形成)頑張ります」みたいな連用修飾の検出は動詞検出それ以前の≪通常変換プロセスでは副詞の捕捉を最優先にする≫の方針を定めていますから、
活用変化にもなんとか追いついて捕捉のフィルターは有効にはたらくことを期待しています。
機能語全般に関していえば助詞のほうは付属語として他の語に後接しているのでいきなり登場するものでない吸着力があります。体言に接続する格助詞のほとんどは「でにをは別口入力」ですでにカバーしておりますので、残る接続助詞・副助詞(終助詞は別として)は単文字ではない2文字以上のものが残るわけでそれならいくらか捕捉も目途が立つというものでしょう。
その他の機能語のほうは未知数ではありますが今後の考察でなんとか解決するということで…空手形ではありますが同様にやっていければ良いと思っています。

…と、ここまで書いてきて勘の良い読者の方ならすでにお気づきでしょうが、通常変換(モダリティやひらがな表記規範重視)のプロセスと動詞・述語検出(副詞と対応付けたうえでの)のプロセスは並行してはいますがこの両者の微妙な差異をにらみつつ、私としてはある狙いのもとに「(未知語でない素材の)捕捉・検出フィルター」を追い込み猟のごとく誘導していって
通常変換で濾しとった残留物は<未知語カタカナ or 漢語複合語 or接辞複合語>だけになるように文解析の網を張っていこうと目論んでいるのです。
ここまで素性を絞り込めればあとはオールカタカナにするなり、複合語解析をその対象だけ局所的に走らせたりとにかく文法的些末な構造展開に惑わされることなく枠をはめて未知語の扱いに一定の指向性をもたせることができます。
他の日本語IMEには複合語変換のための入力モードを用意してある例もあるのですが私としては通常の変換モードのままで恒常的に未知語解釈ができるような設計を望んでいます。

さらに考察を続けていきます。
残る大きな問題は「さまざまなバリエーションを持つ終助詞」の検知とさきほど後回しにしていた「活用なし用言」の検知であります。
日本語の終助詞は役割語であるとかモダリティ・含意ニュアンス・キャラ語尾などの膨大な変化バリエーションがあるのでこれをもれなく辞書データ化するのは現実的でありません。
一応別口入力パーツにも用法兼務の端くれとして、格助詞でない「が」「か」や形容動詞の活用語尾でない「な」の使用も許容する方針でやっていますが数多の終助詞の前には焼け石に水かも知れません。
ただ、ユーザー定義別口入力に設定出来るようにしてしまえば良いというのは筋が悪いですし、[Ø]キーでセパレートしてしまうやり方も推奨しません。
それはセパレートしてしまうとバラバラになってしまうので一体のフレーズとして変換学習ができなくなってしまうからです。
終助詞の正しい変換に特効薬みたいなものはなく、初回の入力時には[かな][カナ]キーで末尾から修正編集するであるとか粒シフトでの粒度操作からの修正編集などで一度コンピューターにワンフレーズとして途切れさせずに学習・解析させて
二回目以降の学習結果の反映をもってユーザーの望む終助詞の「クセ」みたいなものを咀嚼した成果を出せれば良いのですが…。
これは単に文字列だけを切り張りするような形だけの学習ではなくて、タイプを見定めて助動詞的な終助詞なのか、「~でゲソ」みたいな「である文」との類似系のものなのか「~どす」みたいに「ですオルタナティブ」なのか「~したのじゃ」みたいに「だオルタナティブ」なのか
配置上・機能上のタイプ分けを酌んで変換・チャンク捕捉をおこなえるようにすればよいかと思います。口で言うのは簡単ですけれどこれものちのちの課題になりそうです。

残るは「活用なし用言」ですね。これは
・~みたいな話がチラホラ
・フィギュアがズラリ
・今までで一番まとも
・これは失敬
…のような語尾に活用がない用言なのですが解析上は活用がなければ名詞なのか用言なのか区別がつかないところなので地道に収集していくしかないですね。
名詞なら複合語に溶け込むパーツにもなりますので分解能をあきらめることができますが、叙述は文の命題を締めるところなので述語は述語としてキッチリ"回収"していきたいところなのです。

・戦略見直し必至
・可愛い盛り
・揚げたてホヤホヤ
…のように助詞抜きで接尾辞的に結合しているものもありますがこれは直前の「見直し(というアジェンダの導入)」からの「必至(という結の展開)」という複合物の重心であるとか
「可愛い(形容詞連体形)」からの「盛り(名詞然としてはいるが叙述の向きもある)」で一体感の強い叙述フレーズの形成をみることであるとか
「揚げたてホヤホヤ」とか「追い込みジワリ」みたいなのは(オノマトペのトピックはここでは別として)パーツの叙述感として主語客語からの連結以外のニュアンスづいたところからの連結をこれを叙述フレーズとみなせるかとの構造洞察がはたらくかどうかの試金石となるような語群もあります。
なにより誤解してほしくないのは、「同音語としてカブることの無いようなものまで逐一把握しなければならないものなのか?」という疑問を持つ方もおられるのでしょうが、でにをは別口入力をそなえた変換プロセスにおいては品詞ベースの文解析の重要度は低くなりそのかわり文の成分であるとか機能配置の力学をより重要視していこうというものなのです。
先程の「見直し必至」にしましても「×見直し必死」にならないようにするためにはここが語末の叙述要素なんだなという前提がわかっていて初めて適切な語を選好できる場面というのは頻繁に起きていきます。
ある部分が文章中でどの展開を演じるているのか知ることは大事です。オチに来るのかしょっぱなに位置するのかで衣装を変えるみたいなものであります。
ましてや堅苦しくどんな叙述のタイプなのかを克明に知ることだけに汲々とするのではなく、フレーズの末端に注目してこの文字列ならFix許容できる/この文字列だけ浮いて終端なのはFix違和感がある…これくらいのセンサーは持っておきたいところであります。文法上の厳密性とは別の、末端局所の見切りをどうするかという実際的な問題も大きいのであります。

最後に通常変換においては副詞を最優先に検出する、との方針でありますが
「機能買い物へ行った(○昨日)」、「終了とれなかったな(○収量)」みたいな誤変換を防ぐうえで文の導入部で出てくる語は副詞であったり話題導入のアジェンダ名詞である率が高いのでこれに機先を制する意味でも副詞の検出は欠かせないものとなっています。
しかも副詞/アジェンダ名詞にはてにをはを伴わないで省略されるものやそもそもまるっとひとフレーズ助詞なしで泰然と置かれるいわゆる"ソリチュード"なものが多いのもチャンク把握を困難にさせる要因であるのでまず第一に初動対応が大きな注意点になっていきます。
副詞の後にもずらずらと文は進んでいきますので文解析が始まったばかりのところでつまづくわけにはいかないのであります。


簡単なまとめとしましては、

副詞/アジェンダ名詞の検出>既知語の名詞(主語客語)の検出>活用あり用言(助動詞付随含む)の検出>活用なし用言の検出>…>残留物(未知語カタカナ or 漢語複合語 or接辞複合語)の処理

のような優先順位で構文解析を仕立てていきたいと思っております。
まだおぼろげながらしか輪郭が見えていませんが今記事の収穫としては文解析において品詞前後の接続でみるよりも文全体の中での機能/成分を強く意識したこしらえにしたほうがいい、という方向性が見えてきたことでしょうか。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「やらしい話」は副詞か

2019-04-28 | 文解析は副詞が鍵
副詞は活用のないものですが、「否応なしに」、「どうりで」…等々のように「に」「で」など助詞を伴うものも数多く(語尾変化と呼べそうなものはたくさん見られる)
典型的な「とても」「きっと」なども「も」や「と」が結合したのかどうか判然としないものなどもありその分類にいささか戸惑いを憶えることもあります。

学習途上の私としましては 系統立った展望が整う分類ははるか先の到達点でのことでして
手はじめの一歩としては「これは違うだろ、あるいはどうかな」と言えるようなイレギュラーなものほど目につきやすいということで
初学者が陥りやすい(?)衒いの横道談義で間に合わせたいかと思います。
細かな分類は後にして今回はちょっと印象に残るものやこれでも副詞の端くれなのよっていう自己主張の激しそうなものを列挙してみることにしました。
副詞と呼ぶにはいささか接続詞的であったり、助詞を伴う連語的なフレーズであったりと厳密な解釈では間違っているのを承知で挙げていきますが、
私が思い描いているのは連用修飾的なものを一歩踏み越えて、句の前段として手続き的につながっているものも"副詞的なもの"と拡大解釈してまな板に乗っけられれば良いなぐらいに考えていますのでどうぞご承知おきください。
ますは↓こちらをご覧ください。

<副詞(っぽいもの)列挙>
ブッチギリの反則
絶賛イヤイヤ中です
お風呂上がりに 散歩のついでに
職業柄 正規業務の手前 ご確認の程
してる時点で
アドオンの数こそ力なのに
ドヤ顔よろしく真緑に染め上げてほしいですね
遅きに失した感さえあります
学者のような知識欲ゆえというより
引き金ひいといて何抜かしてんだと
皮肉なもので
さながら社会の縮図
気付いたら2時間残業
死ぬほど腹が減った
他人事ながら
なんにせよ乗れてよかった
喜びにつけ、悲しみにつけ
あわよくば
雨が降ってるから気をつけてね
ちょっとだけ怒りもおさまり
冗談で言ったつもりが
待ってましたとばかりに
洲崎綾ガルパンに出てすらいねぇじゃねぇか
大上段に構えてはみたものの
何が悲しゅーてテラス席
年が明けた途端に
藪から棒に
のび太のくせに生意気だぞ
のれんをくぐるや否や
ちょっと、なんか、不本意ながらも いつだって需要は斜め上
なんとまあ美味しい事か
彼はやおら立ち上がった
足しげく
ダメ元で
いきおいそうせざるを得なかった
すわっ結婚か
外国人が引きも切らずお買い物
安心したのもつかの間蒙古タンメンの行列へ飛び込んだ
やらしい話年収なんぼくらい?


…以上、脈絡もなく列挙してみましたが、最初ののっけから
「ブッリギリの反則」ってこれは単に名詞を修飾しているので連体修飾じゃないの?という声も聞こえてきそうですが
例えばブッチギリの美人というのがあったとして「美人」は名詞でもありますが様態性質の属性をあらわす用言的なものとの境界線上の性質も持ち合わせていますからこれに倣うと、
反則というのも「彼女の笑顔は反則だ」みたいに形容詞的に使われることもあるのを鑑みればこれはある種の副詞的な表現ともいえるかと思います。
あとはネットでよく見かける「絶賛○○中」みたいなものや「職業柄、手続き上」みたいに接尾辞を持つ語で副詞的に機能している例もあります。
バリエーションとして重要なのは、イ形容詞、ナ形容詞の連用形(広く・自由になど)は機能的に副詞と言っていいものですが、「喜びにつけ、悲しみにつけ」「ぶっちゃけ」みたいに動詞連用形由来のレアケースも副詞として機能する例もあります。
当たり前なようで多いのは「で・に・テ形・も・打ち消しの『ず』や『なく』」などの助詞や語尾変化のものも連用修飾的に接続するものがたくさん見つかります。
助詞も一文字助詞以外にも「から・より・さえ・こそ・ながら」みたいな長めの助詞もその特徴的なニュアンスも相まって縦横無尽に副詞的にはたらいています。
あとは「すわっ結婚か」これは副詞なのかどうかわかりませんがインパクトもあり破格の用法な風格を備えています。

まだこなれていないので大した分析はできなかったのですが、このカテゴリで目指す「副詞のはたらきとは何なのか」、文解析上副詞(的機能のもの)をいかに検出していくのかを模索していく上でこうした実例を地道に列挙・吟味して、その性質・振る舞いを見定めていくことにつながっていければ良いなと思います。
枕詞として適当かどうかわかりませんが、「やらしい話、副詞さえ押さえられれば文解析はなんとかなる」と勝手に思っております。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

誤変換を起こさないために--文の解析において重要なのは副詞

2018-11-28 | 文解析は副詞が鍵
長らく言及することを避けていた変換メカニズムの根本、ペンタクラスタキーボードにおける解析エンジンは実態としてどのように動いているのか…についてですが、なかなか至りませんでした。
ここを説明するためにまずかな漢字変換の基本的な仕組みとして代表的な「最長一致法」と「コスト最小法」について皆さんに資料をお見せしてから考察に入りたかったのですが、
なかなかうまい例文が思い浮かばず、ちょっと時間が取れなくてというのもあって先延ばしにしていました。
もっとも、自分は素人ですからちゃんとしたプログラミング知識・文法知識ももたないままでおぼろげながらの骨子をうまく言語化できなくて必然的に手を出せずじまいでいた、というのが実情ではありますが(^^;)

…ですがそろそろ重い腰を上げてこの難題にも着手していきたいかと思います。
もちろん練り込み不足は否めず論旨も稚拙だとは思うのですが、まずはアウトプットを自分に課してこのトピックを継続的に追っていきたいということでここに掲げる次第であります。
そしてこれに伴って新カテゴリ「文解析は副詞が鍵」を追加したいと思います。
まだ全体像が見えていないので、うかつに「基本解析アルゴリズム」なんて大仰なカテゴリ名はつけられませんから、とっかかりとして着目した副詞との関わりをそのままにテーマに据えてみたという次第です。


さて、ペンタクラスタキーボードでは「でにをは別口入力」で助詞の境目があらかじめマーキングされているのでおおかたの名詞チャンクの目星はつきやすく(未知語であるとしても)、
文の構成素材はなんにせよまな板の上に乗せることができるので、あとは叙述がどうなっているのか、接続詞やモダリティ・アスペクトの組み立てをどうとらえるかのタスクに焦点を当てて解析を進めていけばよい、という筋道が自ずから見えてきます。
そこでにわかに重要性を帯びてくるのが、叙述に深いかかわりのある副詞というわけです。
名詞述語文、第三形容詞ときて、新たに文末名詞や体言締め文(人魚構文)なども知るようになり一大勢力となった叙述部品。
これらを隅々まで精緻にルール化するのは至難であるので、それらを際立たせる意味ではたらく副詞/副詞句/副詞節を述定部品の重要なシグナルと捉え外堀から攻める意味で副詞的なものを追求していく方針を立てました。
文の素材(体言類)、述定部品(用言類)に次ぐ第三勢力でありますが文の収束を方向付ける文字通りキャスティングボートを握る存在であるということに着目して、これを文解析においてもれなく検出することでまずは構文解析の足掛かりにしようという目論見であります。
文の素材となる要素(体言)にはたいてい別口入力がくっついておりますし、述定部品は活用があり連体形なら体言の前、連用形なら後に続くのは用言や助動詞、未然形は「--ない」や「--よう」の前に来るなど配置と活用の特徴から存在を把握できるのですが、
副詞は無活用なものも多く前後脈絡の判然としない配置のもの(機能/昨日・欠航/結構・糖分/当分・一杯/いっぱい)や時には何か特定の話題について言っているものと区別しづらいもの(ガンとして/頑として・余りに/あまりに・以外に/意外に・用は/要は・檻から/おりから)
など不確定要素の多い"要注意人物"であることが多いのでまずはこの逸脱の源を押さえておくことが肝要であります。

一筋縄ではいかないことは重々承知してはおりますが、楽観的希望をもってイメージを膨らましてみますと、解析が上首尾にいくなら
副詞の「すごい」はひらがなで、形容詞の「凄い」は漢字で…などと表記を使い分けるような芸当や「予約後ホテルに向かう」(避「予約語」)みたいに接尾辞化している副詞なども文での登場配置から適切に推し量ってくれるような機能を目指しています。
特に活用もなく助詞もつかない漢語系の副詞には手を焼きそうですので「機能ラーメンを食べた」みたいにいきなり「機能」がでるのは不自然であるとわからせるにはどうすればいいか、そしてそれなら「機能」が自然に使われているときの諸条件は何か、
「○○機能」みたいに接尾語パーツで連接するときや「ブルーレイレコーダー[の]機能」や「機能[を]比較する」みたいに助詞との関わり方をヒントに「ここにいていい確度」を比較判断することでうまくメカニズムを構築できればよいと思っています。
まだ試行錯誤中でベースラインすら見えてきてはいませんがこのカテゴリでの考察で文法的・語彙的・コロケーション的などさまざまな視点から掘っていこうかと思っております。
とりあえずモデルを考えては壊し、考えては壊し、とプロトタイプのできるところまで煮詰めていければ何か輪郭がつかめるハズですし、良い意味で現在進行形のライブ感覚でアイデアをひりだすのが自分の流儀というか、定めですね。

とにかくペンタクラスタキーボードの構文解析においては別口入力のおかげで品詞推定をするコストが大幅に軽減されますので品詞接続規則にもとづいて接続可能性を解析するという常道も見直さなくてはいけません。
品詞から語彙レベルの接続可能性をベースに置くべきなのか、あるいはこれまでは単文字の助詞が邪魔してワード切り出しがそもそも困難だったのでむしろ品詞志向の統語特性分析が活きるのはこれからなのだ、といった議論も出てくるかと思います。
それにくわえて、文の生成というのは経時的・シーケンシャルな有りようで成り立っているので、副詞部分に差しかかった時に発話の調子が上がるなどといったニュアンスを汲み取っていくのを活かせないかなど新しい試みを混ぜていこうかなと思っています。いわば、音韻論からの見地です。
…と、このように見境なく風呂敷を広げてしまいましたが、ペンタクラスタキーボード、別口入力を前提としたフレームワークの中での最適形は何かということを忌憚なく探っていきたいと思いますのでよろしくお願いします。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする