たとえば単語単位の言語モデル(単語N-gram言語モデル)で連接を拾っていこうとするとき、「気が気でない」 みたいに通常の慣用句としてなら取り出すことは可能かもしれませんが
何か学芸会の劇の出し物で「木が木でない」といった状態をあらわそうとするにも特殊な文脈ではあるかもしれませんがこういうケースに当意即妙に変換候補を出す手立てというのは未だ考えられてはおりません。
もちろんユーザーが注目文節を絞って選択手当てをしながらやればできないことはないのですが初見ではなかなか出せない芸当であります。
そもそも単語N-gramでは(き-が-き-で-ない)みたいに4gramや5gramのように次数を上げていくのは処理負荷の面からも現実的でなく(注:可変長N-gramというのもあるにるある)、
一般的に分かち書きのない言語において慣用句などの短い助詞が連続して挟むフレーズというのは単語ベースのN-gram言語モデルにとっては苦手とする懸案であると言ってもいいでしょう。
ただ時には「古稀のプレゼント」ではなく「子機のプレゼント」としたい…つまりクリシェではない、固有の具体物として素材を扱いたくなる時もあるのではないでしょうか。
具陳なのかクリシェなのかの分解能が整っていないのはN-gramに限った話ではなく、同様の解析アプローチである形態素解析においても根源的な構えはまだ見い出せてはいないようであります。
つまり慣用句ポジティブによる検出はあってもそこから対置する具陳としての可能性に対する探索や提示UIは暗黙的に眼中から漏れているのではないでしょうか。
ここまで言ってちゃぶ台を返すようなのではありますが、一応の解決策はあります。
ペンタクラスタキーボードの文字コード体系を一から再構築してしまって独自の文字コードをあてるに足る根拠というのがまだ不足しているかもしれませんが
要は別口入力の助詞や機能辞のリテラルを一般のべたかな文字とは一線を画した完全に別物の文字コードに甄別(けんべつ)してしまおうというのが前提になります。
もちろん整合性やシステム的に実現可能であるのかという話は置いておきまして、今は想像の翼を大きく羽ばたかせたうえでの自由な妄想としてお受け止め下さることを念頭に置いて話を進めていきたいかと思います。
助詞に別の文字コードをあてれば単純な話「手塩にかける」みたいな慣用句でも
てしお[に]かける
といった具合に別口入力「に」を固有文字として扱えば、この並びの時の文字列の限定性はより高まっているので
手塩に賭ける、書ける、掛ける、欠ける(認識粒度がバラバラだと近視眼的組み合わせを想起してしまう悪癖)
等の誤変換をデフォルト候補から抑制させるカラクリも考えられますし(活用変化への対応も懸案課題ではありますが)、別に慣用句でなくとも
いれたて[の]おちゃ
みたいな規定句のクリシェに対しても従来は「入れた手」/「淹れたて」の対立を(連体形+体言なのか動詞連用形+アスペクト接辞たて)なのかどうかをつぶさに解析比較してやっとの思いで適切な候補をひねり出すプロセスがあったりしたかもしれませんが
助詞を含む字面の並びだけで格納してしまって一番頻度の高い解釈を力業で広範囲に各個網羅してしまえば効率よく例外対応が布けるのではないでしょうか。
もちろん前述みたいに動詞用言あるいは形容詞的規定句などの語末の活用バリエーションにも配慮しなくてはなりませんが通常変換でクソリプをなるべく出さずにデフォルトで慣用句チャンクを優先的に取り出す手立ては確立できているとの手ごたえは感じております。
ただ見込み通りに首尾よく処理できるかどうかも模索中でありますので、当記事ではあまり完成された見解というものは期待せずに、現時点での全体像を持たぬままの手探りで目につきそうな論点を散発的に挙げていくに留めておきたいかと思います。
独自の文字コードというのはさすがに大きく出たな(…驚)と評されるお題目かもしれませんが、これは慣用句トピックのみならずペンタクラスタキーボードの三属性変換-通常変換のシステムとも深い関わりがありそうですしタッチ液晶サジェストとのカラミも掘り下げてみたいですし文字コード以外にもジャンル横断的な分析事項は多分にある未踏領域なのではないかと踏んでおるところであります。
まず目につきそうな問題としては具陳/クリシェの境界を峻別する明快な基準はあるのか…という問いが出てきます。
死角はなかった/資格はない
…このフレーズに出てくる「しかく」の使い分けに関しても
(--する)資格はない!のように動詞由来連体修飾を伴う傾向が多そうな「資格」でありますが
かたや「死角」のほうはと言いますと「我が立海の三連覇に死角はない」のように《人称・所属名詞+に+死角はない》というような用例の傾向があります。
この用例から天邪鬼的に逸脱した使い方、たとえば前述の用例構造をすっかり交換してしまった例:
・歴戦の東隊長に資格はなかった
・昼間からパチンコする死角はない
のようにクリシェとは反する用例をどのようにして判定するのか、典型例を局所的に切り取りしただけではそうは問屋が卸さない困難性を抱えています。
語彙なのか概念クラスなどの素性を捉えることと、文全体としての統語構造を分かったうえでないと(またそのために)どれが正則でどれが逸脱なのかを判定するために慣用句とそれに隣接惹起するフレーム設定が求められているのかもしれません。
これは両方ともクリシェ《しかく-ない》でコンフリクトしてしまう悩ましい例であります。
無理を言って三属性変換から解決の糸口を手繰ってみますと、いささかこじつけのようでもありますが
死角…様態属性ロ万の色合いが強い
資格…名詞属性イ万の色合いが強い
よって通常変換時はロ万の解釈を優先させるので「死角はない」のほうを採ることになります。
もちろん得心がいかなければ二回目以降の同じ言い回しのときはユーザーの選択した用例学習によって定着させていくことになります。
根本的な解決ではありませんが、候補提示順位の正当性は最適ではないものの名分的には非対称に組み立てていくことが可能になります。
通常変換バイアスに適合するものが正則で(学習も含む)、それ以外の属性をもつものはその他の三属性変換に任せるという形です。
具陳なのかクリシェなのかの判別は棚上げになったままではありますが、一意性のある導線は普請できたのではないでしょうか。
副詞のクリシェもたくさんあります。
「明に暗に圧力をかける」というフレーズも敢えて具陳を際立たせたいときは「メイにアンに圧力をかける」などのようにしたいときもあるかもしれません。
そんな時には標準提示候補「明に暗に圧力をかける」から具陳フォーカスの三属性イ万をひと押しし、メイに、あるいはアンにフォーカスがあたって無事クリシェの枠組みをほどく運びとなります。
ただ副詞にかかる用言というものが一語の用言ではなくてチャンクごと連句になっているものの場合はどうなるのか、
たとえば「非常に」にかかる用言というものを精査してみますと
・非常にうれしい…これは単純な用言
・非常に親和性があり…親和性がある…存在文は比較的連語でも一括りしやすい
・非常に気分が晴れた…ちょっと込み入った文だが 気分が-晴れる はコロケーションとして記憶できそうな範疇
・非常に格好を気にして…格好を気にする…これは自由連結に近くてひとチャンクで認識するのは難しそう
のように副詞が修飾ターゲットとするチャンクのレンジが定まらず検出困難になりそうなケースも見え隠れします。
今の例では副詞が「非常に」の一語であるのでパッと見構造自体は掴みやすそうなのでありますがこれが先述のような「クリシェ副詞」のようなマクラが来ると連語の連続にかかる用言もまた連語で…となってしまい連語中の断片同士が干渉して混線してしまうリスクを拭い切れません。
どっちのクリシェでどっちの具陳なのか収拾がつかなくなるのに加え、副詞には呼応の副詞などもあって文頭から係って途中不如意のうちに文末付近で結ぶ…なんてものもありそうですからますます始末が悪いです。
いずれにしましても規定句のクリシェや用言のクリシェは格納データと照合データの写像が1対1対応になると見込まれておるので策も立てようがあるのですが副詞あるいはアジェンダ名詞などの導入はそういった構文上からも解析困難でありますし、インターフェースとしての「通常変換バイアス」のもろもろの選好偏性というものがどういった悪影響を及ぼすのか現段階では見当もつかないのであります。
※通常変換バイアスというのは、たとえば
・住ませてから(使役などの文法的ニュアンス有→通常変換)/済ませてから(単純用言→属性ロ)
・そこにいるだけで(「そこ」文法顕性語含む→通常変換)/底にいるだけで(具体瑣末語指定→属性イなどの三属性変換)
などのように副詞の事情とは関係なくそもそも三属性変換の便宜のために用意されたインターフェース導線のこと。
…このようにまずもって言えばクリシェ副詞の位置づけ問題はあくまでローカルの問題であり通常変換バイアスのメカニズムこそが通底する前提ファクターになります。
副詞の扱いで延長上にあるものとして拙ブログが提案するところの「アジェンダ名詞」というものがあります。
副詞には「<最近>地震が多いな」みたいに助詞抜きの名詞提題の【時の副詞】みたいなものがありますが、これを拡張してより固有語色の強い主題・提題の連用修飾用法をもっと掘り下げていこうということで以前から取り組んでいるテーマなのですが、
今記事の趣旨に沿ってこの【提題+叙述】の句を一体のクリシェと見て選別的に抽出できないか…というアプローチについて検討してみようかと思います。
連用修飾する名詞にとどまらず、連用は連用でも連句を惹起させるという意味で修飾とは性質を異にする、隣接・相関関係としての「連用承接名詞」というものを手広く汲み取ってやろうという野心的な試みですのでまだ確立された知見ではありませんが未熟ながらもどうぞお付き合いください。
私はそれをアジェンダ名詞と名付けましたが、主語あるいは題目が"助詞抜き"で繋がっている事、ここに繊細な粒度での検出能というのを尖らせて問題意識を高めていこうというのが出発点になります。
助詞付き文(いわば親切な文)での題目用言の連なりは単に構文でありクリシェであろうと具陳叙述文であろうと助詞があるだけ性質の良いものであり標準状態での構文解釈に不確定要素はそれほどあらわれるものではなさそうですが
(助詞抜き)題目導入フレーズのクリシェ化は適用場面も段違いに増えてしまいそうですしただでさえ複合語や単文字助詞以外の機能辞(長尺助詞)など区切り判定問題などでとかくに煩雑な処理なのにこれ以上問題を増やすなと言われそうな観も抱きつつも
むしろ不確定要素こそ分解能を高めて原因因子を事細かにタイプ別して取り出していくことにより、かかる問題を構造的に理解していくことができますし「急がば回れ」式の尤もな解決スタイルなのである事を力説したいです。
ここでアジェンダ名詞導入文をひとつのクリシェと捉えたものを実例を挙げながら確認しその背後にどんな洞察が見られるか分析していこうと思います。
【アジェンダ名詞導入文】
・1配置検討してみる/ハイチ検討してみる
・2統計採ってみて/闘鶏撮ってみて
・3崋山歴長いんだねぇ/火山礫長いんだねぇ
・4ひと試しログインしてみる/人試しログインしてみる
…以上の4例です。ちょっと無理のある作例もありますが今例では同音の対立を際立たせた方がつかみやすいと思うので構わず続けます。
まず例1の配置のほうはよりクリシェらしくて頻度も高そうな感じですがハイチのほうはやや具陳寄りで具体性・特定性の高いワード運びが感じられると思います。
次に例2の闘鶏もやはり流れはあるものの提題があまりにも特定的で用例辞書に入れるには些事枝葉(よって却下)といっても差し支えありませんね。
闘鶏のコロケーションには「闘鶏によると」「闘鶏が出ている」「闘鶏にアクセスできる」というのはもちろんないですし助詞抜きバリエーションのころがし方としては統計のほうが全般的に展開性が豊富なアジェンダ名詞だと思います。
さらに例3では--歴、という接尾辞が提題性を帯びさせている文法要素だと思われ、この語以外にも広範な種々/性質の語であっても末尾に「歴」と来るだけで助詞抜きアジェンダへと転化できるポテンシャルというのが認められるかと思います。
同様に例4では接頭辞「ひと」あるいは「全」「両」などもひとチャンクで提題性を帯びさせる特殊な導入だと注視したい勘所だと思います。もちろん助詞抜きチャンクとしてです。
以上のようにマクラにもってくる語に優位劣位(アジェンダ展開性としての)というものがあって格納データ:単語素性というものにフラグなりパラメータなりをつけて何らかの標識づけをする必要に迫られてきています。
ただ単語単位でこれはころがし値が高い/低いのように個々に設定していくのはなかなか困難なのではないか…との煩累を抱えています。
ひとチャンクで導入接頭辞/導入接尾辞からの連なりになるものもありますし、個々の場合で網羅的にクリシェを検知する枠組みからはどうしてもこぼれてしまうものもありますので、もっと包括的に、字面のクリシェではなく構造的クリシェへと枠組みを広げていかねばなりません。
これといって解決策になりそうな"構え"はまだ見いだせてはいませんがこれまでやってきた取り組みのなかで「三属性変換:よろづ」というものがあり等文字列長のほぼすべての音韻衝突を3タイプに類別してしまおうという一大体系というものを援用してみてはどうかという副産物に期待する作戦でいこうかと思います。
三属性変換の名詞/具陳属性の「よろづ:イ万」では複合語派生語まではムリですけれど大抵の語の名詞的検出の受け皿は整っているとの前提で話を進めます。(未知語の場合は今はおいておきます)
語にはそれぞれ所属するよろづ(カテゴリー)というものがあってたとえば動詞/形容詞/形容動詞/名詞述語文/その他の非活用用言などさまざまな叙述パーツは三属性ロ万に割り振られます。
複数のカテゴリーを兼任する語もあります。
たとえばアジェンダ名詞として検出できる兼任ワードとして「勢い」というのを例にとってみましょう。
これは額面通りに言えばまず副詞の「いきおい」が浮かびます。そして名詞の「勢い」こちらは漢字表記です。そして本質的ではないのですが、ペンタクラスタキーボードの三属性変換では「その場の勢い」みたいに叙述として使われることも考慮して様態属性のロ万も兼任しています。
ただこれがアジェンダ導入として使われる場面では、「勢い誰にも止められないな」というのがあったりもしてこれは名詞アジェンダ使いではありますが通常変換本来の副詞を優先検知する「いきおい誰にも止められないな」との衝突も起きますが意味上の妥当性の如何はここでは厳密に問わずに、形態上のヒントだけで候補を提示するには両論併記するために分解能だけは持っていなくてはいけません、
このようにアジェンダ名詞に該当する語が属性兼任なのか属性専業なのかについては有意に注目すべき観点でありますので詳細は後で述べますのでいったん心の隅に留めておいてください。
まあまあいろいろありまして三属性変換(+通常変換)の枠組みを援用して判断材料というものを整理してみるとするなら、そして各々個々のクリシェ連結を網羅検知するのをあきらめるとするなら、大雑把に5点の因子でアジェンダ名詞のとりたての帰趨を司ってみる方針を立てました。
その因子とは、
・規定句で結ぶ名詞はアジェンダ化しやすいのでクリシェトリガーとして検知しておく(動詞での規定、形容詞での規定、形容動詞での規定、ノ形容詞での規定、連体詞での規定)
・接尾辞で構成される語句のものの中で[体言下接の接辞派生語]または[末尾が名詞性接尾辞]のものに関してはアジェンダ性を認めクリシェトリガーとして検知しておく
・接頭辞導入で構成される語句のものについてはチャンク適格性についての見立てはまだ模索中であるので判断保留
・粗筋・検証・意味・経緯・緩急などの語には共通点がある…それは[--次第]というくくりが成立しやすいということ…これを"ゲージ語"と名付けアジェンダトリガーとして検知しておく
・以上の条件に当てはまらないもので、三属性でイ万(名詞)専業のもの、そして通常変換バイアスでの引っかかりもない兼業のないものはアジェンダ検出においては軽視し勘定に入れない
…であります。これなら条件が絞られてきますし個別的でない構造的な検知体系が望めますね。
ただここで提言した"ゲージ語"というものはコンセプトがまだ固まっておらず挙動としては「助詞なしころがしポテンシャルの高い抽象語」というざっくりとしたイメージでしか捉えられてはいませんが
具体例として挙げた[--次第]という派生以外にもうまくゲージ特性を説明できる語彙が他にはないか例によって今のところ探索中であります。
そしてイ万専業のものはアジェンダ検出において軽視すると申しましたが、「うなぎ硬派だなそのチョイス」みたいにうなぎ単体からの助詞抜きアジェンダなんていくらでもあるじゃないか…と言われるのはちょっと痛いところ突かれたかな…という思いもあります。
この辺はアレですね…タッチ液晶でのサジェスト実績いかんによってとりたててやればいいんじゃないかと…。「ウナコーワ」のウナを日常頻用している方にとっては「ウナ技巧派だなそのチョイス」になってしまうとしてもそのへんはさじ加減なので致し方ないところもあるかと思います。
ただ人名や地名に関してはアジェンダ接続が頻出のカテゴリですのでタイプ文片からの変換履歴を大雑把に取得するのではなくてちゃんと人名なら人名、地名なら地名と範疇所属を明かしたうえで登録学習していった方がいいでしょうね。
とは言ってみたもののいちいち事細かな単語登録をさせるのもユーザーに負担がかかりますし、確定文の構成から賢いAIなどの介入などによって人名なら属人やりとりのアクションがみられる、地名なら移動伝達に関するアクションがみられる、などのフレームやコロケーションの連接配置から自動的にカテゴリを推定してくれる魔法のような構文解析といったものも現時点ではとても望めそうにありません。
ですのでちょっと忘れかかっていましたけれど区切りマーカーのメタ文字[Ø]を適宜使っていただいてアジェンダ名詞のチャンクをユーザーの関与によって明示的に判定してもらうというのがどうやら現実的な解決方法になりそうであります。
最後にタッチ液晶インターフェースについてもう少しだけ触れておきますと
規定句の変換にはタッチ液晶サジェストと相性が良い、という点に気づきました。
規定句は連用修飾と違って展開が絞られていく見繕い傾向というのがあって後になればなるほど被修飾の輪郭が限定されていく決着力というのをもっています。
これが連用修飾ともなると用言のコンビネーションはさまざまですから展開開放性をもつがゆえに先を予測するのが困難になっていくのとは大違いであり、ここに予測入力候補提示の「選択と集中」を試みる動機があります。
これは今後の課題でありますし当ブログでも継続的に深掘って最適形を探っていきたいかと思いますので今回はここまでということで続記事をお待ちいただきたいと思います。
少しだけ具陳/クリシェ的な規定句の例を2,3だけ挙げますと
地下の○○ / 地価の高い町
道の○○ / 未知のウイルス
家庭の○○ / 仮定の問題
このように後項の規定(属性規定)のほうが限定性が高まっているのを感じ取っていただけたと思います。
詳しい考察につきましては後ほど具陳!といきますのでもう少々お待ちください(^^;)