①でカタカナ語、②で終助詞を含む文末表現、③では文法機能語と和語 について解説していきましたが今回はようやく未知語解釈の本丸「漢語複合語」についてまとめていきたいと思います。
複合語を論ずるのなら、まず接辞のついた語についてウエイトを置いて紐解いておきたいのは山々ではありますが、ペンタクラスタキーボードの三属性変換のハ万にて接頭語接尾語を含む語の変換を担当させておりますので個々の接辞がらみのケースは別にして次記事で掘り下げていくことにして、
ここでは複合語をおおまかな未知語単位と捉えた観点からの考察と、よくある次々に漢語が結合して長尺の複合語になる(専門的には「臨時一語」「即席合成語」とよばれている)ケースを念頭において話を進めていきたいかと思います。
漢語文字列の待遇上の眼目としては<マルチな複合物としての漢語複合語(長尺複合語)>といわゆる語構成寄りの<熟語構成タイプに基づくもの(主に二字熟語)>は別のものとして考える、というのがあります。
いわば「表面張力解析結果指導原理概要」みたいな未知の複合語が前者であり、「超訳」「統廃合」みたいな新構成の未知語が後者であると捉えます。
前者の長尺の複合語は単純に既知語が逐次的につらつらと連なるだけでしたらシンプルに変換もうまくいくとは思いますが、マルチ複合語には単に語の連結が線上並列しただけとしては捉えきれない、統語的構造解釈を援用しないと適切に変換できない種のものがあるためこれを解釈枠組みに組み入れておく必要性があります。
たとえば「先進物流拠点」の先頭要素「○先進」を「×専心」としないためにも先頭配置ポジションをみての候補割り当ての違いも求められますし、逆に語尾要素なら「ライン生産士気向上」と、向上は接尾語ではないものの統語上の主述の述部として語構成をなしていてこちらも結語としての末端配置というポジションを意識して適切なパーツを提示する任が求められます。
こちらは「ライン生産式工場」としても良いかも知れませんが「-式」(接辞ハ万)「-工場(名詞イ万)」などのように三属性変換へ帰着させる受け皿もありますし、通常変換操作の無標の状態においては「-向上」のように動きのある末尾要素で締めるのも一種のバイアスとして未知語さばきにニュアンスをつけるスタイルとして確立していけば良いと思います。
こういった臨時一語の末端要素は、ニュース見出しなどでもよく見られるものであり、「○数年ぶり提示」「×数年ぶり定時」と文脈によっては判断しづらいケースもあるかとは思いますが、選択フローに非対称性・指向性をもたせるためにあえてモーションのついた「ハネる末端要素」を様式美にまで昇華させることがひとつの狙いでもあります。
まずは第一候補、基底状態においてこのような角度をつけ、あとは随意で三属性変換へ降りて行かせればユーザーもパターンに慣れて予測のつく候補選択フローになっていきますのでユーザーインターフェイスの設計思想からも理に適っていると思います。
長尺複合語は辞書にも登録しきれない臨時造語的なものであり網羅不可能なものと割り切って考えるしかありませんが他方漢語二字熟語の類は極力辞書登録しておきたいところだ、と考えています。
漂着や愛着みたいな素朴な二字熟語はもちろんよろづ素性も含めて登録必須のものでありますが、同じ着でも降着や発着みたいな本義的でないところのものである(叙述必要性から生じた「差異視点語」としての熟語)ものも網羅していかなくてはなりません。
あるいはもっと俯瞰してみると、「試打」「転厩」「残侠」「毛量」「配神」「採番」「退棟」「粘投」などのような、国語辞典に立項されていない(あるいはされにくい)語に至っても最大限登録収録していくとの結論に達しました。
それは従来のシンプルな変換キー一本での変換(これを単相変換と仮に呼称します)では同音語収録をむやみに増やすと変換競合が増えて望ましい変換候補が埋没しかねないリスクが避けられないところなのですが
ペンタクラスタキーボードの三属性変換においては三属性変換のよろづ・ハ万で解釈できる語を通常変換とは隔意をもって別領域に寄せることができるのでそのような問題がなくもし初回の変換で通常変換候補に出ないとしても三属性ハ万を押してやりニュアンスを汲み取らせてやれば容易に立項困難な二字熟語にアクセスすることができます。
あとは学習次第ではありますがこのように住み分けができているので同音語とりたてに億劫になることもありません。
かえって"空きスロット"のある三属性の空白を埋めることができるので積極的に他のよろづにも補充十全性を満たすことにつながります。三属性は鼎立してこそ真価を発揮するものなのでちょっとスノッブな語でも空き属性が埋められるのなら積極的に収録していくことで使わなそうな言葉にも存在意義が生まれてくるのです。
このような効果を単相変換に対比する概念として、「複相変換」「多層変換」と名付けて今後の考察やアピールに活用していきたいと思います。
二字熟語は複数の漢字が結合するところのもので最も基本的なものでありますが「鉄」や「運」などのように一部では一字で意味をなすものもある一方、大方は二字の形で語として用いられるものであり例えば「鉛筆」という熟語では「鉛(えん)」も「筆(ひつ/ぴつ)」もそれ単体では意味が通じない拘束形態素というものであります。
漢字の字音は熟語を作るためのみに存在する拘束形態素となるため断片だけでは用を足せず、面倒ではありますが熟語ひとかたまりをもって個別に記憶させるしかありません。
ここで漢語の内部構造に分け入って、漢字同士の役割分担関係/ウエイトバランス関係が成立することを確認しいわゆる統語論的な観点から参考になるデータをあげて熟語構成タイプについて(他にもさまざまな分け方もあるが)一例を示したいと思います。
<--語構成から見た中日同形語[何宝年 2011] から一部略記も交えて引用-->
(2)複合語
根字と根字の結合関係により二字複合語を次の六種類に下位分類できる。
①連合型②修飾型③主述型④補足型⑤動賓型⑥主語後置型
-------------------------------------------------------------
①連合:名詞名詞-階級子孫夫妻人々人魚/動詞動詞-援助教育進歩彫刻/形容詞形容詞-盛大巨大多少貧富
②修飾:名名-英語液体海軍税金/動名-作品食料住宅燃料/形名-青年勇気/形動-軽視重視
③主述:名動-意向国立地震市営
④補足:動形-改善減少縮小増強増大
⑤動賓:動名-成功演劇営業革命決意延期衛生同情
⑥主語後置:動名-変質変心変色変形出血降雨発病
さまざまなタイプがありますがなぜ即今理解が必要であるかと言いますと、ペンタクラスタキーボードの運用は通常変換だけなら読みと単語だけ、データ字面だけ記憶させればいいのですが看板コンセプトとして三属性の変換というのがありそれを取り回していく上で上記の熟語構成タイプの知識が連想のヒントに役立つと言えるからであります。もとい役立つどころか関係は密接にあります。
まず三属性変換の属性ハ万では接頭辞接尾辞を含むワードの変換を担っておりますがいろいろとコンセプトを煮詰めていく段階において「接頭辞接尾辞を含むワード」→「生産力のあるパーツを含むワード全般」→「熟語構成において役割性の色彩を持つ根字も汲み取っていこう」
、と初期の頃に比べて適用範囲が広がってきており三属性ハ万の守備範囲が拡大中であります。さらには接辞だけを見る形態論的な視点から語彙・語構成をみる統語論的な立場を折衷する方向性へとシフトしてきていることを意味するものであり機械的でモザイク的な接辞捉えからデータ化するのが難しい語彙の持つニュアンスの違いを造語ビルドや同音語候補選択の振り分けに活かしていこうじゃないかというところに落ち着いてまいりました。
もちろん基本的には二字熟語は個別収集的に、統語を考えることなく、時には代表変換のビルドを援用しながらやりくりしていくとの方針に変わりはありませんが時として三属性変換の、ロ万と他のよろづ(あるいは通常変換)の微妙な差異を反映した候補提示・選択の機微というものが如実にあらわれるケースも見逃せないところですので以下例を挙げて解説していきたいと思います。
簡単のために通常変換はN、イ万はイ、ロ万はロ、ハ万はハを頭につけて列挙していきますのでご留意のほどをお願いします。
<語構成の違いによる漢語二字熟語のよろづの違い>※一部兼任もありうる
Nイロ対応/ハ滞欧、イ傭兵/ロ用兵、Nロ保管/ハ補完、Nロ会食/ハ解職、Nロ解明/ハ改名、Nロ誘拐/ハ融解、イ記号/ハ揮毫、ロ裁決/ハ採血、イ分譲/ロ分乗
同音衝突をなんとかいなす為に苦し紛れで属性分けをした訳でありますが例えばさいけつにしてみれば裁き決する裁決も血を採るの採血も漢語語構成に則ったものがありますがこういうどちらも語構成を為す場合は動賓形であったり補語をとるタイプであったりする採血のほうが同じ意味の言葉を重ねる連合のタイプのものよりハ万になりやすい傾向が見てとれます。
さらにようへいのように傭った兵(修飾)と兵を用いる(動賓)こちらも語構成の熟語でありますが傭兵が名詞に帰属できるので滑り込み的に用兵がロ万に落ち着くところをみると用言型の熟語は本来的にはロ万になりたいものの競合熟語との場所争いの関係でイ万になったりハ万になったりするように、絶対的基底的振り分けがあるのではなくて競合との相対関係によって変わってくる性質というのがありこれだという決まりは一概にして言えません。
いろいろ使い分けはあるかとは思いますが用言として使われていれば--する、--される、--はします、などのサ変を伴って使われるパターンであるとかあるいは係り受け的には○○が--、○○に--、○○で--、語彙的には--を試みる、--を続ける、--内容、--目当て、--ぶりといったところでしょうか、前後の接続も見たうえで適切なひな形を当てはめていかなければなりませんし今割り振られた属性というのも例えば(--ぶり)に接続しても自然になる距離感のグループ・ハ万よりはロ万にしてもいいのかな…という膨大な経験則をどこまで反映できるのか
…といった注目レンジを広げていくプロセスの足場を固めるためにも個々の熟語、マイナーなものも含めて二字熟語の掌握網羅を進めていくことが欠かせない課題となっております。
さて二字熟語はくまなく収録するとの方針ではありますがそれでも出せない造語だとかは[代表変換]や[トランス音訓変換]などのビルド入力を駆使して編集していく方法論もあわせて使いたいところですし何より同音衝突選択を回避していくためには地道にユーザーの選択した熟語とその前後の接続フレーズを一体にしてメモリーする学習の効果が使い勝手に直結していくものであるといえるでしょう。
しかし半面、長尺複合語は故事成語・四字熟語等くらいでしたらよろづのラベル付けや前後接続フレーズ学習などもあるかとは思いますが念頭に置いている「臨時一語」「即席合成語」になってくるとよろづ付与もフレーズ用例学習もままなりませんので構文を見た上での候補割り付けやチャンクの語彙的カテゴリや成分や品詞としての性質判断は未知数のまま事を進めていかなければなりません。
これが「扱いを別のものとして考える」ゆえんでもあります。
例えば預金という熟語これを単体としてみれば、(預金を預けるのように裸でつかえない形を帯びていることを前提として)あくまで預金は動作概念であるものの「定期預金」になるとその動作性は薄れて実質名詞のように振る舞います。
一事が万事これが長尺複合語ともなれば単に既知熟語の延長としてよろづ付与・品詞付与をすれば済むというわけにはいかず複合組み合わせのその都度その都度のクラス変化が想定内には収まらないということが容易に推察できます。
中記の例のように二字熟語の語構成(二字複合語を次の六種類に下位分類できる)はよろづさばきに貢献的なデータを提供してきてくれてはいましたが四字熟語、またはそれ以上の長尺複合語も延長上として同様の(統語構造からみた)語構成といったものがあり構造と機能を分析的に読み解いてよろづ付与・構文解析に役立てる手もなくはないのですが、複合語の扱いの込み入った状況を考えるとこれはさすがに現実的ではなさそうです。
このへんの見取り図はいまだ咀嚼の途上でありまして朧げのまま描けてはいませんが、よろづの付与はあきらめておくとして前後の格助詞とかかる連語(○○となる、○○をおこなう、○○が求められる等々...)の外郭的情報・形態的情報をヒントに副作用の出なそうな範囲内で複合語チャンクを既知二字熟語チャンクに倣ったカタチで処理することができれば良いと思います。(単チャンク語とみなす)
とはいえ統語までは読みとれないにしても配置位置によって適切な候補を勘案するぐらいの芸当は求められるものでして、現行布いている三属性変換・ハ万(接頭辞接尾辞を含むワード)との守備範囲の微妙な重なりも踏まえつつその他の作用要件や傾向も洗って検証していかなくてはなりません。
さまざまな考慮要素がある中で少しでも見通しをつけるためにドン・キホーテ型にざっくり粗要素で集約してしまうと以下のようになります。
統語というよりは配置に注目した連接タイプについては次の資料が役立ちましたので一部引用してみます。
<国語辞典と四字熟語 ―辞書にのる語とのらない語―[中川秀太 2014]より>
なお、辞書に「接尾辞的」などの記載はない語でも、以下のようなものは、多くの四字熟語を生み出しており、造語力がある。
--一色(戦争一色) --格差(科学格差) --合戦(取材合戦) --気分(厭戦気分)
--規模(宇宙規模) --経験(軍隊経験) --主義(効率主義) --人生(作家人生)
--物質(化学物質) --方法(演出方法)
<-中略->
前部分については、
異常--(異常事態) 一斉--(一斉送信) 一般--(一般雑誌) 個別--(個別活動)
最終--(最終候補) 重要--(重要単語) 専門--(専門雑誌) 直接--(直接対話)
同時--(同時受賞) 特殊--(特殊能力) 有名--(有名作家) 有力--(有力企業)
臨時--(臨時閉店)
――生産力のある要素が配置され語のカラーを支配しているプレゼンスを持っているとは言えます。しかし念のためこれをひとチャンクで見た時に後続チャンクとの関係性・ふるまい上の役割の源泉としてどこまで寄与しているか、言い換えれば語としてのプロトタイプ性を発揮していると割り切れるものなのか、結局は個々の接続語彙の意味合いによって左右されるものだとは思いますが更なる見極めが求められるものだと思われます。
この例とは別に、「こうぎ」という複合語パーツをもつ複合語をいくつか考えてみますと、
--講義(遠隔講義) --抗議(道庁前抗議) --広義(×茫洋広義)
などのように講義は講義終了とかの場合でなければもっぱら末端部(--講義)に配置されやすい傾向を持っていますし、抗議は末端部(--抗議)であらわれるものと先頭部(抗議--)であらわれるものと半々ぐらいといったところでしょうか(講義殺到・抗議電話)。
そして最後の広義は連体修飾(第三形容詞的、--の○○の形で句を形成する)で使われるからでしょうか、裸で末端部(--広義)で使われることはありませんし不思議なことに先頭部(広義--)で使われることも稀です。
このように先頭志向なのか末端志向なのかあるいは両方兼具なのかの素性によって変換文字列に当てはめるパターンを使い分けなくてはなりません。
言語学でいう形態論では一般的に(日本語の名詞複合語には)、複合語パーツの役割分担として意味的・形態的要素を受け継ぐ「主要部」が存在し、例えば「青色確定申告」のプロトタイプを担う部分「申告」・主要部は大半の場合最も右方(後方)に位置する、とされています。(他方、左側要素は「修飾部」「補足部」)
しかし先程の「こうぎ」のさまざまなバリエーションの例を目の当たりにしますと形態論的な視点は今一度肩入れし過ぎず、根源的に語のもつ語彙背景の事情をもっと加味して精査していかなくてはならないと思います。
なぜなら「青色確定申告」にしてもちょっと末端に語を足して「青色確定申告納付」とかにしてしまうと主要部が土壇場でうっちゃられてしまい「右側主要部の規則」はリニアの入力文字ストリームからしてみれば解析確定にそぐわない類の性質のものでありあまりこの規則を軸にして物事を進められないな、という感触があるのです。
ここまでが粗要素のまず第一の要件、「複合語構成パーツが先頭志向なのか末尾志向なのか、また兼具するものはより弾力的に構文解析のプロセスにおいて特徴検知材料として判断に役立てる」という題目を立てました。
続く第二の要件は「語+語(語連結境界が独立)としての複合だけでなく、元は句構造・項構造をもったフレーズであったものが助詞省略や格関係叙述連結によって見かけ上逐次形成複合語のように生成されるものも同じまな板の上にのせて未知語解析を行い異質の構成規則でも併呑していける懐の深いチャンク解析を目指す」であります。
ちょっと抽象的な物言いになってしまいましたが駆け足で説明を進めていきますと、こちらも文書:複合語のタイポロジーと日本語の性質:「日本語は特殊でない」というけれど[影山太郎 2010]から2タイプの語形成トピックをかいつまんでとりあげます。
<形態的緊密性のテストでも「語」として判定される統語的複合語のうち2タイプ>
・S構造複合語
a.学生が[エレベーター|使用]のときは
b.飛行機が[成田空港|着陸]の際
c.[ビル火災|発生]の場合は
・動作主複合語
a.[国語研究所|主催]のシンポジウム
b.[スピルバーグ監督|制作]の映画
c.[プロカメラマン|撮影]のポートレート
※いずれも|以下述語/動詞を和語に置き換えようと試みても成立しない、接続要素が漢語のときにだけ許容/成立する特殊性が際立つ
※S構造複合語においては、「図書|貸し出し」のように複合動詞ならば一部和語でも成立する場合がある
※動作主複合語においては、「[母親作り]のケーキ」「[夏目漱石書き]の手紙」などのように「他動詞とその主語を複合させることはできない」という制約があるが(世界中の言語に共通して見られる普遍的法則として)
日本語の漢語で構成される複合語においては例外的に成り立ち格標示を持つ統語構造に直接対応する
…助詞抜きで連結された複合語は名詞要素+名詞要素みたいなものとは違い、先の「学生がエレベーターしよう」の例にしても「×エレベーター仕様」にしないためにも「使用」のもつ統語的複合を結語とする解釈を通常変換では第一義的なものとして確立したいというのがあります(エレベーター仕様については接辞のついたチャンクであるので三属性変換:ハ万で処理すればよい)。
なんだ、仕様にしても使用にしても形態上は抽象概念名詞/動作性名詞なのじゃないか…などと今さら品詞ベースで物事を言っている場合ではなくて統語上の役割や語彙的親密範疇などをより重く見て未知語に対峙していかなくてはなりません。
これとも関連の深そうなトピックとして、新聞・ニュース見出しで使われるフレーズもあわせてこの種の複合語構成の摂理を喚起するものであるので以下例をメモしておきます。
<ニュース見出しの助詞抜きフレーズの例>
感染再拡大懸念 3000億円融資要請 費用負担同意 再生エネ拡大 超美品最安値挑戦 今期電撃移籍
…ここまでが第二の要件です。結論としてはこういった助詞抜きで生成される複合語の可能性やそのとき結語になるであろう一連の語群を地道に収集・分析してこちらもやはり結語配置タイプに応じた適切な変換候補のデータを充実させていこうということであります。
…さて最後の第三の要件でありますが、こちらでは少し目先を変えてみまして音韻的特性に目を向けていきたいと思います。
日本語の漢音語の音韻パターンには規則性があり一般的には「日本漢字音は多くて2拍だが、その第2拍目に来れるのが『イウキクチツンしかない』」という法則があるのは広く知られるところであります。
この法則をさらに深く突っ込んで調べていきますと先人の提案した偉大な日本語入力方式:「M式キーボード入力」(森田正典)の入力仕様から漢語複合語入力に際しての理論的なエッセンスを得ることができます。
以下(日本語ワードプロセッサ用新入力方式:M式-コンピュータ博物館)より引用したいと思います。
日本語における漢字の音読みの5つのパターン
1) 可,気,苦,固のような単音で第2音が存在しない単母音型
2) 開,空,経,甲のように第2音が母音で,UまたはIで表音できる複合母音型
3) 漢,金,君,検,混のように第2音が「ん」で,Nで表音できる内音型
4) 格,菊,刻,策,色のように第2音が「く」,「き」で,Kで表音できるK型入声音
5) 活,吉,屈,決,骨のように第2音が「つ」,「ち」で,Tで表音できるT型入声音
上記の性質を利用して,1)の単母音用,A,I,U,E,Oの他に,2)のタイプ用に,Ai,Ii,Uu,Ei,Ou,3)のタイプ用に,An,In,Un,En,On,4)のタイプ用に,Ak,Ik,Uk,Ek,Ok,5)のタイプ用に,At,It,Ut,Et,Ot,の母音キーを設け,さらに,ひらがな入力専用の単母音キー,a,i,u,e,o を加えた.
<---引用終わり--->
…これらは漢語複合語ならずとも単漢字で適合する法則ではあるのですが、この音韻パターンを持つ文字列が複数個連続して並ぶということになればそれは漢語複合語であると判定できる(可能性が濃厚である)ので未知語チャンクにこの判定を布くことで漢音複合語の音韻要素拾いの補強支援につながると考えております。
単に文全体を見て闇雲に音韻パターンを当てはめていくというのではなくて、局所的に当たりをつけてからそこに音韻パターン判定を適用するということでありますので限定的であればチャンクの分析も少しは実現可能性があるかと思います。
文解析においてすでに第一段階の「機能語トリートメント」のフィルターをくぐり抜けてきたことで構文素材として各々のチャンクはお手玉化(?)するとして、残る残留物として未知語チャンクが素性不明のままそれはそれで全体の文の中ではパーツ組み入れが存立している状態となっている…のでありますから文構造の見立て掌握は確保しつつも未知部分だけ局所的にチェックできるというのが大きな利点であります。
他にも音韻パターンを観察していきますと
・漢語音韻ではちゃ、ちゅ、ちょ などの拗音パーツも見られるが、「ちゃ」「ちょ」のみ漢音1パーツをなすことができる一方、「ちゅ」は「ちゅう」と複合母音型になるときのみ成立する音韻パターンがある
・「びゅう」(謬)、「にく」(肉)のように珍しい音韻パターンもあることにはあるが、「ぴゅう」「でょう」「びょく」「なく」「につ」「ゆん」などのパターンは認められない
・同じく「ざく」というパターンもあることにはあるが「阼」「筰」「鋜」等低頻度漢字であるのでこちらは通常の変換プロセスでは稀なものとして捨象しておいてもおおむねよく(単漢字変換でリスト候補が出せれば良い)、「朱雀」のざくに関わる変換だけに留意しておけば事足りる
・「脈管」(みゃっかん)、「客活」(きゃっかつ)、「十戒」(じっかい)、「玉壺」(ぎょっこ)のような詰まるときに形成される音韻パターンも漢語音のバリエーションとして考慮しなくてはならない
・逆に出てくるだけでこれはカタカナ語フレーズの断片であると判断できる音韻字音パターンがある(ミュやファのような音やー(長音)つづりの音、あるいはヴ行)
…M式入力仕様の分析だけでなくこれらの漢音/カタカナ語音韻パターン特性のフィルターを未知語処理に組み込んでやれば形態情報や統語語構成だけではなく音韻パターンの側面からも漢語文字列の扱いにおいて確度を高めることにつながると思います。
とはいえ3つの要件の中では異色の考慮ファクターであるのでプロセスのどの段階でこの処理を組みいれればよいのか、語構成や助詞抜き、先端末端配置などの「語と語の相互関係」をみるパースペクティブな方法論と音韻パターンだけを見るリテラルな方法論を併走させ得ることは可能なのか?といった疑問など解決すべき問題は山積しており未知語解析としての漢語複合語の扱いは今のところまだ整理できてはおりません。
この記事では未知語処理の棚卸しとしてこれらの課題があることをまず認識してとりあえず現状の材料としてこんなものがあるんだよ、ということを示すことができただけでまずは良しとします。
最後に再度漢語複合語処理の対処法の3つの粗要素をもういちどメモして記事のまとめとしたいと思います。
<漢語複合語の未知語処理:何を軸として解決していくか--3つの指針>
・複合語構成パーツが先頭志向なのか末尾志向なのかよく素性をみる
・助詞省略や統語的複合語も形態的複合語もおなじまな板にのせて複合語処理をする
・音韻特徴パターンの援用
<考察に役立った文書やサイト様>
・語構成から見た中日同形語[何宝年 2011]
・国語辞典と四字熟語 ―辞書にのる語とのらない語―[中川秀太 2014]
・複合語のタイポロジーと日本語の性質:「日本語は特殊でない」というけれど[影山太郎 2010]
・IPSJ Computer Museum コンピュータ博物館[http://museum.ipsj.or.jp/index.html]