P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

接尾語変換の拡張(3) 接辞わびさび 属性またぎ

2017-09-29 | 接頭語・接尾語の変換
接頭語・接尾語変換で処理できる語の中には、その定義通り属性ハ(接辞まわり)での変換に加えて、語句によっては属性イ(名詞)や属性ロ(様態)でも変換入力を兼任して受け付けるタイプのものも数多く見られます。
例えば [後継機/好景気] などはどちらも属性ハで変換できます(接尾語・--機と接頭語・好--で両方接辞がらみ)。しかし属性ハでの変換候補順位は後継機の方が上で好景気の方はそれより下位に提示されます。
これは、好景気の方は「景気が好調だ」という様態の叙述概念をもっているためで用言を担当する属性ロに比較的役割が通ずるものがあるためです。
他方、後継機のほうは「後継」という代替わり的・タイムシフト的な語意を持つ言葉ゆえに第三の属性・属性ハにより適合するのでこちらのほうが属性ハ内での順位は上位にくるというカラクリです。
ただ、後継機の接尾語部分の「機」が意味するように実機が物理的に存在して主語・名詞的に文章を構成する場面もあるのでこちらもまた名詞属性・属性イを兼任するということになります。

このように接頭語・接尾語の変換は言葉によっては他の属性とのカラミもあって多少複雑な構図になりますが、これのおかげで変換意図・ニュアンスの違う複数候補を使い分けることができます。
そのような例をまずはドカッとあげてみて、つづけて個別例の解説を添えてみたいと思います。

<属性またぎのある接辞パーツのついた語句の例>
多店舗/他店舗 水戸さん/水戸産 全盛期/前世期 質問厨/質問中 おためし住み/おためし済 柳腰/柳越し
親父衆/オヤジ臭 優先券/優先権 メンバー票/メンバー表 英国麺/英国面 気合酒/気合避け ビジネス大賞/ビジネス対象

・多店舗は店舗が多いという状態描写なので属性ロ、他店舗は自他概念の接頭語なので属性ハ
・水戸さんは対象となる人物が提示されているので名詞属性イ、水戸産は水戸で生産・収穫された産物という性質描写なので属性ロ、属性ハ内では人称の「さん」は敬遠されて「産」を上位にもってくる
・全盛期はこのかたまり全体で「最も盛んな時期」をあらわす様態概念なので属性ロ、前世期は前後経時概念の接頭語「前」なので属性ハ
・質問厨は「しつこく質問してくる迷惑な奴」の呼称であり人物をあらわすから名詞属性イ、質問中は「~をしている最中」の接尾語「中」を伴った基本接辞なので属性ハ/※属性ロにおいても上位の語(様態)
・おためし住みは複合動詞とみなせるので属性ロ、おためし済・「済」はより生産力の高い接尾辞なので属性ハ、なお住み・済は濁った「ずみ」で対応することに留意
・柳腰は「折れそうで折れにくいしなやかな物腰」をあらわす様態なので属性ロ、柳越しは「-越し」という生産力の高い接尾辞なので属性ハ
・親父衆は「衆」が一集団としての対象であるから名詞属性イ、オヤジ臭は臭っているという状態描写なので属性ロ、なお後続の接辞によって親父とオヤジで書き分けるところまでできることが望ましい
・優先券は物理的なチケットなので属性イ、優先権は抽象的で生産力のある「-権」なので属性ハ
・メンバー票は個別的な可算的事物なため属性イ、メンバー表は集約された情報事物なため属性ハ
・英国麺は何かの麺料理をあらわすので名詞属性イ、英国面は視座視点の概念なため属性ハ
・気合酒は一事物としての酒であるから名詞属性イ、気合避けは動作・テクニックの名称であるから属性ロ、なお酒・避けは濁った「ざけ」で対応
・ビジネス大賞は何かの一プライズであるから名詞属性イ、ビジネス対象は取り組み相手、はたらきかけであるから性質属性ロ、あわせてもちろん指示概念的でもあるから属性ハでも上位にくる

これらは個別例の所属属性いかんに加えて接頭語・接尾語の第一義的ルールがありますから総じて属性ハを持つものでありますが、同じ属性ハ内での変換候補順位は語の用例の検討具合であったり、より抽象的・構造的な「属性ハらしさ」をどれだけ伴っているかの判断によって変わってくるので一概にこうだとは言えません。
また、当初の順位設定にも拘らずその後の学習や単語登録の影響によって候補順位が変動することも考えられます。
ただ呼称の「さん」が属性ハでの上位順位を敬遠するというのがあったり、より生産力の高い辞、抽象的文法的なバリエーションの豊富な生産的接続をもつものが「より属性ハらしい」などの一定の傾向があるということだけは一端として言えるかと思います。


…ここまでざっと使い分けの例について解説していきましたが、このほかにも実際のインターフェイスの段になってからもまだ考慮すべき点があります。
それは…長文中に別の名詞チャンクや様態チャンクがある場合、選択フォーカスが思惑と違う場合があるということです(チャンクはかたまり・断片という意味で使っています)。
具体的にいうと
(例)じどうでゆうせんけんをあたえるけーす
という入力文があったとして、ユーザーは[優先券/優先権]の区別を選択したいと意図していながら、その前の文要素
[児童で/自動で]のようにそれ以前あるいは以後の部分がフォーカスされて変換に面喰ってしまうケースが考えられることです。
この例文が果たして適当であるかどうかは自信が持てませんが、それは置いておいて変換対象部分を適切に抽出できるかどうかを見極めるには変換のプロセス全体の流れをもっと煮詰めて考察していく必要性があるようです。
ステップ的なのを重視して出てくる順番順に変換対象部分をフォーカスしていくのか、それともユーザーにとっての選択重要度順に変換対象部分を提示していくのか、いろいろな組み立てが考えられそうなのですが、これは思ったより難しそうな問題なので今後の課題として残していきたいかと思います。

とりあえずの結論として、接尾語変換は単体で機能させることは事実上難しく、言葉というものは語彙範疇・意味属性というものが常にからんでくるので接辞がらみの語のテリトリーはココ!…というように単純に分離はできないということがわかりました。
接頭語接尾語の拡張というよりも接辞以前の問題との整合性をとるために、より柔軟な位置づけ機能づけを必要とする、そのために局所的ではない広い視点で変換三属性を再構築する…という意味でこの記事を締めたいと思います。

この記事をはてなブックマークに追加

9月26日は「ワープロの日」

2017-09-23 | ごあいさつ・お知らせ
9月26日は「干物妹!うまるちゃん」の主人公、土間うまるちゃんの誕生日でありますが、さかのぼって昭和53年(1978年)、今から39年前のあの日は日本の歴史のなかでも特別な日でした。
この日、東芝が世界初の日本語ワープロ「JW-10」を発表した記念すべき日だったのです。ハードディスクとフロッピーとプリンタが搭載され事務机ほどの大きさがあり、重さ220kg。当時の価格は630万円もしました。
これが由来となって日本では9月26日は「ワープロの日」「ワープロ記念日」と制定されています。
このマシンが先駆けとなって、その後一時代を築く日本独自の「ワープロ専用機」の文化が花開いていくことになったわけですね。
このブログにもゆかりが深いので、まずはお祝いしたいです。

さて、本ブログの「関連書籍・DVDのレビュー」のカテゴリにも、プロジェクトXの東芝の国産第1号ワープロ開発物語のDVDのレビューを書いてありますのでよろしければそちらもご覧になって下さい。
(レビュー記事)貴重な映像資料 日本語ワープロ誕生の秘話

ポチ材を探してみたところこちらには、DVDを書籍化したモノのKindle版があったので貼っておきます。

「運命の最終テスト」~ワープロ・日本語に挑んだ若者たち ―開拓者精神、市場を制す プロジェクトX~挑戦者たち~
クリエーター情報なし
NHK出版



この記事をはてなブックマークに追加

隅(すみ)と角(かど)は似ているようで属性が違う

2017-09-15 | 変換三属性+通常変換のシステム考察
三属性変換では目安として名詞/動詞などの品詞から属性の所属が決まっているようですが、これは厳密なものではなくケースバイケースで属性が思惑どおりでないことがあります。
たとえば、隅(すみ)と角(かど)のように、

すみ-炭/墨/須美/須見/鷲見:属性イ、済み/住み/澄み/棲み:属性ロ、☆隅:属性ハ
かど-☆角:属性イ、過度:属性ロ、過度/廉/カド:属性ハ

…この違いは別に「角のほうが突起感が出ていて物体的な主張がある(よって名詞的)、隅はなにか領域的なことでモワッとした抽象概念ぽい」…などの憶測で所属属性が決まったというわけではなく、
同じ同音語でもっと具体的名詞的な「炭」が先に割り当てられるのでそれならばと余りモノ的に属性ハ(トポス的概念でもあるので)に「隅」が落ち着いたという図式があったり、
「角」もトポス的概念をもちながらもすでに属性ハには過度(接辞系)、廉(抽象度が高い)とがありより優先度が高いとみて実体性の高い「角」のほうは名詞属性の属性イに充てられたという経緯があります。
まあ理屈を言うと小難しいようなのですが、三属性変換ではどの変換候補にもあまねく司る分類の判断基準というものがなく、あくまで同音異義候補間での相対的意味・用例関係で所属属性が決まってくるというご都合主義によって成り立っているところがあるのです。
三属性変換では厳密な品詞体系をもって単語のふるまいを一元的に制御していこうというものではなくて、その場その場の同音異義語の衝突を脚色ならぬ"脚品詞"して柔軟にさばいてしまおうという発想なので、あえてシステム的に未分化なカラクリで構えているわけです。
なのでこの「隅」と「角」のように一見似たような範疇の言葉でも変換グループが分かれてしまうことがあります。

※なお、廉(かど)とはある事柄の原因・理由となる点を意味する抽象名詞で「横領していた廉で逮捕された」のように使われます。


今度は視点を変えて、属性は同じであるものの同音語の所属が特徴的なケースを挙げてみます。
たとえば、度(たび)と毎(ごと)もその一例です。

たび-足袋/旅:属性イ、旅:属性ロ、☆度/旅:属性ハ
ごと-事:属性イ、ゴト(=行為):属性ロ、☆毎/言/事:属性ハ

「度」はカウント概念なので抽象的な属性ハです。「足袋」もすでに名詞属性として有力ですから重複回避的にここに落ち着くことに異論はないでしょう。
「毎」もカウント概念なので属性ハに所属するのは妥当ですが、「事」はちょっと特殊です。
「事」は「毎」の方に抽象概念担当を譲ったので替わりに名詞色が強い事を汲んでまずは属性イに所属します。
ただ「事」には勝負事や隠し事のように接尾語要素として機能する側面もあることから接辞まわりをカバーする属性ハも担当しています。
所属を兼任することは三属性変換では普通にあり得ることでユーザーがどちらの用法での変換を望んでいるかにもれなく対応するために敢えて冗長的になるよう意図しているところです。
ただ、その属性内での変換候補順位に差が出たりなど細かな違いが出てくるのは「どちらがよりその属性ニュアンスに適っているか」の評価を勘案したものになっています。
なお属性ロのカタカナの「ゴト」はスラング的で単語辞書に収録するまでもない言葉のように思えますが、二文字程度の語は三属性変換のポテンシャルを発揮するためにいっそのこと些細な語彙でも網羅的に収集したほうが良いのではないかとの方針で仮に提示したものです。


このように3種の変換キーの用途は品詞のみによって定まっている(文法的要因)のではなく、意味的・語彙的なもののファクターを微妙にミックスした帰属決定システムとなっています。
余談ですが、「たび」の変換候補である「旅」が名詞属性イと用言属性ロと属性ハで兼任して所属している事にも意味があります。
旅自体はもちろん名詞なので属性イに所属するところまでは飲み込めそうですが、一人旅や傷心旅という言葉もあることから接尾語機能として属性ハも兼任することにも必要性があります。
さらに、ここからがややこしいんですが「旅」はサ変動詞「旅する」の語幹でもありますしゴルフの「OBショットが一人旅…」などのように形容するときもある種の用言の相を呈しているニュアンスも用例としては持っておりそれらの複合的な要因で属性ロへの帰属も果たしています。
こんな調子ですべての属性への帰属を兼任しておりますが、同グループ内での候補順位はそのままでは低く、属性イ→属性ロなどのように変換キーを移行するタイプ遷移のときに上位に上がってくるふるまいをすることを想定しています。
(参考過去記事):属性選択の遷移過程を反映した変換候補のリオーダリング

このように品詞分類にとらわれない三属性変換は、本ブログで新たに導入した、文法的縛りのより緩い「よろづ」のクラス分類だからこそ可能だと言えるでしょう。
疑問点としてはそもそも通常変換をするときの形態素解析の基本単位は文法的に整理された品詞をよりどころにしておこなうべきもので、何やら訳の分からない「よろづ」というのはどういった説明原理になるのかわからないといった点が出てくるかとは思いますが、
今は手探りながらも地道に実例を挙げながら品詞とよろづの2本立ての筋道を併存させていくべく暗中模索しているところであります。

この記事をはてなブックマークに追加

接尾語変換の拡張(2)

2017-09-12 | 接頭語・接尾語の変換
前回の記事で接頭語接尾語の適用範囲を広げて「生産力の高い辞」全体も含めて定義を拡張するという話をしました。
今回は単に[名詞]+[接尾語]の形だけではなくさまざまな形のものからの…+[接尾語]の形を挙げてみようかと思います。例えば記号などです。

さて、語句の連結において、「」で挟まれた要素に接続・連結する接尾語パーツの使用例も日本語の文中ではしばしばみられます。
日本語文を単語(≒意味のある最小単位:形態素)に分割するための形態素解析のプロセスのなかで、記号・括弧類が区切り要素としてどれくらい考慮されているのかは一概には言えませんが、
括弧がついていることそのものが特性となって、特定の接尾語につながりやすいという連接可能性がある程度絞れる場面も経験上あるかと思います。
たとえば「ラーフル」考 ;「とっかかり」策;など短くて同音の接尾語との変換候補抽出に迷う(この場合は項/港と作のように)ときでも括弧情報は用例的ヒントにはなるだろうというものです。
また単純に、『「民意の代表」面をされる』みたいなものでも「うずら」を切り出さずに済む利点があるので、括弧=区切りの認識は形態素解析の上でもあった方が好都合かと思います。
接尾語は基本的には文字数の少ないものが多いですから、何か単語認識のヒントになるようなものがあればそれに越したことはなく、適切な接尾語を選択・提示するために何かしら役に立つだろうと思います。

生産力の高い辞の中には接続の仕方もバリエーションに富んでいて活用・語形変化・モダリティのついたものなどの形から接辞につながる、文法的な成分を含んだ接続も大変多いです。
先程のような括弧・記号での区切りの有無にかかわらずとも成立しているので、いくつか例を挙げてみます。

<文法的なバリエーションのあるものとそれに接続した接尾語からなる語句>
試してみようよ的な・那須の寒ざらし体験・絶賛ハマり中・抱え込み体質

…的・体験・中・体質などが出てきましたがいずれも生産力の高い辞たちで、このような語形変化のフレーズが一体となってできるパターンです。
品詞やある種のクラス分けをもとにして接続妥当性を評価しコスト計算や比較を行う処理だった場合(品詞接続表など)、このようなふるまいをする連接特性のあるものはそれ相応の特殊な連接定義を定めていかなくてはならないだろうと思います。
単純に接辞といっても個々の性質はさまざまで、このようなフレーズ接続を許容するのかしないのかの文法的ルールから見た面と、接辞・被接辞との語彙的な組み合わせの傾向を把握していなければいけない面とを勘案していければよいのですが、この課題はなかなか困難そうで今後の大きな取り組みになりそうです。

最後におまけ的ではありますがちょっと現代的で奇抜な例も含めての接尾語三属性変換がうまくハマってくれることを期待したい例を挙げてみたいと思います。

<おまけ例>
フィギュアを作って生きてるマン・裏切り者絶対赦さないマン・出会う男すべて狂わせるガール・ちょっとだけなら派

…これらはいちいちスラング的な語句にもついていけているぞ、というのをアピールしたい訳ではなく、マンとかガールにも接尾語としての運用があればその前にどんなフレーズが来ようとも機械的に接尾語変換の用をなせるので応用範囲が広いだろうと思います。
ユーザーにとってもとりあえず末尾は接尾語のつもりで入力できる安心感が生まれてくるといえますしわかりやすいです。
また、「派」のように短くて誤変換を招きやすいパーツでもとりあえず三属性の属性ハを押せば接辞がらみの語に変換されるのがわかっていれば修正時にも少ない操作でできるのでフラストレーションも起きにくいです。(もちろん通常変換で正しく変換できればよし、ですが)
ただこれらは「腹がすいている男」のように「男」が単に名詞として接続している例と文法的に何が違うのか、そもそもそこまで厳密に接辞を含む語句であるのをことさらに意識する必要はあるのか、などの根本的な視点からも検証していかなくてはなりませんし
現段階ではうまく説明できませんがこういった名詞でも生産力のあるなしや接続する語彙の傾向などで捉え方が微妙に違ってくるのだとは言えるかと思います。

この記事をはてなブックマークに追加

接尾語変換の拡張(1)

2017-09-05 | 接頭語・接尾語の変換
--的 --感 --性 のように漢字一字の接頭語接尾語は非常に多いのですが、--さばき --仕立て のように漢字やかな複数字にわたる接辞、特に接尾語は数多く見られますのでこれらにも何らかのフォローが必要になってくるかと思います。
これらの語は接続する語句も数多く、多彩なバリエーションで接続し、いわゆる「生産力の高い辞」として機能しています。
もちろん複数字で長さがあるわけですからひとかたまりの語として認識されやすいですしそれを形ばかり見立てて接頭辞・接尾辞の拡張したものと捉えるのも構え過ぎとみられる方もいらっしゃるかもしれませんが、パーツの語頭部分の何文字かが語句区切りの誤認識のトリガーとなってしまう懸念を物理的に排除できるので(広義の)接尾語的成分として処理することも理に適っているかと思います。
今回はこういった広義の接辞について言及していこうと思います。

<二文字以上の接尾辞的パーツの例>
気取り・詣で・丸出し・下ろし・仕上げ・入り・殺し・沿い・行き・宛て・返し・待ち・通り・まみれ・含み・ごたえ
付き・がち・落ち・酔い・映え・寄り・上がり・使い・巡り・選び・暮らし・撮り・尽くし・並み・返り・帰り・増し
通い・食い・叩き・びいき・離れ・狙い・育ち・狩り・越し

…これらの語尾の中で、[名詞+接辞的パーツ]の場合は比較的わかりやすく処理も順当だろうとの察しが付くわけですが
中には語形が動詞の連用形の形で名詞として機能するものもあり(転成名詞)、活用形の見極めの[文法的処理]と接辞結合の見極め[語彙的処理]とのせめぎあいの中でうまく処理していくことが新たな問題となってくるかと思います。
今はまだこうして三属性変換の枠組みの中でどのような品詞・クラス体系を組み立てていくのか、最適形を地道に探っていくより他ないかと思います。

また、「踊り食い」や「重ね葺き」などのように複合動詞として結合した動詞などもありますが、これらはある決まった組み合わせのみの派生で生産力がそれほどない場合には、一般の動詞と同じように捉えて個別のケースとして処理していくのが適当ではないかと思います。

コンピュータで処理する上では文法的な規則があらかじめ決まったうえで統一的に文解析が行われるのがシンプルかもしれませんが、三属性変換という特色、特異点的に接尾語パーツという局所特性をうまく解析処理に組み入れるという一大命題を解決するというのは一筋縄ではいきませんので、こうして実例を挙げながら今後も検討していくことでじっくりと取り組んでいきたいと思います。
とりあえず接頭語接尾語は一文字だけの単純なものだけではない、二文字以上のものもある、文法的特色も持ち合わせている…というのがまずは示せたので本記事で接辞パーツの拡張という考え方の導入にはなったかと思います。

この記事をはてなブックマークに追加