合成音声の読み上げソフト『VOICEPEAK 商用可能 6ナレーターセット』が3月11日発売されます。
昨今の音声合成ソフトを使った実況動画や解説動画などのコンテンツの盛り上がりはすさまじいものがあり
このソフトの出現でユーザーシェアの地図が大きく塗り替えられていきそうな予感がします。それくらい大きなインパクトです。
AIを使った自然な読み上げに加えてユーザー辞書への新語登録やイントネーションの細かな調整などがおこなえるようになっている充実した機能
…あとはなにやら直近の文脈を受けて同じ言葉でも抑揚を変えて発声するメカニズムなどもあるそうで
このへんは日本語入力の枠組みから言ってもペンタクラスタキーボードを掲げるぴとてつにとっても関わりの深そうなトピックであります。
今回は私が以前から素朴に思っていた、発音と表記の不一致:コンピューターでテキスト読み上げする際にどんな不整合が起こるのかという問題に思いを巡らせてみたいと思います。
技術的な事はよく分かりませんがまずは過去に収集した事例をとりあえずちゃぶ台にのっけてみてそこから新たな展望を開くための材料作りにつながればいいな…との思いで試行錯誤していきたいのでVOICEPEAKの情報が目当てで訪問してくださった方にはミスリードをしてしまったかもしれませんがご興味のある分野でしたら訪問者の方もこのまま見ていってくれたらうれしいです。
--------------
まずエンターテイメント作品や作者名・アーティスト名などの固有名詞には個性的な読ませ方をするものがかなり多いので検証事案になりそうなものをとりあげていきたいと思います。
ここで念を押して断っておきますとこの記事で取り上げる事例はあくまで憶測であって実際のソフトにおいての挙動・動作をこうですよー、無調整時はできませんよーと断言するものではないということをご了承ください。
個々のスペックではなくテキスト読み上げ時につまづきそうな事例あるある、分析視点群の風通しを良くするためのガイドなのですよ、という趣旨でやっていきたいと思います。
実際の動作についての質問についてはお答えかねます。メーカーWebサイトやネット上での各自情報収集をお願いいたします。
それではまいりましょう
音声読み上げソフトでこれらの文字列はちゃんと読めるのか?
【検証事案:作品名・作者名・アーティスト名】
・STYX HELIX(ステュクス へリックス)
・黄金聖衣(ゴールドクロス)
・ペガサス幻想(ペガサスファンタジー)
・聖母たちのララバイ(マドンナたちのララバイ)
・涙そうそう(なだそうそう)
・この勇者が俺TUEEEくせに慎重すぎる(この勇者が俺ツエーくせに慎重すぎる)
・超訳百人一首 うた恋い。(超訳百人一首 うたこい)
・町中華で飲ろうぜ(町中華でやろうぜ)
・花の都に虎われて(花の都にトラわれて)
・花より男子(花よりダンゴ)
・モノノ怪(モノノケ)
・センセイ君主(せんせい君主)※先生のほうではなく専制君主のほうのせんせいで発音する
・あfろ(アフロ)
・時東ぁみ(時東あみ)
・関ジャニ∞(関ジャニエイト)
・Aぇ! group(エエグループ)
…固有名詞には対応するのは難しそうですね。このへんは辞書の充実具合であるとかネット流行語の定点観測が必要になってくるとは思いますけど。
あとは事情はよく分からないのですが英語系の読み上げソフトなどでは母音の前のtheのジとザと読み分けはどうなっているのか興味があります。
ペンタクラスタキーボードの最新のコンセプト案では、各種変換キーとは別に「文化符丁変換」というキーをしつらえてみたところですのでこういった特殊語辞書を分離管理運用するためにちょうど都合のいい仕様なのかもしれませんね。
たとえばこういったカルチャー関係のものは別途課金のDLCみたいに切り分けて運用したいのであれば最初から専用キーを作っておくのも理があります。
三国志の武将名とかであるとか若者ことばの短縮語などは漢字音の事情や短尺だったりするのが災いして通常変換に組み込むと妥当な変換候補を喰ってしまう懸念がありますのでこうやって明示的に分離しておくのも有効な手段だと思われます。
その他には「艦娘(かんむす)」「モー娘。(もーむす)」みたいに略語や人名などで訓の語頭一部音だけで端折ったりする傾向がみられるのでこれらも通常変換でさばいていくのは難しそうであります。
さらには
BOØWY(ボウイ) ORβIT(オービット) AᗺBA(アバ) TЁЯRA(テラ)みたいにアーティスト名には特殊記号・表記を駆使した個性的な名称のものもよく見られます。最近では大文字小文字混在のアルファベットのものも多いですね。
アルファベット派生界隈には表記と音の一致する素朴な読み方というのは探す方が難しいくらいですから読み上げの引き出しを単純に増やすしかなさそうですのでこれは頭の痛いところであります。
アーティスト名以外でいくと
・Gen Z(ジェン ズィー)
・SoC(ソック)
・LDAC(エルダック)
・SIer(エスアイアー)
・HACCP(ハサップ)
などに至るとこれはもうお手上げです。
数字や単位などを含むさまざまな切り口としては
・1TB(いちてらばいと)
・数学ⅠA(すうがくいちえー)
・中山10R(なかやま10レース)
・S高(ストップ高)
・Cロナ(クリスティアーノ・ロナウド)
・帰れま10(かえれまてん)
…これらの読みの多面性のある字面に対して、どこまで読み可能性を補完してやればよいのか適正なな掬い具合というのがまだよくわかりません(処理負荷の面から言っても)。
ところで、接辞に関して言えばペンタクラスタキーボードの三属性変換でせっかくマーキングをしているのでこれを何らかの形で活かしていける方策というのを模索しています。
たとえば
自治(単体) 自治っぷり(接辞付き)
の両者ではあきらかにコンテキストによる発声の違いというのがみられます。変化の作用している部位は接辞派生語の語幹部分であります。
こちらと混同しやすいのですが対照的に
性の悩み(単体) ツル性植物(接辞での使用)
のように語幹ではなく接辞部分そのものがイントネーション変化をおこしている場合もあります。
発声抑揚決定のメカニズムの全体像というものはまだ把握してはおりませんがこれらの中から定型的なパターンを見出して
・返り血/返り値
・不向き/腐向き
などの微妙なイントネーションの違いを接辞情報から推測する手立てが可能になるかもしれません。
これは文書→読みのプロセスだけではなく入力ライン→表記ラインのプロセスにおいても応用が広がるということであります。特に連濁がらみの読み決定に力を発揮するでしょう。
適用は接尾辞のみに限られたものではなく、たとえば
・カマトト(単体) ビジネスカマトト(接頭辞での使用)
のように接頭辞の付加で抑揚の変わるものもあり拙者もいまだ探索の途上にありますので今後も情報の整理収集をおこなっていきたい心づもりです。
さらに接辞だけではなく複合語において解釈に多義性のあるものも視野に入れていきたいところであります。
たとえばイントネーションの違う
・日中連絡先(日中の時間帯の連絡先)
・日中連絡先(日本-中国間の連絡先)
のように規定要素が連体修飾なのか対象設定なのかの区別を求める、単に字面だけではなく語の背後にある意味素性/機能素性をあわせてマーキングしていくことの検討材料になればいいかと思います。
たとえば面白い言語現象として
「垢を落とす」のアカと「公式垢」のアカ(アカウントのスラングとしてのアカ)のように用法が違うものは表記こそ借りるものの発声では完全にアカウントベースの発音で運用しているものもありますし
「グラスワンダー(バ名)」のグラスも同じグラスワンダーなのに短縮用法(グラス)ではサングラス/ワイングラスのほうに寄せた抑揚に様変わりしてしまう現象(アクセントの平板化)も外せないところであります。単体グラスなのに「グラスを傾ける」のほうのグラスと差異を生じているのは発声ってホントに用法・文脈次第なんだな~というのを改めて再認識させられます。
まあ、なんだかんだで日本語のテキスト処理というのは全く異次元の困難性を裡にもっていますね~
今回の考察で学んだことは日本語には「text to speech」の段階よりもっと前に「input to text」「context to speech」の段階があるってことを深く痛感しましたよ。
そろそろ締めに入りたいのですがここから
【日本語の宿痾としての音声読み上げ困難性をもたらす事例】
辛い … つらい/からい
大人気ない … おとなげない/だいにんきない
得る … える/うる
弾く … はじく/ひく
大学生ら致される…だいがくせいらちされる/だいがくせいら いたされる
美人局員 … びじんきょくいん/ツツモタセいん?
をメモ的に記し、この考察のもとになったミニ記事(過去エントリ)も下記にリンクしておきますので興味のある方はご覧になって下さい。
VOICEPEAKはDreamtonics株式会社と株式会社AHSとが共同開発する商用利用も可能なAI音声合成ソフトです。
この春、きっと旋風を起こすに違いない!
音吐朗々(おんとろうろう)という四字熟語を覚えました。題材にさせていただきありがとうございました。
文字と音韻との業の深いせめぎ合いはこれからも続いていくのでしょうか?
逸脱を好む表記スラング勢と規範への収斂を促す音韻標準化勢との戦いの行方は如何に…