BLOG 思い遥か

日々新たなり/日本語学2020

人工音声

2021-04-17 | 日本語学2021

音声学は調音で解説する。機械音声が技術的な成果を上げているので、口の動きが解明されて、人工声帯が発する言葉の時代となるのだろうか。読み上げ技術がある。
音声科学は単音を音素とする音韻に個別言語でかかわる。広くどの言語についても音声分析をするなら、機械音声による音韻とはどういうものになるか、というのは発想自体に無理があって、個別言語ごとの音韻なのである。音声に意味を伴うと。
言語による個別の人工音声は開発されているか。興味のあるところ、合成音声を聞く。



https://aws.amazon.com/jp/polly/
深層学習を使用して文章をリアルな音声に変換
>Amazon Polly は、文章をリアルな音声に変換するサービスです。テキスト読み上げができるアプリケーションを作成できるため、まったく新しいタイプの音声対応製品を構築できます。Polly は、高度なディープラーニング技術を使用したテキスト読み上げ (TTS) サービスで、自然に聞こえるように人間の音声を合成します。何十種類ものリアルな音声を多数の言語でサポートしているため、さまざまな国に対応した音声アプリケーションを構築できます。


6 コメント

コメント日が  古い順  |   新しい順
Re:人工音声 (Maria)
2021-04-18 21:14:10
音声合成の技術に関していうと、ほぼ完成の域に達しています。
ただ、「リアルタイムの合成」とか、アクセントやイントネーションや緩急(イクスプレス)に関するノウハウた蓄積されていないので、一般化はされていませんが。
日本音響研究所の鈴木松美さんは、かれこれ三十年ほど前に「モナリザの声」を合成していたのを聴いたことがあります。
もともとのアクセントやイントネーーションや緩急のデータがあり、口腔・鼻腔・声道のデータが揃っていれば、(こと日本語に関しては)音声合成はそれほど難しくありません。ただし、ドイツ語の(巻き舌の R ではない)「軟口蓋の R音」とかコイサン語の咽喉破裂音(「ポコン音」と云われています)とかが入ってくると、けっこうややこしい話になりますが。
> 広くどの言語についても音声分析をするなら、
> 機械音声による音韻とはどういうものになるか、
> というのは発想自体に無理があって、
> 個別言語ごとの音韻なのである。
というのはまったくその通りで、
「人間の真似をする」人工音声ではなく、「人間には出せないけれど、人間には音声として認識できる」人工音声の合成、とかいったものに興味があります。
ジュリー・アンドリュース(「サウンド・オブ・ミュージック」や「メリー・ポピンズ」で有名です)は、「声域が六オクターブ半あった」そうです。人間の可聴域は約十オクターブと云われているので、「超低音から超音波まで出せる人工歌姫」の声は聴いてみたい(年を取ると、高音が聞こえづらくなるという話があります。「若い人には聴こえるけれど、年寄りには聴こえない」という「モスキート音」というのもあります。私は「頭上をコウモリが飛んでも気がつく」ので、二万五千ヘルツくらいまで聴こえるらしいですが)と思います。
返信する
モスキート音 (ksky)
2021-04-18 23:07:02
なるほど、よくできているけれども、英語の自動音声による読み上げが単調で、らしくない。逆に、日本語は単調で、らしすぎる、という感想ですが、日本人が話すようなプロミネンスはかけられないだろうから、かけると不自然になる、人にしかできない、やはり、合成音声は、真似事の域でしょうね。

9年前から、音域が狭くなって聞き取れない。ステロイドの副作用かな、とか、聴覚神経が丸くなってしまった、脳がとけ始めたかな、とか、根拠のない自由を奪われつつある耳です。会話など、何も影響しない。老人の聞き返しに無理解な人が多いから、それは仕方ない。
返信する
鼻づまり (Maria)
2021-04-20 13:49:47
「初音ミク」に代表される、いわゆる「ボーカロイド」というのは、[PARCOR 合成]という手法を用いています。
これは、切れ切れの音声データを、楽曲の音高に合わせて合わせて上げ下げし、それをデータとして切り張りするということで、音声合成をしています。
これは、昨今の高性能のパーソナル・コンピュータだと、わりあいに簡単なのですが、単語辞書などは持っていないので、アクセントとかイントネーションとかエクスプレスとかいった情報は、もともとの楽曲に依存しています。ですから、「漢字かな交じりのテキストの読み上げ」レベルには及びません。
また、データの切れ端を繋ぎあわせるときに、ギャップがあります。人間には肺とか声帯とか舌とか唇とかいった「物理的な器官」があるので、そのあたりの時間的変化によって「渡り」があります。そのあたりのギャップが埋めづらいところもあります。それもあるので、ボーカロイドは「鼻の詰まったような」声になります。これは所長が知人のビオリスト(ビオラ奏者)に聞いた話ですが、「安いビオラやバイオリンは、音高によって『出にくい音』というのがあるので、『渡り』の部分にギャップができるので『鼻の詰まったような音』になる」そうです。「それが解ると、ビオラとかバイオリンの値段の高い安いが聞きわけられるぞ(笑)」とのこと。その話を別の友人(邦楽)にしたら、「三味線はあんまり値段に関係ない(笑)」とか。所長によれば、「おまえ、町工場街の大森に住んでるんだから、製造原価五百円でカンカラ三線作って三千円で売ったら売れるぞ?」と言われたとか。
まぁ、それ以外でも、(もちろん ご存知ではあると思いますが、いちおう他の閲覧者のために申し上げます)九州地方などでは「が」の音が二種類ある、とかいった話もあるわけで「眼鏡(めがね)」の「が」は鼻濁音、「学校(がっこう)」の「が」は口腔濁音、といった区別もされていたそうです。
最近は、漢字かな交じり文をアナウンサーのように読み上げるパーソナル・コンピュータ用のアプリケーションもあるようですが、これも「咽喉・口腔・口唇」といった物理モデルを基礎としたものではなく、「音素の並びを辞書データとして集積したもの」であるそうです。
音研の松美さんは、そのあたりをクリアするために、「声道を物理モデルとして構築し、それに基づいて音声データを合成する」という気の遠くなるようなことをされていました。
「声帯から出てくる音がどういう音か分からないのではないか」という疑問がありましたが、「普通に三角波でOK。要するに奇数次倍音だから、クラリネットの音で充分」だとか。
なお、
> 聴覚神経が丸くなってしまった、
> 脳がとけ始めたかな
というのは、おそらく杞憂です。
「高い音は低い音にマスクされやすい」という「マスキング・エフェクト」というのがあるので、相対的に中低音が大きく聞こえて高い音が聞き取りづらくなっているのかもしれません。「最近は、男の声が聞き取りづらくなってるので、なるべく若い女の娘(こ)の声のほうがいい」くらい言っておけばいいと思います。「ハイパスフィルターやローカットフィルタが欲しい」とかいう話もあっていいかも。
まぁ、「ヒス音(キーキー音。ヒス・ノイズ)」をカットする機能(ドルビー・システム?)が身についたと思えば、腹も立たないように思いますが。
返信する
Unknown (ksky)
2021-04-20 22:59:02
合成音声は自然に聞こえるトーンを工夫している、自然さを表わそうとしているのですね。よくわかっていませんが、機械で出す声をそれとわかるようにして、人間の音声と区別できる方がいいんじゃないかなぁと、素人は思います。
耳の聞こえについてのアドバイスをありがとうございました。聞けない、聞こえないわけではなくて、テレビの音声などが聞こえにくくなる段階になっています。もちろん、聞きたくなれば、ヘッドフォンとか耳元でささやくスピーカーとか使います。茶の間で流れる音声が聞こえなくてもいいような会話ばかりのテレビ放送で、そこですでにシャットアウトをしているのかも知れません(自覚症状は会議の発言で言わずもがながあると聞いていないというか、聞こうともしなかったあたりから)。
返信する
音声帯域 (Maria)
2021-04-23 17:23:01
うちらも、昨今の TVCM やバラエティ番組の音声には辟易しています。うちらは いわゆる「高機能自閉」なのですが、自閉圏のお子さん方には、「みみをふさぐひと」と認識されているようです。
発話における音声帯域というのは、それほど広くはありません(日常会話では、1オクターブ程度しかないでしょう)。
ただ、音の「艶」というのは、おそらくは「倍音」に関わるわけで、「高音域を強調する」といったことをすると、より音楽(音源)を愉しめると思います(オーディオ関係のお店にゆくと、「イコライザー」という、音域を調整する機械があったりします)。
世の中には「オーディオ・マニア」(秋葉原界隈では、「音(オト)キチ」と呼ばれています)という人々がいて、鬱陶しいくらいに懇切丁寧に教えてもらえます。昔は「アナログ音源」「管球(真空管)」が全盛でしたが、昨今は「ソリッドステート」を経て「ディジタル音源で PCM」が全盛になっています。
このあたりの話は、ちょっと齧っておくと交友関係が ちょっと広がるかもしれません。
返信する
イコライザ (ksky)
2021-04-25 22:50:40
デジタル音声で再生する、平板スピーカーが出たころ、金属音のように、切れ味よく聞こえたものですが、それを気付くと、いつの間にか、いまは、そのキーンという音も、柔らかになってしまっているのは、聞く耳が変わって、重低音の音域にも心響かなくなってしまっています。アナログレコードの音の良さは、と、勝手に思い込んできて、抑えられてしまった音が聞こえない、聞いた感じが、包み込まない、包み込まれないようです。サラウンド機構はエコーするだけですね。
返信する

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。