たろの日記ページ,gooブログ版

http://taro-r.sakura.ne.jp の分家です。一部内容が重複してます。

音声合成

2007-09-19 22:08:00 | 音響
山口先生が音声合成の話を書いていたので調子にのってコメントを書いたら,質問で返されてしまった(^^;)…。
専門家はつい厳密に答えようとして「ああいう場合もある」「こういう考え方もできる」とか際限無くだらだら書いてしまいそうなので,あちらのコメント欄に書く前にこっちでガス抜きしてから書きます(苦笑)。
余談ですが,わたしは素人から見ると一緒に見えるでしょうが,わたし自身は音声合成は専門ではありません。電気音響の方が専門です。従って思い違いがあるかもしれません。
ちょっと口が滑って音声合成の歴史みたい話も書きかけましたが,これについてはwikipediaの音声合成の項を参照ください。CGIとの比較云々はCGIについてわたしが不勉強な以上これ以上軽はずみな事をいうと,間違えそうな気がするのでスルーしたいと思います(_o_)。
で,本題。
セルシスのサンプル音は聴いてみましたが,フォルマント合成というかパラメータ合成というか,コンピュータで音声を一から合成する手法では,良くできた音声ですね。その分野では最先端とさほど品質は変わらないと思います。もう一方,人間の音声を大量に集めてバラバラにして合成する手法(wikipediaでいう「連結的合成」でしょうけど,わたしの知り合いは「連結的合成」という言葉はあまり使わないので,間違ってるかも…。)の方ですが,これはご指摘のとおりライブラリを大量にすれば品質は上がります。…というか無限に音声があれば,いいたいことその物の波形もありますから,人間と変わらない音声がでます。
あとたまたま最近知ったので,どこの合成エンジンを使ってるのか知らないのですがReadSpeaker社の音声はこれは連結的合成じゃないかと思います。これも現状のレベルとしては,最先端レベルだとは思いますが。連結的合成は,いろんな言葉をしゃべらせないと,本当の汎用性はわかりません…。
で,じゃぁ品質が高い連結的合成の方がいいかというとフォルマント合成の方がいい点もあります。フォルマント合成の方が,全部コンピュータで作りますので,ピッチや抑揚などを自由に変えられます。あと結構大きいのが,声質を変えやすいということです。
というか音声波形から合成する手法の大きな問題として今でもあるのは,「声優が誰か分かってしまう」という声の肖像権の問題です。サービスにする場合すべて同じ特定の人の声だとまずいので,サービス毎に声を変えようとしたら,その都度声を収録しなくてはいけません。また,その時声優やアナウンサーを使うのでしょうけど,そうするとその人は「本人が仕事してないのに,いつも聴かれる声」になってしまい,その後仕事が来なくなる恐れがあります。
というわけで,波形合成の普及の一つの壁になってるのは技術的な問題だけではなくて,権利関係の問題もあります。ただし現在でも波形合成自体は自動応答サービスとかで使われていたりしますが,そういう権利を個別に整理して,なおかつ,市販ソフトではなくて,サービスの中で使われているように思います(この辺はきっちり調べてないので具体的なサービスは分かりません)。
あと初音ミクに関しては(想像するに)波形合成でしょうけど,ご指摘のとおり,一般の会話に比べると歌の方が遥かに抑揚のバリエーションが限定的なため,実用化しやすいと思います。
で,もっとも重要というか,結論への回答になりますが,将来があるかどうかは良く分かりません。すみません。個人的には音声合成の分野は,市場(システムかパッケージか,商用アナウンスか個人の趣味か)とコスト(マシンパワーとか,データベースサイズとか,声優の権利使用料とか)と,必要とされる品質・技術,価格設定のバランスが良く分からず,ずっと試行錯誤されている印象があります。技術を向上させれば売れるのかどうか良く分かりません。自動応答は人間じゃないと嫌だというお客さんがいたり,コンピュータにナレーションをさせるより,だれかに喋らせた方が安くて手っ取り早いと思う人が多い…という場合も考えもあります。技術の向上だけではなく,ユーザの感じ方の変化も重要に思います。
初音ミクのヒットは数日前の日記に書いているように,技術の問題ではなく,マーケッティングというか,狙ったユーザ層がうまかった…とわたしはおもっています。ビデオゲームだって高品質な3DのCGよりアニメ絵を動かした方が喜ぶユーザが確実にいます。
まぁでもアニメ絵だってゲーム市場の発展によりよりリアルにより良く動くようになってるわけですから,こういうところで市場をつくって全体的に技術が向上すれば,一気に通常の会話音声とかにも市場が広がるかも知れませんね。今や行政のポスターやCMですらアニメが使われる時代ですから,ユーザの嗜好もそういうものを受け入れるかも知れません。そういう意味では期待してます。
コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« SACDとかPS3とかiPodはいい音か? | トップ | 郵政民営化 »
最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

音響」カテゴリの最新記事