spacevision

雨ニモマケズ

初夏の陽気が訪れ、このゴールデンウィークはどこもかしこも混んでいる。
私は逆に遊びに出掛ける気が起きず、黙々とPCとにらめっこする毎日。

連休も後半に入り、根詰めてやっていたRVCの音声合成のコツがわかってきた。音声合成で大事なことは、やはり音声素材の量と質が大事だということ。
5秒程度に纏まった発話音声ファイルを計30分以上集めれば、そこそこ良い学習モデルが出来上がる。発話音声ファイルは長すぎても短すぎても良くないし、質の悪い音声をただ集めてもだめ。

そして、計算についてだが

 Target sampling rate: 48k
- f0 Model: f0オン
- phone embedder: contentvec
- Embedding channels: 768
- Batch size: 10 (3060-16GBだとギリギリ)
- Number of epochs: 200 (これは議論が分かれると思う)
- Cache batch: batchオフ

Epoch数は30あれば十分だと言われている。たしかに150を超えると過学習で音声にノイズが入ってくるが、言葉がハッキリしてくるようにも聞こえるため、個人的には200のあたりが好みだ。



『スペビトピックス』は
ブログ村ランキングに参加しています
バナーをクリックして応援お願いします

名前:
コメント:

※文字化け等の原因になりますので顔文字の投稿はお控えください。

コメント利用規約に同意の上コメント投稿を行ってください。

 

  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最新の画像もっと見る

最近の「ネットニュース」カテゴリーもっと見る

最近の記事
バックナンバー
人気記事