初夏の陽気が訪れ、このゴールデンウィークはどこもかしこも混んでいる。
私は逆に遊びに出掛ける気が起きず、黙々とPCとにらめっこする毎日。
連休も後半に入り、根詰めてやっていたRVCの音声合成のコツがわかってきた。音声合成で大事なことは、やはり音声素材の量と質が大事だということ。
5秒程度に纏まった発話音声ファイルを計30分以上集めれば、そこそこ良い学習モデルが出来上がる。発話音声ファイルは長すぎても短すぎても良くないし、質の悪い音声をただ集めてもだめ。
そして、計算についてだが
Target sampling rate: 48k
- f0 Model: f0オン
- phone embedder: contentvec
- Embedding channels: 768
- Batch size: 10 (3060-16GBだとギリギリ)
- Number of epochs: 200 (これは議論が分かれると思う)
- Cache batch: batchオフ
Epoch数は30あれば十分だと言われている。たしかに150を超えると過学習で音声にノイズが入ってくるが、言葉がハッキリしてくるようにも聞こえるため、個人的には200のあたりが好みだ。