投稿日:2008-12-10 Wed
OLD版・通常版・開発版について、同じ歌唱をレンダリングして比較してくださった方がいました。ありがとうございます。
それで、軽く寸評をいただいたんですが、それを読んで「やはり」と思ったことは、
“どんな処理をするにしてもなるべくシンプルに、余計な加工を加えない方が良い結果が得られる”
ということでした。
実はOLD版→通常版→開発版と、BRE成分の抽出法が複雑化してるんですが、
今までの経験と頂いた寸評からすると、
どうやら、BRE成分に関する改良は方向性を改める必要がありそうです。
あとはフォルマントフィルタの生成法・適用方法ですが、
こちらはちょっと関係する要因が複雑なのでもう少し整理して、
パラメータ化できるものはパラメータ化して最適な値を選択できるようにしていきたいと思います。
ところで。
以前に、開発版はフォルマントフィルタの周波数方向の解像度を高めて
時間方向の解像度が下がっていると書いたところ、
某所で両方限界まで高めて欲しいという書き込みがありました。
不確定性原理ってご存知ですか?
UTAUのフォルマントフィルタは量子力学の波動関数とは全然違うんですが、
波を扱うって事で似たようなところもありまして、
つまり、周波数方向の精度を高めようとすると、
時間方向の精度は必然的に下がることになっているんです。
でもまあそれ以前に、何でも精度が上がれば良いっていうような
単純な問題ではなくその先に、
「喉の調音フィルタの特性を抽出して、その特性から自然な声を生成する」
というより複雑で、しかも感覚的要素が多く入ってくる問題が控えているのですよ。
(※特性抽出には逆に周波数方向の解像度を下げた方が良い結果が得られる場合もあります)
スポンサーサイト
△ PAGE UP