投稿日:2008-12-10 Wed
OLD版・通常版・開発版について、同じ歌唱をレンダリングして比較してくださった方がいました。ありがとうございます。
それで、軽く寸評をいただいたんですが、それを読んで「やはり」と思ったことは、
“どんな処理をするにしてもなるべくシンプルに、余計な加工を加えない方が良い結果が得られる”
ということでした。
実はOLD版→通常版→開発版と、BRE成分の抽出法が複雑化してるんですが、
今までの経験と頂いた寸評からすると、
どうやら、BRE成分に関する改良は方向性を改める必要がありそうです。
あとはフォルマントフィルタの生成法・適用方法ですが、
こちらはちょっと関係する要因が複雑なのでもう少し整理して、
パラメータ化できるものはパラメータ化して最適な値を選択できるようにしていきたいと思います。
ところで。
以前に、開発版はフォルマントフィルタの周波数方向の解像度を高めて
時間方向の解像度が下がっていると書いたところ、
某所で両方限界まで高めて欲しいという書き込みがありました。
不確定性原理ってご存知ですか?
UTAUのフォルマントフィルタは量子力学の波動関数とは全然違うんですが、
波を扱うって事で似たようなところもありまして、
つまり、周波数方向の精度を高めようとすると、
時間方向の精度は必然的に下がることになっているんです。
でもまあそれ以前に、何でも精度が上がれば良いっていうような
単純な問題ではなくその先に、
「喉の調音フィルタの特性を抽出して、その特性から自然な声を生成する」
というより複雑で、しかも感覚的要素が多く入ってくる問題が控えているのですよ。
(※特性抽出には逆に周波数方向の解像度を下げた方が良い結果が得られる場合もあります)
難しい話で良く分かりませんが、両方あげるの難しいと言うことはわかりました
2008-12-10 水 04:54:25 |
URL |
[編集]
時間方向の解像度を下げた現在でも人の知覚レベルの数倍
余裕がありますよね。
周波数の解像度も私には現状で十分です。
時間方向の精度見直しでできたデーター長の余裕は別の機能付加のために使いたい」ということではないかと推察いたします。
余裕がありますよね。
周波数の解像度も私には現状で十分です。
時間方向の精度見直しでできたデーター長の余裕は別の機能付加のために使いたい」ということではないかと推察いたします。
2008-12-10 水 13:19:45 |
URL |
ken
[編集]
>「喉の調音フィルタの特性を抽出して、その特性から
自然な声を生成する」
ちょっと方向は違うかもしれませんが、sm4921373というのを
見つけました。このような声のメイコを聴いたのは初めてです。
人の声の持つ不安定さが再現されていて、まるで
似た声の人が歌っているかのように思えます。
自然な声を生成する」
ちょっと方向は違うかもしれませんが、sm4921373というのを
見つけました。このような声のメイコを聴いたのは初めてです。
人の声の持つ不安定さが再現されていて、まるで
似た声の人が歌っているかのように思えます。
2008-12-25 木 17:36:38 |
URL |
ken
[編集]
△ PAGE UP