投稿日:2009-06-06 Sat
思うところあって、UTAUコアのresamplerと同じインターフェースで普通のサンプラー方式の音声伸縮エンジンを作ってみたんですが、
resamplerシリーズと比べて
1.音源の設定にえらい手間が掛かる(ループスタート~エンドをマイクロ秒単位で設定)
2.状態が悪い音源は使えない(どうしてもループが不自然になる・resamplerよりシビア)
3.固定部が無く、全体が高音で縮小・低音では拡大するため、先行発声等を原音設定任せに出来ない。
ただし、長さはループして継ぎ足すので、この伸縮は音程のみに依存します。
4.上記に拠り高音時のカツゼツが音源によっては絶望的
5.同上、低音での発音の間延びが避けられない。
※4,5は今までと同様、複数音階の音源を用意することで緩和できます。
以上欠点ですが(w)
フォルマントの修復は最新のresamplerのそれを流用しました。
伸縮の処理がシンプルな分、より原音に近い音になるはずなんですが、
まだ単音でしか比べていないのでどの程度なのか判断つきません。
ループトップを固定範囲値、ループエンドを右ブランク値で流用する仕様にしました。
が、現状のUTAUでは原音側の設定がミリ秒単位なので使えません。
これが致命的で、エンジンはまだ公開できないんですが。
とりあえず“実験室版utau”で原音エディタをマイクロ秒単位まで拡張してみたんですが、
原音の長さの計算に誤差があるのと、GUIの拡大率を現状の16倍まで可能にしてもまだ
UTAUだけではきれいに設定できませんでした。
Audacityの助けを借りて数値入力でTry&Errorを繰り返してやっと。って感じ。

もともとそんなに高精度なつくりはしてないので、

それ用に作り直さないとやはり無理ですね。
果たしてここで設定するのがベストなのかどうかも疑問ですし。
なのであんまり色々な音源を試していません。
とりあえずデフォ子と新録音版テトは使えそうだった。
これ以上グダグダ書いても誰も読まないと思うので、
従来のresamplerとの比較を置いておきます。差は微妙です。
※テト新録音版の「あ」と「い」のみです。
最新resampler flag=B25のみ
今回のエンジン(Flagとかはありません)
「い」の発音が従来よりクリアな気がします。
以上、今日の実験でした。
スポンサーサイト
△ PAGE UP