投稿日:2009-07-09 Thu
大人の事情に拠り闇に葬られた記事からサルベージ。今回は一旦連続音から話題を離して、録音と切り出し、そして原音設定について情報を抽出してみました。
Click音を使った原音設定法はずいぶん浸透しているようなので知っていることを前提に述べますが、音源を録音する人にとってはこの設定法が二度手間になっていることに、皆様はお気づきでしょうか?
このClick音を使った設定法では、基準のリズムをつくって、それにあわせて「歌わせて」、そのリズムのズレを原音設定で修正していくことになります。
でも、よく思い出してそして考えて欲しい。
リズムに合わせて歌うのなら、「普通に歌ったほうが早い」ということを。
つまり、逆に考えるのです。
リズムに合わせて「歌うように録音」して、そのタイミングをそのまま原音設定に持っていければ、後から原音設定は必要無くなるのではないでしょうか?
こういうことです。

sashisuseso.mp3(お手本:初音ミク)
DAWやMTRソフトにClick音トラックを用意して(上段)、
それにあわせて録音します(下段)。
切り分けは、ポイントを手動で決めたら台無しなので、当然、機械的に行います。
この場合、T=60で一拍が1秒だとすると、例えば
3.85秒~5.15秒 を「さ.wav」
5.85秒~7.15秒 を「し.wav」
7.85秒~9.15秒 を「す.wav」
9.85秒~11.15秒 を「せ.wav」
11.75秒~13.15秒 を「そ.wav」
という風に、きっちり切り出せば、
(※wavezというソフトでこういうことが出来ます)
音符の頭に合わせるポイントが全てのファイルで頭から150msになり、
後から耳で聞いて先行発声をあわせる必要がなくなります。
この150msは原音設定では、左ブランク+先行発声ですが、
ここは、一律左ブランク=75・先行発声=75でもそれなりな原音設定になるはずです。
現状のUTAUだと、結局オーバーラップもあるし、何より一括して入力する方法が無いので、
「手間は変わんないんじゃね?」と思われるかもしれませんが、
「音符の開始にあわせるポイント」が先に決まっているということが、
“自動設定”にどれだけ有利か、判る人には判る筈です。
ちょっと説明が下手で判りにくかったかも知れません。
しかし、音源録音事情により詳しくて、理解力のある方なら、
これをヒントにUTAU音源録音に革命を起こすことだって可能ではないかと思っているんですが。
(ちょっと大ゲサだったかも)
ポイントは「中の人のリズム感」。
そして、あとで機械的に処理できるように「きっちり録音する」ということです。
次回は、“総当たり戦で連続音を用意した場合のメリット”を今回のアイデアを踏まえて解説する予定です。
前回:連続した音達(備忘録的に)
なるほどー!と思いました。人間が収録時に一定間隔で発声することで、先行発声を自動的に求められるようにするわけですね。OREMOで出来るかなと考えてみましたが、イヤホン付きメトロノームとリズム感さえあれば出来そうだと思いました。
テンポを決定→メトロノームをイヤホン再生→1拍目で「r」を押す→2拍目で発声開始。
この要領ですべての単独発声を収録すれば、先行発声の値がどの音でも一定になるので原音設定がすごく簡単そうです。
テンポを決定→メトロノームをイヤホン再生→1拍目で「r」を押す→2拍目で発声開始。
この要領ですべての単独発声を収録すれば、先行発声の値がどの音でも一定になるので原音設定がすごく簡単そうです。
拍にあわせた発声を2拍だけで綺麗に決めるのはなかなか熟練がいるような気がしますが、考え方はその通りです。
ちゃんと伝わったようなので安心しました。
まだ、このアイデアを実用段階に持っていくのにもう一工夫必要な気がしていろいろ考察中なんですが。
ちゃんと伝わったようなので安心しました。
まだ、このアイデアを実用段階に持っていくのにもう一工夫必要な気がしていろいろ考察中なんですが。
2009-07-10 金 01:29:23 |
URL |
あめや
[編集]
耳ロボPさんがお越しだ。というかこの一連の記事にコメントしていいのかな?
現在の音源宅録は、部屋を閉め空調を切りパソコンのファンの音を抑え……、
と、自分の声以外の音を極力出さないようにして行われる様子なので、
タイミングのガイドは聴覚ではなく視覚に対して行うほうが多くの場合に※
中の人が使いやすいかも、と想像しました。
※視覚に障碍のある方への対応は、とりあえず別途考慮(考慮先送り)
そして、OREMO改(仮称)などの録音補助ソフトが視覚的タイミングガイドに
加えて呪文の歌の歌詞を(次のフレーズの予告も含めて)画面表示すると、
UTAU音声ライブラリーの収録音の標準化(リストと音の名前付けの両方で)
にも役立つかもです。
例えば、日本語用第一水準・第二水準・第三水準・自由追加やおまけ音声。
濁音と鼻濁音はどちらが第一でどちらが第二? とか標準化案も論議を呼ぶ
かも知れませんが(自分の好みでは断乎として鼻濁音が第一水準です)。
また今後は、収録内容が(連続発声など)込み入ってくることも予想されますし、
録音補助ソフトの役割がきわめて大きなものになってくるような気がします。
1) ガイド画面を見ながら声を出して収録
2) 声を出した人が仮再生してダメ出し(ソフトウェアに何らかの入力)
3) ダメ出しされた音のみで呪文の歌の歌詞を組み立ててガイド画面を表示
4) 1~3の繰り返し後、一連の作業の終了を入力されたら、オーケーな音源
のみで構成され、自動推定によるoto.iniを伴ったライブラリーが生成される。
……といった感じで作業が効率化されるといいかも、と妄想しています。
現在の音源宅録は、部屋を閉め空調を切りパソコンのファンの音を抑え……、
と、自分の声以外の音を極力出さないようにして行われる様子なので、
タイミングのガイドは聴覚ではなく視覚に対して行うほうが多くの場合に※
中の人が使いやすいかも、と想像しました。
※視覚に障碍のある方への対応は、とりあえず別途考慮(考慮先送り)
そして、OREMO改(仮称)などの録音補助ソフトが視覚的タイミングガイドに
加えて呪文の歌の歌詞を(次のフレーズの予告も含めて)画面表示すると、
UTAU音声ライブラリーの収録音の標準化(リストと音の名前付けの両方で)
にも役立つかもです。
例えば、日本語用第一水準・第二水準・第三水準・自由追加やおまけ音声。
濁音と鼻濁音はどちらが第一でどちらが第二? とか標準化案も論議を呼ぶ
かも知れませんが(自分の好みでは断乎として鼻濁音が第一水準です)。
また今後は、収録内容が(連続発声など)込み入ってくることも予想されますし、
録音補助ソフトの役割がきわめて大きなものになってくるような気がします。
1) ガイド画面を見ながら声を出して収録
2) 声を出した人が仮再生してダメ出し(ソフトウェアに何らかの入力)
3) ダメ出しされた音のみで呪文の歌の歌詞を組み立ててガイド画面を表示
4) 1~3の繰り返し後、一連の作業の終了を入力されたら、オーケーな音源
のみで構成され、自動推定によるoto.iniを伴ったライブラリーが生成される。
……といった感じで作業が効率化されるといいかも、と妄想しています。
2009-07-10 金 07:34:39 |
URL |
キハ22
[編集]
指揮にも前振りがありますよね。
連続して録る音は一息で録れる5-6音がよいのではないでしょうか。
それでも最初の音はタイミングが合わせにくい(ズレる)かもしれません。
クリックのみ×4 ん ん あ い う え お 終了
(切り出すのはあ~お)こんな感じではいかがでしょうか。
連続して録る音は一息で録れる5-6音がよいのではないでしょうか。
それでも最初の音はタイミングが合わせにくい(ズレる)かもしれません。
クリックのみ×4 ん ん あ い う え お 終了
(切り出すのはあ~お)こんな感じではいかがでしょうか。
2009-07-10 金 08:20:12 |
URL |
ken
[編集]
このアイデア自体は以前UTAU SNSの中でも読んだことがあり、
効率化という点では間違いなく有用だと思います。
(複数の人が独立に思いつくアイデアはだいたい有用w)
で、実はすでに雰囲気だけちょっと試してみたんですが、
そうでなくともいろいろ気にして発声してるところにさらにテンポまで意識すると声の演技をする集中力が残らない
というのが最大の課題でした。英語部分では特に。
日本語なら単純だから何とかなる、かな?
長さについては一息で言えるためと、NGだった場合に気軽にリテイクするために
一回の録音は5モーラまでが限度に思いました。
私の場合ですが6は結構きつかったです。
息が続かない人は4モーラかも。
あと、最初の1声はどのみち安定させにくいので、
テンポ合わせも狙ってダミー発声にするといいかもです。
(それでも1拍で合わせるのは至難ですよ>耳ロボPさん)
いずれにしても録音をサポートするツールをうまく設計する必要を感じました。
副産物としては、例えばテンポを3拍子にして発声すると
なんとなく軽やかな声が取りやすかったりと、声を演技するための
補助として使うのも面白いと思いました。
音源の録音では(今のところ)音程をつけないので「楽しく歌う」のはなかなか難しいですが、
リズムを頼りになら多少は演技しやすいかもしれません。
効率化という点では間違いなく有用だと思います。
(複数の人が独立に思いつくアイデアはだいたい有用w)
で、実はすでに雰囲気だけちょっと試してみたんですが、
そうでなくともいろいろ気にして発声してるところにさらにテンポまで意識すると声の演技をする集中力が残らない
というのが最大の課題でした。英語部分では特に。
日本語なら単純だから何とかなる、かな?
長さについては一息で言えるためと、NGだった場合に気軽にリテイクするために
一回の録音は5モーラまでが限度に思いました。
私の場合ですが6は結構きつかったです。
息が続かない人は4モーラかも。
あと、最初の1声はどのみち安定させにくいので、
テンポ合わせも狙ってダミー発声にするといいかもです。
(それでも1拍で合わせるのは至難ですよ>耳ロボPさん)
いずれにしても録音をサポートするツールをうまく設計する必要を感じました。
副産物としては、例えばテンポを3拍子にして発声すると
なんとなく軽やかな声が取りやすかったりと、声を演技するための
補助として使うのも面白いと思いました。
音源の録音では(今のところ)音程をつけないので「楽しく歌う」のはなかなか難しいですが、
リズムを頼りになら多少は演技しやすいかもしれません。
2009-07-10 金 14:45:45 |
URL |
魅亜
[編集]
△ PAGE UP