表現のニュアンスを含めた擬音的模倣音声からの効果音合成

ゲームやアニメーション、映画などのコンテンツ作品では、効果音を入れることが必要ですが、プロでもその制作には手間がかかることが多いです。ましてや、経験が少ない人にとっては所望の効果音を制作したりサウンドライブラリから選び出すことは大変骨の折れることであり、思い通りの音が作成・入手できるとは限りません。ですが、イメージする音を擬音語としてニュアンス含めて口で表現することは比較的容易であり、誰でもある程度はものまねとして表現できます(例:金属のぶつかる音、サイレンの音、爆発音など)。そこで、この研究では、擬音的な口真似音声(特にボイスパーカッション的に似せた音)から、生成系の深層学習技術を用いて効果音を合成する手法について提案し、試作しています。日本語ではオノマトペは擬音語と擬態語の2種あることが有名ですが、本研究では擬音を対象とした合成を対象としています。そして、ここでは文字(記号)では表現しきれない発音を含めた音の種類(音韻情報)のほか、音の高さや抑揚、タイミングなどの情報(韻律情報)も含めて合成することを想定し、基本的に音声のみを基に合成する手法の確立を目指しています。現時点では、数ある効果音の種類の中でも、特に「爆発音」の合成に焦点を当てて取り組んでいます。(爆発音は、仮に文字で書いても、「ドゥーン」「ドァーン」「ボガーン」「ビシャーン」「バーーン」など多種多様な表現があり、これらの間の発音となる音韻もいろいろありえます)

現時点の具体的な手法には、BERT/GPT等で使われているTransformerを用いた深層学習を行っています。学習するデータセットに、映画やアニメなどで実際に利用されている効果音と、それら効果音毎に人が発話した擬音語表現音声とで、対のデータとして多数用意し、Transformerで学習します(「効果音」と「人の擬音表現音声」とを対にして学習)。ただ、ここでは、音響波形を直接学習するのではなく、周波数領域の情報も含めた学習を試みるとの考えから、各波形をメルスペクトログラムの画像に変換し、その画像の対を学習します。学習済モデルを用いた生成データも画像(メルスペクトログラム)になります。そして、その画像を音響波形に変換するには、出力されたメルスペクトログラム画像をニューラルボコーダ(Neural Vocoder)を通じて波形へと変換します。

口真似音声とそれに対する合成音の例

このように口で発音したものが効果音として合成される処理(俗に言うAI)が実現できると、効果音作成の方法として、次のように繰り返して発音してイメージした音に近づけていくことができるようになります。

  1. 人は欲しい音をイメージする
  2. 音を擬音として発音する
  3. AIがその発音を元に効果音を合成する
  4. 人は合成音を聞いて欲しい音か確認する
    (1から4を繰り返す)

これは、人とAIが共に作業してゆく Human-In-The-Loop の形です。

対外発表
作品展示・メディア取材・出演など