PronounSE:言語非依存な口真似音声からの効果音合成

背景・技術概要

ゲームやアニメーション、映画などのコンテンツ作品では、効果音を入れることが必要ですが、プロでもその制作には手間がかかることが多いです。ましてや、経験が少ない人にとっては所望の効果音を制作したりサウンドライブラリから選び出すことは大変骨の折れることであり、思い通りの音が作成・入手できるとは限りません。ですが、イメージする音をニュアンス含めて口真似で表現することは比較的容易であり、誰でもある程度はものまねとして表現できます(例:金属のぶつかる音、サイレンの音、爆発音など)。そこで、この研究では、口真似音声(特にボイスパーカッション的に似せた音)から、生成系の深層学習技術を用いて効果音を合成する技術について取り組んでいます。非音声、非音楽な音響合成技術です。そのような音には、現実世界で起こる「環境音」(Environmental Sound)や、非現実な音やユーザインタフェース音も含め様々な演出に使われる「効果音」(Sound Effect)があり、本研究は特に後者(効果音)に注目しています。手法の特徴としては、文字(記号)では表現しきれない発音を含めた音の種類(音韻情報)を扱うことに主眼が置かれているほか、音の高さや抑揚、タイミングなどの情報(韻律情報)も含めて合成します。現時点では、数ある効果音の種類の中でも、特に「爆発音」の合成に焦点を当てて取り組んでいます。(爆発音は、仮に文字で書いても、「ドゥーン」「ドァーン」「ボガーン」「ビシャーン」「バーーン」など多種多様な表現があり、これらの間の発音となる音韻もいろいろありえます)

現時点の具体的な手法には、GPT等のLLMで使われているTransformerを用いた深層学習を行っています。学習するデータセットに、映画やアニメなどで実際に利用されている効果音と、それら効果音毎に人が発話した口真似音声とで、対のデータとして多数用意し、Transformerで学習します(「効果音」のソース音源と「人の口真似音声」の時系列変化の関係性を学習)。ここでは、音の波形を学習するのではなく、周波数成分の変化も含めた学習するため、各波形をメルスペクトログラム(画像的な2次元配列)に変換し、それらの対を学習します。生成時のTransformerの出力はメルスペクトログラムで、それを音響波形に変換するには、ニューラルボコーダ(Neural Vocoder)を通じて波形へと変換します。ニューラルボコーダにはHiFi-GANを使用しています(当初はiSTFTNetでした)。

合成音の例

PronounSEの活用・使い方

このような口真似発音したものが効果音として合成される処理(俗に言うAI)が実現できると、効果音作成の方法として、次のように繰り返して発音してイメージした音に近づけていくことができるようになります。

  1. 人は欲しい音をイメージする
  2. 音を擬音として発音する
  3. AIがその発音を元に効果音を合成する
  4. 人は合成音を聞いて欲しい音か確認する
    (1から4を繰り返す)

これは、人とAIが共に作業してゆく共創の一つの形だと考えています。

研究成果

対外発表
出版・作品展示・メディア取材・出演など