PronounSE：非言語的な口真似音声からの効果音合成

ゲームやアニメーション、映画などのコンテンツ作品では、効果音を入れることが必要ですが、プロでもその制作には手間がかかることが多いです。ましてや、経験が少ない人にとっては所望の効果音を制作したりサウンドライブラリから選び出すことは大変骨の折れることであり、思い通りの音が作成・入手できるとは限りません。ですが、イメージする音を擬音語としてニュアンス含めて口で表現することは比較的容易であり、誰でもある程度はものまねとして表現できます（例：金属のぶつかる音、サイレンの音、爆発音など）。そこで、この研究では、擬音的な口真似音声（特にボイスパーカッション的に似せた音）から、生成系の深層学習技術を用いて効果音を合成する手法について提案し、試作しています。日本語ではオノマトペは擬音語と擬態語の2種あることが有名ですが、本研究では擬音を対象とした合成を対象としています。そして、ここでは文字（記号）では表現しきれない発音を含めた音の種類（音韻情報）のほか、音の高さや抑揚、タイミングなどの情報（韻律情報）も含めて合成することを想定し、基本的に音声のみを基に合成する手法の確立を目指しています。現時点では、数ある効果音の種類の中でも、特に「爆発音」の合成に焦点を当てて取り組んでいます。（爆発音は、仮に文字で書いても、「ドゥーン」「ドァーン」「ボガーン」「ビシャーン」「バーーン」など多種多様な表現があり、これらの間の発音となる音韻もいろいろありえます）

現時点の具体的な手法には、BERT/GPT等で使われているTransformerを用いた深層学習を行っています。学習するデータセットに、映画やアニメなどで実際に利用されている効果音と、それら効果音毎に人が発話した擬音語表現音声とで、対のデータとして多数用意し、Transformerで学習します（「効果音」と「人の擬音表現音声」とを対にして学習）。ただ、ここでは、音響波形を直接学習するのではなく、周波数領域の情報も含めた学習を試みるとの考えから、各波形をメルスペクトログラムに変換し、その画像の対を学習します。生成時のTransformerの出力はメルスペクトログラムで、それを音響波形に変換するには、ニューラルボコーダ（Neural Vocoder）を通じて波形へと変換します。現在はニューラルボコーダにHiFi-GANを使用しています。

口真似音声とそれに対する合成音の例

このように口で発音したものが効果音として合成される処理（俗に言うAI）が実現できると、効果音作成の方法として、次のように繰り返して発音してイメージした音に近づけていくことができるようになります。

人は欲しい音をイメージする
音を擬音として発音する
AIがその発音を元に効果音を合成する
人は合成音を聞いて欲しい音か確認する
（1から4を繰り返す）

これは、人とAIが共に作業してゆく共創の一つの形だと考えています。

対外発表

滝沢力, 平井重行, 金崎朝子, 須田仁志: 言語非依存な口真似による効果音合成手法PronounSEの評価, 情報処理学会研究報告 2025-MUS-143, 51, pp.1-7 (2025) 【優秀発表賞受賞】
Riki Takizawa and Shigeyuki Hirai, PronounSE: SFX Synthesizer from Language-Independent Vocal Mimic Representation, Adjunct Proceedings of ACM UIST2024, Article No.21 (2024)
滝沢力, 平井重行: 言語非依存な口真似データセット構築と口真似のみからのTransformerによる効果音合成, 日本音響学会第152回研究発表会,3-6-2 (2024)【学生優秀発表賞受賞】
滝沢力, 平井重行: 複数話者の擬音的発話音声データセットによる効果音合成の試み, 情報処理学会研究報告 2024-MUS-140(5), pp.1-7 (2024)
滝沢力, 平井重行: 擬音的発話音声からの効果音合成とその深層学習手法の改良, 情報処理学会第86回全国大会講演論文集, 1R-03（2024）
滝沢力, 平井重行: 擬音的発話のニュアンスを反映するインタラクティブ効果音合成, 情報処理学会インタラクション2024, インタラクティブ発表 1B-34（2024）
平井重行, 滝沢力: 生成系AIを活用した効果音制作手法の研究, CEDEC2023 ショートセッション (2023)
平井重行, 滝沢力: Transformerを用いた効果音合成技術 -爆発音を対象に-, CEDEC2023 インタラクティブセッション I-9 (2023)
滝沢力, 平井重行: オノマトペ音声を用いた効果音合成技術におけるニューラルボコーダの検討, 情報処理学会研究報告 2023-MUS-137(40), pp.1-6 (2023)
→注）予稿に書いてあるiSTFTNetの処理結果には、我々のプログラム上のミスがあり、正しくない記載内容が含まれています。誠に申し訳ありません。
Riki Takizawa and Shigeyuki Hirai, Synthesis of Explosion Sounds from Utterance Voice of Onomatopoeia using Transformer, Companion Proceedings of ACM IUI2023, pp.87-90 (2023)
滝沢力, 平井重行: 音韻と韻律を含めたオノマトペ音声からのTransformerによる爆発音合成, WISS2022論文集, デモ発表 2-B06 (2022)
【チームラボ賞受賞】
滝沢力, 平井重行: Transformerによるオノマトペ音声から爆発音への変換の試み, 日本音響学会関西支部第25回若手研究者交流研究発表会 (2022)
滝沢力, 平井重行: Transformerを用いたオノマトペ音声からの爆発音合成の試み, 情報処理学会研究報告 2022-MUS-134, No.55 (2022)

出版・作品展示・メディア取材・出演など

図書「進化するヒトと機械の音声コミュニケーション Vol.2 ～AIの活用と感情に寄り添う音声認識・合成の新展開～」, エヌ・ティー・エス（2025/4/10発刊）（分担執筆：第1編・第3章第2節担当）
【CEDEC2023】画像生成AIでサウンドも生成できちゃう？メルスペクトログラム画像を利用した効果音生成手法, GameBusiness.jp （2023/8/29掲載）
「ポケモン」環境音の作り方から疑似もぐもぐまで。ゲームサウンドの新世界, AV Watch （2023/8/28掲載）