株式会社RevCommでは一緒に働く仲間を募集しています
通話相手が雑音環境下にいても聞き取りやすい電話を目指してみた
RevCommで音声処理の研究開発を担当している加藤集平です。皆さんは電話の通話相手が屋外やカフェなどの雑音環境下にいるために、相手の声が聞こえづらくて苦労した経験はありませんか?本記事では、物理的な音量はそのままに雑音環境下の聞こえ(音声了解度)を改善するモデルであるNELE-GANを用いた、通話相手が雑音環境下にいても聞き取りやすい電話の実現に向けた実験を紹介します。弊社のサービスであるMiiTel(ミーテル)の大量の通話音声を用いてモデルを学習することで、ベースラインよりも大幅に性能を改善することに成功しました。
※本記事の内容は、筆者らが日本音響学会2022年春季研究発表会で発表した内容(加藤 & 橋本, 2022)に基づいています。
- 要約
- 背景
本手法で強調した音声の例強調前
強調後 - 手法音声了解度を表す客観指標
音声品質を表す客観指標 - 実験音声データおよび雑音データ
モデルの学習条件および実験条件
実験結果
モデルの学習に用いる音声データの量および多様性の変化に伴う客観評価値の変化
モデルの学習に用いる雑音の多様性の変化に伴う客観評価値の変化 - 考察汎化性能
音声データの量および多様性を変化させたときの音声了解度や音声品質の変化
雑音の多様性を変化させたときの音声了解度や音声品質の変化 - 結論
- 発表文献
- 参考文献