Yusuke Harasono

株式会社D2C神奈川県横浜市

Yusuke Harasono

株式会社D2C

Connect to learn more

You'll be able to see their introduction and other information once they have accepted your connection request.

About 株式会社D2C

株式会社D2C1 year

- Present
About 株式会社フリークアウト

株式会社フリークアウト6 years

-

株式会社アニモ4 years

-

旭化成アミダス株式会社5 years

-
  • 音響モデルの認識精度/モデルサイズの最適化

    ともあり、モデルサイズをなるべく小さくしたいという要件がありました。 そこで MDL (Minimum Description Length) という、学習データ量、モデルのパラメータ数、モデル精度のバランスを取る基準を導入しました。 音響モデルでは音素 ("a", "i", etc.) が複数の state で表現され、各 state が多次元混合ガウス分布の出力確率分布を持ちます。 state ごとの単位で MDL で最適な混合数を持つ音響モデルを学習できるようにしました。 アルゴリズムについては後述の論文を参考にしています。 ## チームでの役割 この案件では最初1人で上記を実現するツールの設計・開発 (C++ & Perl) 、およびある言語の音響モデルにおいてオフラインの実験を実施しました。 その後効果ありと認められたので、複数の言語の音響モデル開発者に周知・導入サポートをしました。 ## 結果 狙いどおり、それまでの音響モデルと比べてより高い認識精度とより小さいモデルサイズを両立するような、よりバランスの良い音響モデルを作ることができました。 また、調整用のパラメータを変更することにより高精度・大サイズから低精度・小サイズの間で任意のポジションを取れるようになりました。 良い結果が得られたため、前述のとおり多言語の音響モデルに展開されました。 ## 参考 Shinoda, K., & Iso, K. (2002). Efficient reduction of gaussian components using MDL criterion for HMM-based speech recognition. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing, proceeding(1), 869–872. https://www.computer.org/csdl/proceedings-article/icassp/2002/05743877/12OmNx965BP

    -

Keep up to date with your connections on the Wantedly People App.