株式会社D2C
You'll be able to see their introduction and other information once they have accepted your connection request.
ともあり、モデルサイズをなるべく小さくしたいという要件がありました。 そこで MDL (Minimum Description Length) という、学習データ量、モデルのパラメータ数、モデル精度のバランスを取る基準を導入しました。 音響モデルでは音素 ("a", "i", etc.) が複数の state で表現され、各 state が多次元混合ガウス分布の出力確率分布を持ちます。 state ごとの単位で MDL で最適な混合数を持つ音響モデルを学習できるようにしました。 アルゴリズムについては後述の論文を参考にしています。 ## チームでの役割 この案件では最初1人で上記を実現するツールの設計・開発 (C++ & Perl) 、およびある言語の音響モデルにおいてオフラインの実験を実施しました。 その後効果ありと認められたので、複数の言語の音響モデル開発者に周知・導入サポートをしました。 ## 結果 狙いどおり、それまでの音響モデルと比べてより高い認識精度とより小さいモデルサイズを両立するような、よりバランスの良い音響モデルを作ることができました。 また、調整用のパラメータを変更することにより高精度・大サイズから低精度・小サイズの間で任意のポジションを取れるようになりました。 良い結果が得られたため、前述のとおり多言語の音響モデルに展開されました。 ## 参考 Shinoda, K., & Iso, K. (2002). Efficient reduction of gaussian components using MDL criterion for HMM-based speech recognition. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing, proceeding(1), 869–872. https://www.computer.org/csdl/proceedings-article/icassp/2002/05743877/12OmNx965BP