350万人が利用する会社訪問アプリ
株式会社D2C
インターネット広告系、データ分析系、音声ソリューション系などのプロダクトで機械学習周辺のエンジニアリングの仕事をしてきました。 web の世界で「機会学習」という言葉が流行り始める以前からデータ活用や機械学習をプロダクトに落とし込むことをやってきた経験を活かしていきたいと考えており、今は特にデータエンジニアリング方面の技術に関心があります。
ともあり、モデルサイズをなるべく小さくしたいという要件がありました。 そこで MDL (Minimum Description Length) という、学習データ量、モデルのパラメータ数、モデル精度のバランスを取る基準を導入しました。 音響モデルでは音素 ("a", "i", etc.) が複数の state で表現され、各 state が多次元混合ガウス分布の出力確率分布を持ちます。 state ごとの単位で MDL で最適な混合数を持つ音響モデルを学習できるようにしました。 アルゴリズムについては後述の論文を参考にしています。 ## チームでの役割 この案件では最初1人で上記を実現するツールの設計・開発 (C++ & Perl) 、およびある言語の音響モデルにおいてオフラインの実験を実施しました。 その後効果ありと認められたので、複数の言語の音響モデル開発者に周知・導入サポートをしました。 ## 結果 狙いどおり、それまでの音響モデルと比べてより高い認識精度とより小さいモデルサイズを両立するような、よりバランスの良い音響モデルを作ることができました。 また、調整用のパラメータを変更することにより高精度・大サイズから低精度・小サイズの間で任意のポジションを取れるようになりました。 良い結果が得られたため、前述のとおり多言語の音響モデルに展開されました。 ## 参考 Shinoda, K., & Iso, K. (2002). Efficient reduction of gaussian components using MDL criterion for HMM-based speech recognition. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing, proceeding(1), 869–872. https://www.computer.org/csdl/proceedings-article/icassp/2002/05743877/12OmNx965BP