インターネット広告系、データ分析系、音声ソリューション系などのプロダクトで機械学習周辺のエンジニアリングの仕事をしてきました。
web の世界で「機会学習」という言葉が流行り始める以前からデータ活用や機械学習をプロダクトに落とし込むことをやってきた経験を活かしていきたいと考えており、今は特にデータエンジニアリング方面の技術に関心があります。
株式会社フリークアウト 6年間 2015年9月 - 2021年7月
株式会社アニモ 4年間 2010年4月 - 2013年4月
旭化成アミダス株式会社 5年間 2005年4月 - 2010年3月
音響モデルの認識精度/モデルサイズの最適化 ともあり、モデルサイズをなるべく小さくしたいという要件がありました。
そこで MDL (Minimum Description Length) という、学習データ量、モデルのパラメータ数、モデル精度のバランスを取る基準を導入しました。
音響モデルでは音素 ("a", "i", etc.) が複数の state で表現され、各 state が多次元混合ガウス分布の出力確率分布を持ちます。
state ごとの単位で MDL で最適な混合数を持つ音響モデルを学習できるようにしました。
アルゴリズムについては後述の論文を参考にしています。
## チームでの役割
この案件では最初1人で上記を実現するツールの設計・開発 (C++ & Perl) 、およびある言語の音響モデルにおいてオフラインの実験を実施しました。
その後効果ありと認められたので、複数の言語の音響モデル開発者に周知・導入サポートをしました。
## 結果
狙いどおり、それまでの音響モデルと比べてより高い認識精度とより小さいモデルサイズを両立するような、よりバランスの良い音響モデルを作ることができました。
また、調整用のパラメータを変更することにより高精度・大サイズから低精度・小サイズの間で任意のポジションを取れるようになりました。
良い結果が得られたため、前述のとおり多言語の音響モデルに展開されました。
## 参考
Shinoda, K., & Iso, K. (2002). Efficient reduction of gaussian components using MDL criterion for HMM-based speech recognition. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing, proceeding(1), 869–872.
https://www.computer.org/csdl/proceedings-article/icassp/2002/05743877/12OmNx965BP
2009年4月 - 2009年9月
原囿 友輔さん
のプロフィールをすべて閲覧
Wantedlyユーザー もしくは つながりユーザーのみ閲覧できる項目があります