立命館大学 / 理工学部 電子情報工学科
RoboCup JapanOpen 2024に出場
RoboCup JapanOpen 2024に出場しました。 今回も前回に続き音声を担当しました。前回エラー落ちを幾度となく経験したためエラーハンドリングを強化しました。また音声認識の精度向上、処理速度向上、AI文章解析などを搭載しました。今回工夫した点はモデルを読み込んでおいたり、マイクの準備をしたりなどを先に実行して済ませておくことで素早いレスポンスに対応することができました。加えて、エラーハンドリングは3回試行かつ再実行に数秒設け、それでも実行が不可能な場合は代替メソッドで実行するなど、落ちないように細心の注意を払いました。 音声の改善により、音声認識、発話は他チームよりも抜群の精度と反応速度で実行することができました。 加えて、画像班の開発が送れていたため、その開発にも着手し、AIで画像の情報を取得する機能や、骨格推定などを実装しました。結果としてはロボットの制御がうまく行かなかったこと、機材トラブルで芳しくなかったですが、他チームとの交流を行うことで様々な知見を得ることができ非常に良い経験をすることができました。 技術スタック Python3, ROS, VOSK, Google SpeechRecognition, text-davinci, gemini, gTTS, LangChain, Pygame, Mediapipe, torch,, blip-image-captioning-large https://github.com/H-goto16/online_audio_kit https://github.com/H-goto16/image_with_gpt https://github.com/H-goto16/image2text https://github.com/H-goto16/finger_direction