人間は思ったより話が聞けない
人間の会話って、実はかなり省エネで回っています。相手の話をすべて正確に記憶している人はほぼいません。それでも会話が成立するのは、トーンや表情から「なんとなくこう言いたいんだろうな」と直感的に補完しているからです。本質を外さない程度に聞いて、あとは空気で埋めている。これは人間のすごい能力ですが、裏を返せば、長い会話の正確な文脈保持は人間も苦手ということです。
AIは長い文章が得意(になった)
一方でAIは、テキストのロングコンテクスト処理が急速に進化しました。数万〜数十万トークンのドキュメントを一括で読み込み、正確に情報を引き出せるようになっています。正確な記録、パターン認識、ブレない処理。人間が苦手なところを、AIはちゃんとカバーできる。
音声×AIの現在地
結局、会話処理は、人の音声以外の情報も柔軟に取る必要があり、「AIだけで完結させる」のはまだ遠い。
でも「人間だけ」も限界がある。だったら、お互いの得意なところを組み合わせればいい。
人間はその場の直感で本質を捉える。AIは正確な記録と分析で抜け漏れを補う。この相補的な関係をインターフェースとして設計すること。それが音声AI領域で今やるべきことだと思っています。
mocomocoでやっていること
mocomocoでは、まさにこの「人間×AIの相補性」を音声インターフェースで形にしようとしています。AIが得意な記録・分析・パターンマッチングはAIに。人間が得意な直感・共感・空気を読むことは人間に。その二つが自然に噛み合う設計をつくるのが、僕たちのテーマです。
一緒にやりませんか
技術のバックグラウンドは問いません。営業やカスタマーサクセスなど「人と話すこと」の現場経験がある方の視点こそ、このプロダクトには必要です。音声AIはまだ正解が決まっていない領域なので、一緒に考えながら作っていける人と働きたいと思っています。
ここに、音声AIプロダクトのラストワンマイルがあります。
興味があれば、ぜひ気軽に話を聞きに来てください。