莊司研究室配属 / 情報学部 行動情報学科
レビューデータからの各次元が意味を持つDisentangledな映画のベクトル表現の獲得
第17回データ工学と情報マネジメントに関するフォーラムにおいて発表させていただいた、「レビューデータからの各次元が意味を持つDisentangledな映画のベクトル表現の獲得」についてです。現在、どの機械学習においてもembeddingが当たり前になっています。入力データを機械学習モデルが処理できる形に変換するこの仮定に注目すると、embeddingから得られるベクトルの各次元が意味を持っていないという現状があります。この現状は、人間がベクトルを解釈不可能、より意味的に踏み込んだベクトル演算ができないという二つの問題を抱えていると考えました。 そこで本研究では、文書をベクトル化した際にその各次元が独立して意味を持つようにする、Disentangled Representationの獲得が可能なエンコーダの作成を行いました。 文書ベクトルの各次元が独立して意味を持つようになれば、文書ベクトルを観点ごとに比較可能になり、人間のあいまいな要望に対する検索も可能になるのではないかと考えています。 評価実験で映画のレビューデータを使用し、一つの映画につく複数のレビューから得られるベクトルを映画ベクトルとして定量評価、被験者評価を行いました。 本研究は学生プレゼンテーション賞、優秀インタラクティブ賞の二つを受賞させたいただきました。