AWS Recommendation Engine Seminar 参加レポート（前半）

こんにちは。Wantedly Visit の Recommendation チームにてデータサイエンティストを務めています松村（@yu-ya4）です。この度，AWS 主催の Recommendation Engine Seminar (https://recommendationengineday.splashthat.com/) というイベントに参加してきましたので共有したいと思います。

Recommendation Engine Seminar とは？

Recommendation Engine Seminar とは，2019年7月8日に開催された，機械学習を活用したパーソナライゼーションやリコメンデーション活用についてのセッションが集まる AWS が主催のイベントです。

公式サイトに掲載されていたイベントの概要は以下の通りです。

デジタル化やIoT の普及によって、より多くの顧客データや行動データがクラウドに集まってきています。これらのデータをもとに、マーケティングプロセスの自動化やアカウントベースのマーケティング、意思決定の支援などを行いうにあたり、機械学習を活用したパーソナライゼーションやリコメンデーションは非常に重要なコンポーネントになります。

皆様がお持ちの顧客データをアクショナブルにするためのリコメンデーション・パーソナライゼーション活用について、Amazon での機械学習の事例や、機械学習に深い経験を持つパートナー様の知見をもとに成功するリコメンデーション・パーソナライゼーション構築の秘訣をお話しします。

本イベントは AWS 社より 2 セッション，AWS のパートナー企業様より 3 セッションの全 5 セッションという充実した構成で，それぞれの企業におけるリコメンデーションやパーソナライゼーションの導入事例についての紹介やそこから得られた知見の共有が行われました。

全部書くとそこそこな量になってしまうので，今回は前半の AWS 社よりの2セッションについての記事としたいと思います。後半もきっと書きます。

以下でそれぞれのセッションで話された内容をメモ程度ですが軽い感想などを添えて共有できればと思います。
（※ あくまで私が聞き取ってメモしてまとめた内容であることをご承知願います。）

1. AI・機械学習 – デジタルトランスフォーメーションの中核

概要：

今後、デジタルフォーメーションに関連する取り組みの多くの部分がAI・機械学習によって実現されるといわれる中、より多くのデータサイエンティスト・開発者の方々が迅速・簡単に機械学習の開発をスタートできるようAWS では様々なスタックで機械学習・AI サービスを提供しています。本セッションでは事例を交えAWS の機械学習サービススタックのご紹介を行います。

イベントは AWS の Global Lead, AI/ML Consulting Practice である Carlos Escapa 氏によるセッションから始まりました。彼の責務の1つには，AI とその多くの可能性を学んで事業に役立てようとシリコンバレーを訪れる企業の上級幹部に対してイノベーションツアーとして知られるセミナーを行うというものがあるそうです。

セッションを通して，AIというものは戦略そのものでなく戦略を成功させる道具であることを強調してお話されていました。また，今回のイベントのテーマでもあるパーソナライゼーションというのもその一つに位置づけられると話されました。

AI を利用したプロジェクトを成功させるにはその技術的なスキルセットのみならず，どのように運用管理していくかというマネジメントのスキルセットやそれらを利用するためのツールセットが必要であり，これらを正しく理解して正しく区別する必要があると考えているとのことでした。

最近は機械学習を利用した PoC が増えてきており成功事例も徐々に増えてきています。もちろん，Amazonにおいてもデータやその分析，機械学習はとても重要であり，ビジネスにおける定性的でない定量的な測定への依存はMLの発展につれて大きくなっているとのことです。
Amazon における消費者分析のためのデータは200PBを超えていて，その中で4万近くのデータセットが存在し，90万件のjobが走っているとのことです。それぞれのデータセットにはオーナーがいて，データカタログで確認できるようなデータセットログの SLA が定められ管理されているという状態らしいです（！）。

一方で，PoC が終わってからプロダクションにおける運用環境を作成するのはまだまだ難しいということを問題視されていました。そこで，PoC からプロダクションへの環境の移行をできるだけシームレスに行うことで，余計なことに気を取られずに本質的にビジネス課題を解決するのに必要な問題にだけ取り組めるような環境を提供することを目指した AWS のAIや機械学習周りのサービススタックや，それらのコンポーネントについての紹介がありました。

サービススタックは大きく以下の3層に分かれています。

AI services
ML services
ML Framework + Infras

AI servies はいわゆるAIサービスと言われるもので，今回フォーカスを当てている Amazon Personalize もここに属します。この層のサービスは学習済みの model を利用するものであったり，AutoML のような形で model そのものを自動生成するようなものとなります。この層はアプリケーションの開発者（一般的なソフトウェアエンジニア）などは主なターゲットとしています。

ML services はいわゆる機械学習サービスと言われるもので，Amazon SageMaker などがここに属します。この層のサービスはいわゆるデータサイエンティストがデータサイエンスのみに集中できるような環境を提供することを目的としています。

最後に ML Frameworkd + Infras は，従来からの AWS のサービスに近しいもので EC2 などが挙げられます。この層では，たとえば分散実行を簡単にしようであったりとか，機械学習における推論の速度を上げようなどといった，機械学習全体のパフォーマンスを上げようということを目的としています。
また，一般的なフレームワークやライブラリを簡単に載せられることも非常に重要視されています。

それぞれのコンポーネントについての説明はここでは省きますが，知らなかったサービスもちらほらとあり新鮮でした。

2. アマゾンにおける機械学習の活用

概要:

Amazonにおけるリコメンデーションエンジンの活用について、手法・インパクト・パーソナライズされた顧客体験へのビジョンなどを交えてお話しします。
Recommendation Engines at Amazon – Methods, Business Impacts and Vision for super-personalized customer experiences

2 つめのセッションは AWS Inc. Global Segment Leader (ML) の Kristof Schum によるものでした。

このセッションで一番印象的だったのは，Customers are "heterogeneous" and "dissatisfied" というのは常に成り立つという主張です。レコメンデーションやパーソナライゼーションをする上で，この考えは常に頭においていなければならなず，これらがレコメンデーションやパーソナライゼーションを行う理由であるとのことでした。

"heterogeneous"

わたしたちがレコメンデーションやパーソナライゼーションを行おうとする際，どうしてもユーザをいくつかのグループに分けて考えてしまうことが多いです。これは，実際の運用面の問題は説明性を考慮した際にしかたないのかもしれませんが，実際のユーザは本当に1人1人全く違うものなので，本来は完全に別々に考えてあげるべきであるとのことでした。

これまで話をしてきたクライアントの中で本当にこの意味を理解して実践できていたのは Spotify だけだったらしくて，さすがだなぁという薄い感想を抱きました。

"dissatisfied"

こちらは，Amazon の CEO のジェフ・ベゾスの言葉から取っているらしいのですが，ユーザがいくらレビューなどのフィードバックで満足していると言っていても，実際に完全に現状に満足しているユーザなどいないということでした。

Amazon のサービスにおいてももちろん様々なレコメンデーション・パーソナライゼーションが行われていて，その各セグメントごとにチームが形成されているほど重要視しているとのことです。

また，Amazon におけるレコメンデーション・パーソナライゼーションの事例を1つあげていました。Amazon では購買を行うユーザ向けだけではなく，商品を出品するセラー側へのレコメンデーションも行っています。

1番初期段階のレコメンデーションにおいては，パーソナライゼーションの要素はなく，ただある地域で最も人気のあるアイテムをレコメンドしていました（most-popular とか言われるやつですね）。この時点においてレコメンドに基づいて出品を行ってくれたセラーは 1% ほどだったそうです。
次に，レコメンド対象のセラーが取り扱っているアイテムの中でレコメンドを行うようにしたところ，4%ほどのセラーが出品を行ってくれるようになったそうです。さらに，どのアイテムをどれくらいの量出品すればいいのかまでレコメンドするようにした結果，20% まで出品してくれるセラーが増えたとのことでした！

このようにレコメンデーション・パーソナライゼーションには大きな可能性が存在する一方で，様々な challenges も存在します。このセッションでは以下のように説明がなされていました。

Custom models
- みなさまのお客様に対応した model を作成する必要
- そのビジネス特有のコンテクストやお客様の状況を正しく反映させる必要がある。
Real-time
- 突発的なユースケースへの対応。人のためにプレゼントとして買ってあげるなど。
- ユーザの嗜好の変化に対応する必要が。
Cold Starts
- 新規アイテムにはデータがない。新規ユーザもデータがない。
Popularity, Novelty, Seasonality Trap
- ナイーブな model ではpopular アイテムに似ているやつを推薦しがち
- Amazon では，このアイテムはバズってるよって model に教えてあげるとかもやってる。
- そのへんをSNSから検知するための仕組みもある。日本語はまだ対応していないとのこと。
Scale
- millions items and users に対応する必要がある。
- scalability and retency
Evaluation
- metrics are fuzzy
- forecasting -> 将来どういう数字になるのか照らし合わせればいい
- これと違ってリコメンドして最終的にお客様が本当に満足したかどうかを評価するのは難しい問題。
- MRR, AB testing(実際に model を production に入れる)，売上とか離反率。ビジネスKPI を使って評価。などなどいろいろな手法が存在する。

次に，Amazon におけるレコメンデーション・パーソナライゼーションの手法の進化についての話がありました。

Amazon では長らく Matrix Factorization が採用されていました。しかし，トレンドで人気なものを推薦するよりかは良かったが，まだまだ不十分に感じられていました。

次に DeepLearning を使った手法が試されました。
ユーザとをアイテム（映画の例で説明された）それぞれをニューラルネットワークを利用してエンコーディングする。ユーザの行動も同様にエンコーディングして，どのような形でユーザとアイテムの最適な組み合わせを見つけるかという問題に取り組んだそうです（あまり具体的な説明はなかった）。

そして現在では，hRNN(Hierarchical Recurrent Neural Networks）という手法がほとんどの Amazon のレコメンデーションを司るチームで利用されているとのことでした！

問題設定としては，ユーザとアイテムのインタラクションについての過去のデータを利用して，今日から1週間先までにユーザがどのアイテムを視聴したかを予測するというような問題に取り組んでいるらしいです（めちゃくちゃざっくりな説明）。モデルのオフラインでの評価としては，今日からさかのぼって1週間前までにユーザがどのアイテムを視聴したかを当てられたら良いモデルだと判断してオンラインでのテスト（ABテスト等）を行っているというようなことを言っていました。

こちらのモデルは現在すでに Amazon Personalize にも組み込まれており，実際の企業の製品におけるレコメンデーションやE-mail など経由の通知などに利用されているとのことでした！

最後に，実際のビジネスの現場でどのようにレコメンデーション・パーソナライゼーションへの考え方が変わっているのかというリサーチ結果や事例の紹介がありました。
印象的だったのは，"Content is no longer king. The Viewer is King." という言葉でした。メディアを扱うサービスにおいて，これまではより質の高いコンテンツというものが最も大切だとされてきたが，最近はコンテンツを消費するユーザの性質や行動の履歴が最も大切であるという考え方が広まってきており，それを考慮した戦略が実際に取られているという事実でした。

ここまでこのセッションでは，なぜレコメンデーションやパーソナライゼーションが必要なのか，どのように取り入ればいいのかという話が実例とデータをもとに説明されてきました。
そして最後は Netflix CEO の Reed Hastings による以下の言葉で締めくくられました。

"If the Starbucks secret is a smile when you get your latte...
ours is that the website adapts to the individual's taste."