1
/
5

Data Driven Developer Meetup 【番外編 好きな論文について語る会】 #1 を開催しました!

こんにちは!Wantedly で機械学習エンジニアをしている縣 (@agatan) です。2019/04/22 に Data Driven Developer Meetup 番外編 好きな論文について語る会 #1 を Wantedly オフィスにて開催したのでそのレポートをしたいと思います。


Data Driven Developer Meetup 【番外編 好きな論文について語る会】 #1 (2019/04/22 19:00〜)
Data Driven Developer Meetup (D3M) 番外編 好きな論文について語る会 Data Driven Developer Meetup (D3M) はサービスをより良いものにするために日々データと格闘しているすべての人のためのコミュニティです。 たとえばデータサイエンティスト、機械学習エンジニア、グロースエンジニアなどが含まれますが、そのほかにも様々なバックグラウンドを持った人々が集まるコミュニティにしていきたいと思っています。 検索システム、推薦システム、A/B テスト、機械学
https://d3m.connpass.com/event/128063/

Data Driven Developer Meetup について

Data Driven Developer Meetup (#d3m) は、@yu__ya4, @johshisha, @AsakiIwata と僕 @agatan の 4 名で運営しているコミュニティです。「サービスをより良いものにするために日々データと格闘しているすべての人のためのコミュニティ」というテーマで、データ基盤、分析、機械学習、データ可視化、推薦システム、ABテストなどなどに関する話をする勉強会を開催しています。

Data Driven Developer Meetup
Data Driven Developer Meetup (D3M) はサービスをより良いものにするために日々データと格闘しているすべての人のためのコミュニティです。 たとえばデータサイエンティスト、機械学習エンジニア、グロースエンジニアなどが含まれますが、そのほかにも様々なバックグラウンドを持った人々が集まるコミュニティにしていきたいと思っています。
https://d3m.connpass.com

番外編 好きな論文について語る会 #1

D3M では普段、LT 会や招待トークをメインにした勉強会を開催していますが、今回はちょっと趣向を変えて 全員発表 という形式で、好きな論文や技術について好きなように語り合う会 を開催してみました。

今回発表していただいたものについて簡単にご紹介します!「資料は作り込まなくて良い、みんなで論文を見ながら口頭での説明が主になって良い」という形式ですが、ブログやスライドなどを用意していただけたので、そちらも参照ください!

推薦システムを "正しく" 評価する方法について

発表者 @yu__ya4

推薦システムを改善するためには、実際にアイテムを提供しユーザがそれに反応したログが必要になります。しかし、実際に得られるログは「今動いている推薦方法」によるバイアスがかかっており、今動いている推薦方法によって推薦されやすいアイテムはたくさんのログがある一方で、推薦されにくいアイテムは十分なログが得られません。このようなログで評価や学習を行うと、ログがたくさんあるアイテムが不当に重要視されてしまい、正しい評価・学習ができなくなります。
この問題に対処する方法として、Wantedly Visit の推薦・検索を改善している @yu__ya4 から [1706.07639] Causal Embeddings for Recommendation, Explore, exploit, and explain: personalizing explainable recommendations with bandits などを中心に紹介してもらいました。
推薦システムを実運用していると必ず考えなければならない問題で、僕もいくつか推薦チックなことをやっているシステムを運用しているので勉強になりました。

巨大な Graph に対して効率的に Graph Embedding を学習する

発表者 @agatan_
発表時に参照していたメモ

Pytorch-BigGraph: A Large Scale Graph Embedding System · Issue #1 · agatan/paper-reading-notes
SysML 2019 https://www.sysml.cc/doc/2019/71.pdf billion scale なグラフだと、 float32 x 128 次元の embedding を作ったらそれだけで 100 GB 単位のメモリが必要なのでやばいが、この論文ではそういうものも disk に書き出しつつ学習する方法を提案している。 グラフ使ってなんかするの、夢あるんだけどスケールさせるの大変だからなーと思ってた人いっぱいいると思う。 実際にはこの論文中で扱...
https://github.com/agatan/paper-reading-notes/issues/1


僕は Pytorch-BigGraph: A Large Scale Graph Embedding System という論文を中心に、グラフを機械学習で扱う方法やその応用例から巨大グラフへの適用方法についてを発表しました。
Wantedly People でもつながりグラフを活用した機械学習システムが動いていますが、その巨大さに苦しめられています。グラフ構造を扱うのは夢があって楽しいのですが、スケーラビリティに課題があって活用しづらいという方は多いのではないでしょうか。そういった方におすすめの論文 / ライブラリの紹介でした。

29組のデータアナリストに同じデータセットと同じ質問を与えても、分析結果がバラバラだったという研究

発表者 @upura0
発表資料 (↑ のタイトルは @upura0 さんのブログ記事から拝借しています)

Data Driven Developer Meetup 【番外編 好きな論文について語る会】 #1 の発表資料 - u++の備忘録
これは何? ↓のイベントで話す際の資料です。d3m.connpass.com 自己紹介 事業会社のデータアナリスト&エンジニア Data Driven Developer Meetupは #4 で登壇 ブログやGitHubで読んだ論文をまとめています Many analysts, one dataset: Making transparent how variations in analytical choices affect results 29組のデータアナリストに同じデータセットと同じ質問を与えて
https://upura.hatenablog.com/entry/2019/04/19/123325


Many analysts, one dataset: Making transparent how variations in analytical choices affect results
「データ分析は実行するチームの主観による影響が大きい」ということを実験で示した論文について発表していただきました。
データに基づいた意思決定は客観的であるように見えますが、こういう結果を見ると「客観的」というのがちょっと怖くなりますね。
Conclusion も含め、データ分析をする人が学ぶべき教訓を豊富に含んだ論文だと思います。

物体の中心を捉えることで物体検知を高速に実現する

発表者 @fam_taro
発表資料 https://speakerdeck.com/fam_taro/summary-objects-as-points

続いて分野が画像に移って、Object Detection の新しい手法 CenterNet について書かれた論文 [1904.07850] Objects as Points を @fam_taro さんに紹介いただきました。
物体の中心点を CornerNet に似た方法で予測し、そこから box の幅・高さを予測することで物体を検知する手法です。多くの既存の Detector と違って、non maximum supression という後処理をする必要がないにも関わらず高精度・高速であることが売りの一つになっています。
ちなみにこの論文、arxiv に投稿されたのが 2019/04/16 で、開催日のわずか 1 週間前でした。
にもかかわらず slide 付きの丁寧な発表で感動しました!

Metric Learning のための新しい損失関数

発表者 @johshisha
発表資料

2018_ArcFace: Additive Angular Margin Loss for Deep Face Recognition · Issue #1 · johshisha/paper_reading
論文 ArcFace: Additive Angular Margin Loss for Deep Face Recognition https://arxiv.org/pdf/1801.07698.pdf 2018/01/23 動機 レシピの画像検索について発表したときに,Face Recognitionで似たような手法(Triplet Loss)を利用しており,別の手法も提案されていることを教えてもらった Face Recognitionではペアの作り方の組み合わせ...
https://github.com/johshisha/paper_reading/issues/1

顔認識の世界では、画像を CNN に通してベクトルに変換し、「同じ人間であれば画像間の距離を小さく、違う人間であれば画像間の距離を大きく」するように CNN を学習する Metric Learning の枠組みが活用されています。
ArcFace: Additive Angular Margin Loss for Deep Face Recognition は、Metric Learning のための新しい損失関数を提案した論文です。 従来の Metric Learning 特有の複雑な学習方法を使わず、単なるクラス分類のタスクとして学習することが出来る上に精度も高いという嬉しい手法です。
クックパッドのレシピ画像検索への活用を検討中とのことでした。

まとめ

少人数・全員発表という形にしたのは、質問や思ったことを発信しやすい会にすることが目的でした。全然わからない分野のことでも質問することで理解のきっかけになったり、より深い理解のための議論ができたり、実際にプロダクトに組み込むための相談ができたり、といった場になればよいなと思っていました。

第一回はまさに目的を叶える形で活発に議論しながら進めることができました!推薦、グラフ、データ分析、画像と幅広いジャンルの話ができたのものとても楽しかったですし、一つの論文を紹介するだけでなく背景や周辺知識についても語れたのですごく勉強になりました。
発表者のみなさま、ありがとうございました!

定期的に少人数で開催しようと思っているので、気になった方はぜひ次回お越しください!

4 いいね!
4 いいね!