Data Driven Developer Meetup 【番外編好きな論文について語る会】 #1 を開催しました！

縣直道, 三條智史他1人

Software Engineer

縣直道

株式会社ヘンリー / Software Engineer

フォロー

三條智史

フォロー

松村優也

株式会社LayerX / 機械学習・データ部機械学習グループマネージャー

フォロー

on 2019/04/26

こんにちは！Wantedly で機械学習エンジニアをしている縣 (@agatan) です。2019/04/22 に Data Driven Developer Meetup 番外編好きな論文について語る会 #1 を Wantedly オフィスにて開催したのでそのレポートをしたいと思います。

Data Driven Developer Meetup 【番外編好きな論文について語る会】 #1 (2019/04/22 19:00〜)

Data Driven Developer Meetup (D3M) 番外編好きな論文について語る会 Data Driven Developer Meetup (D3M) はサービスをより良いものにするために日々データと格闘しているすべての人のためのコミュニティです。たとえばデータサイエンティスト、機械学習エンジニア、グロースエンジニアなどが含まれますが、そのほかにも様々なバックグラウンドを持った人々が集まるコミュニティにしていきたいと思っています。検索システム、推薦システム、A/B テスト、機械学

https://d3m.connpass.com/event/128063/

Data Driven Developer Meetup について

Data Driven Developer Meetup (#d3m) は、@yu__ya4, @johshisha, @AsakiIwata と僕 @agatan の 4 名で運営しているコミュニティです。「サービスをより良いものにするために日々データと格闘しているすべての人のためのコミュニティ」というテーマで、データ基盤、分析、機械学習、データ可視化、推薦システム、ABテストなどなどに関する話をする勉強会を開催しています。

Data Driven Developer Meetup

Data Driven Developer Meetup (D3M) はサービスをより良いものにするために日々データと格闘しているすべての人のためのコミュニティです。たとえばデータサイエンティスト、機械学習エンジニア、グロースエンジニアなどが含まれますが、そのほかにも様々なバックグラウンドを持った人々が集まるコミュニティにしていきたいと思っています。

https://d3m.connpass.com

番外編好きな論文について語る会 #1

D3M では普段、LT 会や招待トークをメインにした勉強会を開催していますが、今回はちょっと趣向を変えて 全員発表 という形式で、好きな論文や技術について好きなように語り合う会 を開催してみました。

今回発表していただいたものについて簡単にご紹介します！「資料は作り込まなくて良い、みんなで論文を見ながら口頭での説明が主になって良い」という形式ですが、ブログやスライドなどを用意していただけたので、そちらも参照ください！

巨大な Graph に対して効率的に Graph Embedding を学習する

発表者 @agatan_
発表時に参照していたメモ

Pytorch-BigGraph: A Large Scale Graph Embedding System · Issue #1 · agatan/paper-reading-notes

SysML 2019 https://www.sysml.cc/doc/2019/71.pdf billion scale なグラフだと、 float32 x 128 次元の embedding を作ったらそれだけで 100 GB 単位のメモリが必要なのでやばいが、この論文ではそういうものも disk に書き出しつつ学習する方法を提案している。グラフ使ってなんかするの、夢あるんだけどスケールさせるの大変だからなーと思ってた人いっぱいいると思う。実際にはこの論文中で扱...

https://github.com/agatan/paper-reading-notes/issues/1

僕は Pytorch-BigGraph: A Large Scale Graph Embedding System という論文を中心に、グラフを機械学習で扱う方法やその応用例から巨大グラフへの適用方法についてを発表しました。
Wantedly People でもつながりグラフを活用した機械学習システムが動いていますが、その巨大さに苦しめられています。グラフ構造を扱うのは夢があって楽しいのですが、スケーラビリティに課題があって活用しづらいという方は多いのではないでしょうか。そういった方におすすめの論文 / ライブラリの紹介でした。

29組のデータアナリストに同じデータセットと同じ質問を与えても、分析結果がバラバラだったという研究

発表者 @upura0
発表資料（↑ のタイトルは @upura0 さんのブログ記事から拝借しています）

Data Driven Developer Meetup 【番外編好きな論文について語る会】 #1 の発表資料 - u++の備忘録

これは何？ ↓のイベントで話す際の資料です。d3m.connpass.com 自己紹介事業会社のデータアナリスト＆エンジニア Data Driven Developer Meetupは #4 で登壇ブログやGitHubで読んだ論文をまとめています Many analysts, one dataset: Making transparent how variations in analytical choices affect results 29組のデータアナリストに同じデータセットと同じ質問を与えて

https://upura.hatenablog.com/entry/2019/04/19/123325

Many analysts, one dataset: Making transparent how variations in analytical choices affect results
「データ分析は実行するチームの主観による影響が大きい」ということを実験で示した論文について発表していただきました。
データに基づいた意思決定は客観的であるように見えますが、こういう結果を見ると「客観的」というのがちょっと怖くなりますね。
Conclusion も含め、データ分析をする人が学ぶべき教訓を豊富に含んだ論文だと思います。

物体の中心を捉えることで物体検知を高速に実現する

発表者 @fam_taro
発表資料 https://speakerdeck.com/fam_taro/summary-objects-as-points

続いて分野が画像に移って、Object Detection の新しい手法 CenterNet について書かれた論文 [1904.07850] Objects as Points を @fam_taro さんに紹介いただきました。
物体の中心点を CornerNet に似た方法で予測し、そこから box の幅・高さを予測することで物体を検知する手法です。多くの既存の Detector と違って、non maximum supression という後処理をする必要がないにも関わらず高精度・高速であることが売りの一つになっています。
ちなみにこの論文、arxiv に投稿されたのが 2019/04/16 で、開催日のわずか 1 週間前でした。
にもかかわらず slide 付きの丁寧な発表で感動しました！

Metric Learning のための新しい損失関数

発表者 @johshisha
発表資料

2018_ArcFace: Additive Angular Margin Loss for Deep Face Recognition · Issue #1 · johshisha/paper_reading

論文 ArcFace: Additive Angular Margin Loss for Deep Face Recognition https://arxiv.org/pdf/1801.07698.pdf 2018/01/23 動機レシピの画像検索について発表したときに，Face Recognitionで似たような手法（Triplet Loss）を利用しており，別の手法も提案されていることを教えてもらった Face Recognitionではペアの作り方の組み合わせ...

https://github.com/johshisha/paper_reading/issues/1

顔認識の世界では、画像を CNN に通してベクトルに変換し、「同じ人間であれば画像間の距離を小さく、違う人間であれば画像間の距離を大きく」するように CNN を学習する Metric Learning の枠組みが活用されています。
ArcFace: Additive Angular Margin Loss for Deep Face Recognition は、Metric Learning のための新しい損失関数を提案した論文です。従来の Metric Learning 特有の複雑な学習方法を使わず、単なるクラス分類のタスクとして学習することが出来る上に精度も高いという嬉しい手法です。
クックパッドのレシピ画像検索への活用を検討中とのことでした。