2018.09.28

KDD2018＠LONDONに参加してきました！

下條雅弘

こんにちは。データイノベーション推進部の北條、下條、堀江です。この度はロンドンで開催されたKDD2018に参加してきたので、その報告をさせていただきます。

まず、KDD(Knowledge Discovery and Data Mining)についてですが、データマイニング、機械学習関連のトップカンファレンスの1つであり、毎年世界各地から研究者や企業が集まるイベントとなっています。今年の開催場所はロンドンでした！

http://www.kdd.org/kdd2018/ (KDD2018のホームページ)

KDD＆ロンドンは以下のような雰囲気でした。

人気のセッションは立ち見や座り見が続出しました！

↑ KDD会場内に設けられた企業ブース

↑ こちらはバンケットの様子。

↑ ロンドンの街並み。

研究紹介

今回、会場で聞いた研究や読んでみて面白そうな論文をいくつか紹介させていただきます！各タイトルから論文のリンクへ飛ぶことができますので、興味がある研究に関しては、ぜひ論文を読んでみてください！

Real-time Personalization using Embeddings for Search Ranking at Airbnb

Applied Data science track best paper。

本研究では主に以下のような提案が行われています。
1) Airbnbにおけるリスト (宿泊先) を直近の閲覧履歴から推薦 (short-term interest)
2) user-typeを定義したときに個別のuser-typeに対して適切なlist-typeに所属するlistを推薦 (long-term interest) というように、個別のニーズにあわせて推薦

それぞれの概要として、
1) item2vecを拡張した(拡張と呼ぶのかは厳密にわかりませんが) list embeddingを提案しており、同一セッション中の list id を系列とみなした embedding を行っています。 Negative として扱いたいデータセットを個別に作成し Negative sampling を行うなどの学習時の工夫が行われています。

2) user-type から list-type を推薦するために、それぞれを同一の空間に埋め込むための方法について述べられています。具体的には、金額や location などの属性を適当なビンで区切り、user_location_a_price_b のように type を作成し、list-type についても同様の方法で分けることで list id や user id をひとつ抽象化した id を作成し、その後、あるユーザーの予約完了までのセッション中での user_type a -> list_type b -> list_type c を系列とみなし学習しています。

Airbnbの他のサービスと大きく異なる点として、宿泊の予約を行ったユーザーをホストが拒否することができ、type embedding では、この host reject をNegative sample として恣意的に組み込むことでうまく学習させています。
Negative Sampling時にrandom samplingするのではなく、検索時のコンテキスト上離れているべきサンプルを集めたデータセットを用いることで上手く学習出来るというのは、幅広い応用分野がありそうだなと思いました。

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

これまでのNeural Netへ拡張したFactorization Machine (Neural FMやDeepFM) ではたかだか二次の項までしか考えられていないという問題がありました [Huifeng Guo, 2017] [Xiangnan He, 2017]。
本研究では、各層の高次交互作用をField数: M×Embeddingの次元数Dの隠れ層に圧縮することで、層の深さによって字数をexplictに制御可能にしたCINモデルを導入しています。特徴量のField数をMとしたときに、交互作用項を計算する際の直積計算をM×Mの画像とみなすことで、各層では高次の交互作用を計算するフィルタのような働きをしていると考える事ができるとしており、実際に実装では、M×Mのベクトルに対して1次元CNNを行い、フィルタの数を次の層のField数とするといった実装上の工夫が行われていました。また、トイデータではなく、現実世界のデータセットを用いて精度評価を行っています。

Deep Neural Net with Attention for Multi-channel Multi-touch Attribution

AdKDDで発表されたDeep Learningを活用したアトリビューションモデルを構築する研究です。
アトリビューションモデルとは、マーケターが集客投資により得られるリターンを最大化する予算配分を行うために、集客チャネルごとのコンバージョンへの貢献を評価するモデルのことです。
この研究では、ルールベースではなく、LSTMを活用したモデルとコントロール変数を考慮したモデルを組み合わせることで、Multi-touch attribution,time decay,user contextを踏まえたアトリビューションモデルを提案しています。
アトリビューション分析はWebサービスを運営している企業であればどこでも用いている手法なので、複数チャネルの貢献や、時間的価値の減少がもたらす様々な観点をDeep Learningで表現しようと試みていた部分が面白かったです。この研究のようなアプローチを活用して、集客チャネルの評価や広告宣伝費のシミュレーション等に活かせないか考えてみたいと思います。

I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social App

Snapchat内の行動データを使い、”User Clustering”と”Churn rate(離脱率)の予測”を行っている研究です。まず、クラスタリングで6つのタイプ(All-star,Chatter,Bumper,Sleeper,Swiper,invitee）に分類し、インサイトについて分析を行っています。そしてクラスタリングを踏まえたLSTMモデルを活用し、離脱率の予測の精度が向上させたという結果でした。離脱率に関する予測ニーズはAppだけに限らず、あらゆるWebサービスで存在しているため、リターゲティングなどに活用ができそうな印象を受けました。

おまけ

ロンドン到着後、道に迷っている様子。事前にホテルまでのルートをちゃんと調べてから行くべきでした…。

初日のホテルで食べたFish&Chips!!食事を心配していましたが、事前にレビューを見れば、美味しい店にたどり着けます！笑

最後に

皆さん、KDD2018の研究紹介いかがだったでしょうか？論文はすべてKDD2018のホームページ上で公開されているので、ぜひ興味があったものは読んでみてください！

そして、もしこういった海外の最新研究に興味がある！ビジネスにそれを役立ててみたい！と感じた方、ぜひ一緒にリクルートテクノロジーズで働いてみませんか？詳細は下記リンクから！

https://recruit-tech.co.jp/recruitment/mid-career.html

ありがとうございました！！

タグから見つける

タグから見つける

職種を選択

事業領域を選択

KDD2018＠LONDONに参加してきました！

研究紹介

Real-time Personalization using Embeddings for Search Ranking at Airbnb

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

Deep Neural Net with Attention for Multi-channel Multi-touch Attribution

I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social App

Stable Prediction across Unknown Environments

Risk Prediction on Electronic Healthcare Records with Prior Medical Knowledge

Customized Regression Model for Airbnb Dynamic Pricing

おまけ

最後に