2018/7/8-12にSIGIR 2018に行ってきたので、感想を書いていこうと思います。
SIGIRは情報検索分野のトップカンファレンスであり、検索システムやレコメンドなどに関する研究を対象としています。
41回目となる今回は、ミシガン州のアナーバーにあるミシガン大学で開催されました。
7/7(土) 出発日
HND → ORD (Chicago O'Hare Airport) → DTW (Detroit Metropolitan Wayne County Airport)という旅程で行きました。
早速ですが、羽田空港でチェックイン失敗しました。
同行人に搭乗券をセットで予約してもらっていたのですが、その際に僕の名前を間違えて予約してしまったそうです。
空港で搭乗券の名前変更をお願いしたところ、HND → ORDの便は変更していただきましたが、ORD → DTWの便は変更できませんでした (別会社の便なので、それはそう)。
このままだとORDで路頭に迷ってしまうため、出発早々詰みか!?という状況に陥りましたが、その場でORD → DTWの別の便を予約し、日本を発つことができました。本当に心臓に悪かった。。。
日本とミシガン州の時差は14時間もあるので、日本を出発した時刻とおおよそ同じ時刻にDTWに到着しました。早速時差ボケでフラフラになりました。
デトロイト周辺は治安が悪いらしいので、DTWからUberに乗ってとっととホテルへ向かいました。
7/8(日) Tutorial Session
初日はTutorial Sessionの日でした。せっかくなので、今まで触れてこなかったknowledge graphに関するTutorial Sessionに参加しました。
Knowledge Extraction and Inference from Text: Shallow, Deep, and Everything in Between
資料も公開されています。
内容はword embeddingの話から始まり、knowledge graphにおけるentityやrelationのembeddingの紹介、Relation ExtractionやQuestion Answeringなど様々な応用例を紹介していました。
個人的には「あっentityとかrelationもembeddingしたりするんだー」くらいの知識だったので結構辛かったです。。。
Tutorialを理解するにあたって、以下の記事が非常に参考になりました。
yamaguchiyuto.hatenablog.com
Tutorialが終わった後はMichigan Museum of ArtでReceptionがありました。
Receptionついでに絵画見学もできました。全く予習せずに行ったので、ピカソの絵があったなあということしか覚えていません。。。
7/9(月) 会議1日目
会議1日目はOpening Session・Gerard Salton Awardを獲ったKalervo P. Jarvelinによるkeynote・Technical Session・Industrial Sessionがありました。
Opening Sessionでは、Full-Paperの採択率は21%・Short-Paperの採択率は30%と報告されていました、さすが。。。。
投稿数は中国が最多で、次いでアメリカ、後はもろもろと言った感じです。
Opening Session、keynoteの後は1D: Learning to Rank Iと2C: App Search & RecommendationのSessionに行きました。
ランク学習でSession組めるのはさすがSIGIRといったところ。。。
個人的には、で紹介されていた、globalなランキングモデル(RankSVMやLambdaMARTを使っていました)で文書をランキングした後に、localなモデル(GRU)でリランキングするといった話が面白かったです。
GRUの学習はglobalなランキングモデルでhitした上位の文書を用いていて、確かにそうすればlocalな情報を取り入れられるなあ。。。
お昼ご飯はZingerman'sというサンドイッチ(?)屋へ。サイズが大きすぎたが最高に美味しかったです。
https://www.yelp.com/biz/zingermans-delicatessen-ann-arbor-2
7/10(火) 会議2日目
会議2日目はData Science for Social Good & Public Policyというkeynoteからスタート。
データサイエンスと倫理という文脈は、かなり色々なところで語られているなあと思います。(Facebookの広告ポリシーなどなど)
Tutorialも用意されており、かなり丁寧に教育しているようです。
github.com
Technical Sessionは3A: Social Goodと4B: Behaviorへ。
特に面白かったのは、4B: Behavior Sessionのです。
ある文書がクリックされたからといって、必ずしもユーザーが満足したわけではない(即離脱したらその文書は微妙)ので、滞在時間などを加味して満足したかどうかを判定することがあります。
この研究ではニュースストリームを対象としており、記事を読む前・読んだ後でユーザーの満足度を測っていました。
文書を読む前と後とで満足度を定義するのは良いなあと思いつつも、どうしてもユーザーインタビューが挟まってしまうのがなんとも。。。
2日目の夜はHenry Ford Museumにてバンケットが開かれました。Henry Ford Museumはミシガン大学から1時間くらいバスに乗ったところにあり、遠すぎる〜〜〜以外の感情を失いました。
音楽に合わせて踊る情報検索研究者の様子です↓
Was completely oblivious to the dancing talent of the IR researchers until now! ;) #sigir2018 pic.twitter.com/kOzlt2oziI
— Sudarshan Lamkhede (@__sudarshan__) 2018年7月11日
7/11(水) 会議3日目
バンケットが遅くまでやっていた & 会場が遠かったので完全に睡眠不足でした。
この日は5C: New Metrics、6D: Mobile User Behavior、7B: Content & Semanticsへ。
5C: New Metricsは大盛況でした。
It turns out that metrics is still the most popular session at #sigir2018 pic.twitter.com/c5hrzZlUkG
— Ian Soboroff (@ian_soboroff) 2018年7月11日
情報検索の評価ではMAPやらNDCGやらUtilityなど色々提案されていますが、評価指標って本当に難しいと思います。
まあ、だいたい皆さんNDCGで評価しているわけですが。。。
この日はPanel Sessionがあったのですが、ちょうど同じ時間帯でWorld Cupの試合があり、Panel Sessionそっちのけで観戦している人がたくさんいました。
World cup session at #sigir2018 well attended pic.twitter.com/qNhB8rBHUe
— Mark Sanderson (@IR_oldie) 2018年7月11日
The dilemma of choice: a future of IR panel or World Cup football? #sigir2018 pic.twitter.com/YJvAqXA5ER
— Iadh Ounis (@iadh) 2018年7月11日
Panel Session・Closing Sessionも終わり、本会議はとりあえず終了です。
夜はスペイン料理屋に行き、デザートにBlank Slate Creameryというアイスクリーム屋に行きました。
7/12(木) 会議4日目 (最終日)
最終日はworkshopの日であり、今回のSIGIR参加最大の目的であるSIGIR eComというeコマース領域に関するworkshopに参加しました。
eCom workshopでは、Rakuten Data Challengeという機械学習コンペを開催していました。
タスクとしては、商品のタイトルからカテゴリを予測するというシンプルな課題(とはいえ、情報はタイトルしか無いので難しい課題)でした。
実は私もこのコンペに参加しており、弊チームは2位を獲ることができました。
コンペで用いた手法を、ポスター発表で紹介してきました。
— SIGIReCom (@SIGIReCom) 2018年7月13日
(1枚目の写真の後ろの方にチラッと写っています)
2位を獲ったからか、他のチームが試していない手法を使っていたからか、結構多くの人が聞きに来てくれました。
(英語力不足で詳細な説明ができなかったのが悔やまれる。。。)
コンペの内容や各チームの手法はaccepted papersにまとまっています。
7/13(金) 帰宅日
出発時にトラブルがあったので無事帰れるかどうか不安でしたが、特に何事もなく日本に無事帰還し、これにて私のSIGIR 2018は終了です。
まとめ
さすがSIGIRというか、非常に丁寧な研究がたくさんありました。多くの研究がデータセットやプログラムも公開しています。
あと、搭乗券の名前はしっかり確認しましょう。