この記事はランク学習(Learning to Rank) Advent Calendar 2018 - Adventarの10本目の記事です
この記事は何?
以下の記事の続編です。
szdr.hatenablog.com
szdr.hatenablog.com
この記事ではSIGIR 2013・2014・2015のランク学習に関するセッションを取り上げていきます。
SIGIR 2013
この年からしばらく"Learning to Rank"と名のついたセッションは無くなっています。
似たようなセッションとして、SIGIR 2013では"Retrieval models and ranking"というセッションが生まれています。
なので、"Retrieval models and ranking"セッションにおいて、ランク学習に関連する研究を紹介します。
Personalized ranking model adaptation for web search
発表資料を見つけました。
- 検索結果のランキングをユーザー毎に出し分けしたい(パーソナライズ)
- ランク学習手法で広く使われているRankNetやRankSVMで学習し得られたパラメータを線形変換し、パーソナライズを達成
- クエリの特性(繰り返し検索される?)やユーザーの特性(heavy/medium/light)に注目しながら精度評価し、既存手法よりも高い精度
A novel TF-IDF weighting scheme for effective ranking
- TF-IDFの新しいバージョンを提案
- クエリの長さを考慮したTF-IDF重み付けになっている
- 既存のTF-IDF手法よりも高精度
SIGIR 2014
SIGIR 2014はランク学習っぽいセッションが見当たらず。。。ってかSIGIR 2014のセッション名ちゃらくないですか? "#microblog #sigir2014"だの"(i can't get no) satisfaction"だの"how to win friends and influence people"だの。。。全然良いんですけど()
SIGIR 2015
とうとうSIGIR 2015では"Deep Learning"という名のついたセッションが誕生しています。
SIGIR 2015もランク学習セッションは見当たらなかったので、Deep Learningセッションを紹介します。
Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings
(論文がダウンロードできませんでした)
Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks
- CNNをランク学習に適用
- 単語それぞれのembeddingベクトルを考えて、クエリ・文書から得られるembedding matrixからCNNを通して最適化
- Question Answering・Microblog Retrievalについて、既存手法よりも高い精度が得られている
Context- and Content-aware Embeddings for Query Rewriting in Sponsored Search
- スポンサードサーチ広告において、検索クエリを書き換えた結果で広告を引く
- 検索クエリの遷移や単語列から、クエリのembeddingベクトルを求めて、k-NNで似ているクエリを求める
まとめ
SIGIR 2013・2014・2015はあまりランク学習盛り上がって無いですね。。。
SIGIR 2015ではDeep Learningセッションが生まれているのもありますが、この頃くらいからDeepを情報検索に応用する話がたくさん出てきているように見えます。