ACM SIGIR 2015怜玢テクノロゞヌの䞻な傟向







8月9〜13日に、情報怜玢ACM SIGIRに関する第38回囜際科孊䌚議がサンティアゎチリで開催されたした。 このむベントの䞻なむベントず、孊術環境ず業界の䞡方の芳点から、情報怜玢分野の発展における䞻芁なトレンドをご玹介したす。





ACM SIGIRは、情報怜玢分野の䞻芁な研究者が結果を発衚する今幎の䞻芁な科孊フォヌラムです。 すべおの科孊䜜品は、埓来のレビュヌプロセスの枠組み内で厳栌な競争力のある遞別を受けたすこの堎合、二重盲怜、぀たり著者ずレビュヌアは匿名のたたでなければなりたせん。 この䌚議は、埓来、䞻芁な怜玢゚ンゞンや、怜玢テクノロゞヌの開発に関心のある他の䌁業Baidu、Microsoft、Google、Yahoo、eBay、Facebook、IBM、Yandexが䞻催しおいたした。



䌚堎



この䌚議はチリの銖郜サンティアゎでカトリック倧孊の建物で開催されたした。 そのような゚キゟチックな䌚堎の遞択は、Yahoo 研究所、ならびにその頭の地䜍-有名なチリの探怜家リカルド・バ゚ザ・むェヌツ 。







サンティアゎは察照的な郜垂です。矎しい歎史的建造物ずずもに、ここでは旧垂街の高局ビルを垂内䞭心郚で簡単に芋぀けるこずができたす。 スタむルの倱犁の正圓な理由は、頻繁な地震です。 銖郜には、略奪されるリスクが高い䞍利な地域もありたす。 その自然な特城郜垂は山脈に囲たれた谷にありたすにより、スモッグはサンティアゎでよく芋られたす。 快適なコミュニケヌションのためには、英語が完党に欠けおいるため、基本的なスペむン語が必芁です。 土産物店-ネむティブアメリカンの特質、むヌスタヌ島のモアむ人圢、共産䞻矩者アレンデの肖像、キリスト教のシンボルのワむルドハッシュ。 人々は友奜的で歓迎しおいたす。 䞀般に、あなたが兞型的なラテンアメリカにいるずいう感芚は、時には魅力的で、時にはあたりそうではない、ずいう感芚は去りたせん。







チュヌトリアル



䌚議は、情報怜玢のさたざたなトピックに関する9぀の短いトレヌニングコヌスによっお開かれたした。 非垞に興味深いのは、Manish GuptaBingずMikhail BenderskyGoogleが読んだ長い怜玢ク゚リ 詳现なク゚リによる情報怜玢 のチュヌトリアルであるこずが刀明したした。 チュヌトリアルでは、長いク゚リを解決するためのアプロヌチを玹介したした。これは、原則ずしお、nullク゚リに぀ながりたす。 これらのク゚リは、QAシステムQuoraやAnswers@Mail.ruなどのCQAサヌビスを含む、゚ンタヌプラむズ怜玢、eコマヌス怜玢、音声怜玢アプリケヌションCortana、Siri、Google Nowで珍しいこずではありたせん。



チュヌトリアルの著者によるず、䞻なアプロヌチには次のテクニックが含たれたす。





䞻なプログラム





次の3日間は、䌚議のメむンプログラムの報告に充おられたした。 今幎、メむンプログラムの蚘事の受け入れ率は20でした。぀たり、レビュヌのために送信された蚘事の5分の1が受け入れられたした。 A +クラスの䌚議の通垞のレベルは䜕ですか COREを評䟡。



ちなみに、スポンサヌは蚘事の党文ぞの無料アクセスを支払ったため、誰でも受け入れられた䜜品を知るこずができたす。 い぀ものように、倚くの高品質の蚘事があったので、このレビュヌでは、賞を受賞した蚘事に぀いおのみ、そしおディヌプラヌニングセクションで別に説明したす。







最優秀論文の賞は、ISTIの科孊者チヌムCNR、ピサずノェネツィアの倧孊から授䞎されたした。 圌らはQuickScorerアルゎリズムを提案したした。これは、ツリヌずビット単䜍の論理挔算に特別なバむナリ衚珟を䜿甚し、その結果、回垰ツリヌの孊習枈み加算アンサンブルの䜿甚を高速化したす実際には50以䞊。 Lambda-MARTやGradient Boosted Regression TreesGBRTなどのモデルの実甚的な匷さを考えるず、これは重芁な成果です。 ご存知のように、最新モデルはYandex MatrixNetの基瀎です。



次の賞-なんおうれしい -ロシアに行った。 孊生が曞いた最高の蚘事の賞Best Student Paper Awardは、゚フゲニヌ・ハリトノフ率いるダンデックスの䜜家チヌムによっお受賞されたした゚フゲニヌはグラスゎヌ倧孊の倧孊院生であり、ダンデックスの埓業員です。 この䜜業は 、統蚈テ​​ストの装眮を䜿甚しお、短時間で怜玢品質の比范評䟡に関する実隓を実行する方法を瀺しおいたす。 このアプロヌチは、A / Bテストずむンタヌリヌブの䞡方に適甚できたす。



最埌に、最近のディヌプニュヌラルネットワヌクディヌプラヌニングのアプリケヌションずしお、このようなファッショナブルなトレンドに専念するセクションに぀いお説明したす。 ディヌプラヌニングモデルを䜿甚しお達成された画期的なパフォヌマンスの改善は、画像および音声認識の領域でのみ客芳的に行われたすが、自然蚀語凊理および情報怜玢でのディヌプラヌニングの成功はただ玍埗できたせん。 同時に、ディヌプラヌニングの䞻な利点の1぀-デヌタを衚瀺するための効果的な特性の手動モデリングの必芁性をなくす機胜゚ンゞニアリング-怜玢ずNLPの䞡方でこれらのアプロヌチに泚意を払わざるを埗たせん。 さらに、以䞋の䜜品が瀺すように、これらの分野の改善はより重芁になっおいたす。





埓来は画像認識に䜿甚されおいた畳み蟌みニュヌラルネットワヌクが、ワヌドプロセッシングタスク甚に予想倖に開発されたこずがわかりたした最初の䜜品は文字通り昚幎登堎したした。 これらは、構文および意味の特性を維持しながら、元の文を䜎次元のベクトル空間で衚珟する方法を提䟛したす。 したがっお、文の単語の隠されたスペヌス埋め蟌みのベクトルの列で構成される行列は、ネットワヌク入力に䟛絊されたす図を参照。 埌者ずしお、 word2vecから単語の埋め蟌みを取埗できたす。 次の段階は、文行列の畳み蟌みです。 文行列ずろ過行列の垂盎局の芁玠ごずの積ディヌプラヌニングの堎合、倚くのろ過ベクトルが䜿甚されたすおよび合蚈によるこれらの結果の集玄。 さらに、結果は非線圢掻性化関数この堎合はReLUを介しお枡されたす。 プヌル操䜜は通垞の最倧倀です。



Aliaksey SeverinGoogleずAlessandro Moschittiトレント倧孊、QCRIは、コンボリュヌショナルディヌプニュヌラルネットワヌクによるショヌトテキストペアのランク付けの孊習で、質問応答システムでショヌトテキストをランク付けするタスクのためにこのアヌキテクチャを拡匵する方法を瀺したした。 同時に、芁求ずドキュメントの䞡方が単䞀の衚珟共通ベクトルに倉換され、そのコンポヌネントの盞互䜜甚がニュヌラルネットワヌクの远加の隠れ局を通じおモデル化されたす。



バむリンガル単語の埋め蟌みに基づく単䞀蚀語および蚀語間情報怜玢モデルは、蚀語間の情報怜玢タスクのために、単語の埋め蟌みモデルを敎列されたケヌスのケヌスに拡匵する方法を瀺したす。 そのようなケヌスの䟋は、異なる蚀語のりィキペディアの蚘事です。 䞻なアむデアは、敎列されたドキュメントの参照単語ずコンテキストを混合しお、Mikolovの暙準スキップグラムモデルをトレヌニングするこずです。このモデルは、文の参照単語によっおコンテキストを予枬したす。 提案された関連性モデルは、ク゚リベクトルずドキュメントの近接床のコサむン枬定に基づいおおり、単語埋め蟌みの線圢結合の原理に基づいおいたす。



Yahoo!調査チヌム ラボは 、スポンサヌ付き怜玢で広告を衚瀺するタスクに適合した単語埋め蟌みを取埗するための新しいモデルを提案したした䞻な問題は、広告を甚語で完党に䞀臎しないク゚リに䞀臎させるこずですcontext2vec、content2vec、context-content2vec。 Context2vecは同じスキップグラムモデルを䜿甚したす。ク゚リのみが「単語」ず芋なされ、「セッション」は怜玢゚ンゞンログからのナヌザヌセッションです。 content2vecの堎合、著者はより䌝統的な芋方に戻りたす。「単語」がリク゚ストからの甚語である堎合、「文章」はリク゚ストのテキストです。 最新のモデルは、この2぀の組み合わせです。 モデルの䟋





最埌に、Guocching and Callanカヌネギヌメロン倧孊 は、蚀語モデル、SDM、BM25などの叀兞的なモデルの甚語に重みを付けるための単語埋め蟌みの䜿甚を調査したした。 瀺されおいるパフォヌマンスの向䞊は、BM25で最倧9MAPによる、暙準TRECコレクションの蚀語モデルで最倧22です。



ディヌプニュヌラルネットワヌクの実装に䜿甚されるツヌルのうち、 Theanoは䞻に柔軟性を高めるために䜿甚されたす。 トヌチは高レベルのラむブラリず芋なされ 、業界により適しおいたすが、カスタマむズはより困難です。



科孊的貢献





これは、りェむン倧孊米囜、カザン連邊倧孊、 Textocatの著者チヌムの共同䜜業です。 構造化FSDMドキュメントの新しいランク付けモデルを導入したした。これは、ドキュメントフィヌルドの重みを考慮したよく知られた蚀語モデルの混合MLMモデルの䞀般化であり、シヌケンシャル䟝存モデルSDMはマルコフ確率堎の理論。 ランキング匏は次のずおりです。









ここで、マヌクTは、怜玢ク゚リからのバむグラムOおよびりィンドり内のバむグラムUに連続する甚語を瀺すために䜿甚されたす。 たた、fは、ドキュメントフィヌルドの蚀語モデルの混合に基づくドキュメント内のク゚リからの甚語たたはバむグラムの倖芳の評䟡です。







モデルパラメヌタフィヌルドりェむトwおよびりェむトλは手動で蚭定できたすたずえば、2぀のフィヌルドからのドキュメントスキヌムでwタむトル= 0.8、wボディ= 0.2、およびSDMの暙準りェむトλ=0.8、 0.1、0.1、およびトレヌニングセットがある堎合は、蚘事で提案されおいるように、怜玢品質評䟡のタヌゲットメゞャヌたずえば、MAPを盎接最適化する座暙䞊昇法に基づく単玔な2段階アルゎリズムでトレヌニングできたす。



新しいモデルは、デヌタWeb䞊の゚ンティティ怜玢スクリプトで有効性を瀺し既知のBM25Fモデルずの比范を含む、同時に、耇数のフィヌルドを持぀構造化文曞の怜玢アプリケヌションにも適甚されたす耇数フィヌルドのドキュメント。 そのようなアプリケヌションの䟋は、電子メヌルメッセヌゞ芋出し、本文およびeコマヌスの商品の説明名前、カテゎリ、泚釈、ベンダヌです。 GitHubずプレれンテヌションスラむドの 蚘事 、 ゜ヌスコヌド、スタヌトアップファむルの党文 が 公開されおいたす。



ポスタヌ









ポスタヌセッションは、完党な蚘事でただ完成しおいない結果を提瀺するための別の興味深い圢匏です。 そしお今幎、私はいく぀かの蚘憶に残る䜜品を遞び出すこずができたす。 たず、これは情報怜玢のためのコピュラの䜿甚に関するCarsten Eihoff珟圚-ETH、以前-Delft University of Technologyの䜜業の続きです。 コピュラスによる甚語䟝存性のモデル化で、 Carstenず圌の科孊顧問であるArjen de Vriesは、コピュラを効果的に䜿甚しおドキュメント内の甚語の出珟の䟝存関係を匷調できるこずを瀺したす。 さらに、 ディヌプコンボリュヌショナルニュヌラルネットワヌクを䜿甚したTwitterセンチメント分析 蚀及したセベリンずモスキッティは、トヌナリティ分析問題で考慮されたコンボリュヌショナルニュヌラルネットワヌクを䜿甚、 怜玢品質メトリックの盎接最適化属性倀によっお゜ヌトされたタプルの関連性フィルタリング の䜜品を匷調したす属性によるフィルタリングの際の関連性によるランク付けは、eコマヌス怜玢の重芁なタスクです。



産業





産業甚トラックでは、クラりド゜ヌシングず商甚怜玢でのゞオロケヌションの䜿甚に関するマむクロ゜フトからの報告がありたした。 Yahooは垂盎怜玢の難しさニュヌス、eコマヌスに぀いお; オンラむン怜玢の品質評䟡の偎面に関するYandex。 ブルヌムバヌグは、同瀟が金融アプリケヌションの分野で自然蚀語凊理、機械孊習のランキング、クラりド゜ヌシングをどのように適甚しおいるかに぀いお; 最倧のプロフェッショナル゜ヌシャルネットワヌクの怜玢デバむスで旅行先やLinkedInを掚奚する際のパヌ゜ナラむズに関するBooking.com。







Microsoft Researchの代衚者は、ナヌザヌセッションの䞀郚ずしお、゚ンティティ怜玢Microsoftには独自の知識ベヌス-Satoriをコンテキスト化するBing怜玢゚ンゞンの機胜を瀺したした。 ク゚リチェヌンは、「トムクルヌズ」、「トムクルヌズの劻」、「圌女の身長は」です。 たた、Microsoft Academic Graphで科孊出版物の重芁性を評䟡するためのコンテストであるWSDM Cup Challengeも発衚したした。 タスクの意味は、利甚可胜な意味情報を䜿甚しお、通垞の匕甚数よりも重芁な特性を提䟛するこずです。



おわりに



ACM SIGIRはたすたす産業䌚議になり぀぀ありたす今幎は業界代衚者の蚘事の41。 これは、研究トピックの分垃に倧きな圱響を䞎えたす。ナヌザヌの行動ず怜玢評䟡に関する研究に察しお、より倧きなバむアスがありたす。 さらに、理論ず深局孊習ツヌルの開発の圱響䞋で、適応された単語の埋め蟌みに基づいた怜玢モデルがより普及しおいたす。 最埌に、知識ベヌスWikidata、DBpedia、Freebase、Google Knowledge Graph、Satori、Facebook Graphの開発にもかかわらず、知識ベヌスを䜿甚しお怜玢品質を向䞊させるための新しいモデルを提䟛する䜜業が䞍足しおいたす。



All Articles