Technosphereの講義。 情報検索。 パート2(2017年春)

画像







情報検索に関するトレーニングコースの第2部に注目してください。







すべてのインターネットユーザーは検索エンジンの経験があり、定期的にクエリを入力して結果を取得します。 検索エンジンは非常に馴染みのあるものになったため、15年前はまったく違っていましたが、かつては存在しなかった現代の検索の品質が当たり前だとは考えにくいです。 しかし、最新の検索システムは最も複雑なソフトウェアとハ​​ードウェアの複合体であり、その作成者は、大量の処理済みデータから検索結果の人間の知覚のニュアンスに至るまで、膨大な数の実際的な問題を解決する必要がありました。







このコースでは、検索エンジンの作成に使用される主な方法について説明します。 それらのいくつかは創意工夫の良い例であり、いくつかは現代の数学的装置をどこでどのように適用できるかを示しています。







講義リスト:







  1. 言語学。 ワープロの基本
  2. コロケーション、N-gram、隠れマルコフ連鎖
  3. テキストのランキング。 言語モデル
  4. 検索品質評価。 分割 評価者
  5. 参照ランキング
  6. 行動ランキング
  7. ランキングの機械学習。 パート1
  8. ランク2を学ぶ
  9. ニューラルネットワークを使用した検索
  10. トリッキーなテキストランキングモデル
  11. マルチメディア検索


コースリーダー:









講義1.言語学。 ワープロの基本





最初の講義では、ランキングの段階、基本的な用語について学びます。 言語文書処理、正規化、およびトークン化の主要な段階を理解します。 クエリ処理、エンコード変換、およびオブジェクト抽出の問題が考慮されます。 文書の言語の決定、同義語の決定、クエリの拡張、末尾の切り捨ての問題について説明します。 語彙化、および言語ワードプロセッシングの他の多くのタスクが考慮されます。







講義2.コロケーション、N-gram、隠れマルコフ連鎖





2番目の講義では、コロケーション、テキスト内の検索方法、N-gram、ワードプロセッシング用マルコフモデル、隠れマルコフモデル、タグ付けなどのトピックを扱います。







講義3。テキストランキング。 言語モデル





ランク付けされた検索とは何かを学び、ベクトルおよび確率的ランク付けモデル、および潜在モデルに精通します。







講義4.検索品質の評価。 分割 評価者





検索品質評価の問題のステートメントが考慮され、メトリックのタイプ、標準コレクションが議論されます。 バイナリ検索とランキング検索を評価するための方法論について学び、マーカーテストと評価者に精通します。 講義では、割引累積ゲイン、A / Bテストおよび分割のトピックも取り上げます。







講義5.参照ランキング





講義は、リンクランキングの出現への歴史的な遠足から始まります。 ランキングを実行する必要があるさまざまな検索クエリの問題が示されています。 アンカーテキストにインデックスを付ける方法、参照グラフとは何か、その作成方法を学習し、HITSアルゴリズムに精通します。 講義の大部分は、PageRankの計算という大きなタスクに当てられています。 最後に、SiteRankの計算のトピックについて説明します。







講義6.行動ランキング





講義では、ユーザーの行動に関する情報の入手先、このデータの適用方法について学習します。 ユーザーの行動のモデルを構築するタスクと方法、検索セッションの分析が考慮されます。 ビヘイビアモデルについて説明します:CTR、基本、カスケード、DCM、UBM、CCM、GCM、CRA、PRM、MEM、JRE。 異なるモデルが比較され、それらの長所と短所が分析されます。 動的ベイジアンネットワークを使用するユーザーの検索結果の関連性と魅力の問題が考慮されます。 ClickRank、ブラウザランク、最後に計算する問題-ページを表示する際のユーザーの目の動きの追跡に触れます。







講義7.ランキングにおける機械学習。 パート1





用語が設定され、タスク自体がランキングを実行するように設定されます。 ランキングに必要な要素が考慮されます。 DCGランキングアルゴリズム、ポイントワイズおよびペアワイズアプローチの理解。 線形SVMランキングモデル、RankNetおよびLambdaRankの手法について説明します。 再トレーニングアルゴリズム、正のフィードバック、ノイズの多いデータの問題が考慮されます。 次に、アクティブマシンラーニングのトピックがあります。密度サンプリング、自己組織化カード、SOMカードを使用したデータセットのバランス、クエリごとのアルゴリズム。







講義8.ランキングにおける機械学習。 パート2





前の講義の続きでは、YetiRankランキングアルゴリズムが考慮され、以前に考慮されたLambdaRankアルゴリズムとの比較が行われます。 さらに、いわゆるListwiseランキングアプローチから学びます:SoftRank、AdaRank、およびListNetアルゴリズムについて説明します。 結論として、ポイントワイズ、ペアワイズ、リストワイズの3つのアプローチを比較します。







講義9.ニューラルネットワークを使用した検索





講義は、個人の写真に関する情報の検索に専念しています。 検索の問題について説明し、分析用の写真を準備する手法、およびニューラルネットワークを使用した分析のさまざまなアプローチを検討します。







講義10.難しいテキストのランキングモデル





従来のテキストランキングモデルの欠点、LSAとWord2vecの欠点が考慮されます。 以下では、教師以外のランキングモデルについて説明します。Doc2vec、セマンティックハッシュ。 次に、機械翻訳に基づいたランキングモデルについて説明します。統計的な機械翻訳とは何か、テキスト処理の実行方法、WTMアルゴリズム、単語やフレーズに基づく機械翻訳が考慮されるかについて説明します。 講義の最後の部分は、ニューラルネットワークに基づくモデルのランク付けに専念します。シャムニューラルネットワークについて説明し、DPM、DSSM、およびCLSMモデルについて検討します。







講義11.マルチメディア検索





講義は2つのパートで構成されます。 最初の部分は、注釈、写真、音声およびビデオによる検索に専念します。 2番目の部分は、コンテンツ、および写真と音声による検索に専念します。










すべての講義のプレイリストはこちらにあります 。 テクノパーク、テクノスフィア、テクノトレックの各プロジェクトのITスペシャリストによるプログラミングに関する実際の講義とマスタークラスは、テクノストリームチャンネルで公開されてます。







HabréのTechnosphereの他のコース:









最近の記事で、すべての教育プロジェクトに関する情報を見つけることができます。








All Articles