Technosphereの講義。 2学期。 情報検索システムを構築する最新の方法と手段





私たちの教育セクションが放送されました。 今回は、情報検索に関する次のTechnosphereコースに慣れることをお勧めします。 このコースの目的は、検索エンジンの作成に使用される主な方法について話すことです。 それらのいくつかは創意工夫の良い例であり、いくつかは現代の数学的装置をどこでどのように適用できるかを示しています。 コースの教師:アレクセイ・ヴォロパエフ、ウラジミール・グリン、ドミトリー・ソロヴィョフ、イゴール・アンドレーエフ、アレクセイ・ロマネンコ、ヤン・キーゼル。



講義1.情報検索の紹介。 検索エンジンアーキテクチャの概要



情報検索のタスクの定義。 検索エンジンの例。 情報の検索に関連するタスク。 検索エンジンの開発の歴史。 情報検索の論理モデル、そのタスク。 ブール検索の原理。 マトリックス「期間文書」。 逆インデックス 語彙と座標ブロック。 逆インデックスを作成します。 トークン化とソート。 辞書と座標ブロック。







講義2.言語学



言語学とは何か、その仕事は何か。 科学としての言語学の起源と発展の歴史。 言語学、その多様性によって解決されるタスク。 一般言語学:音声学、音韻論、形態学、構文、意味論、語用論。 歴史的言語学。 言語類型学。 社会言語学。 弁証法。 辞書編集。 心理言語学。 数学言語学。 統計言語学。 言語へのアプローチ:合理的かつ経験的。 形態。 コーパス言語学。 一致、Zipfの法則、修正、およびマンデルブロの公式。







講義3.ワープロの基礎



ドキュメントの基準、エンコード。 言語分析のレベル。 トークンと用語。 言語検出:書記法、N-gram、および字句アプローチ。 正規化 トークン化の問題。 ギャップの有無。 中国語、日本語、アラビア語。 アクセントと発音区別記号。 等価クラス。 小文字。 ストップワード。 補題。 ステミング。 予測。 言語の種類。 同音異義語の統計的除去。 テキストを文章に分割します。 検索クエリ拡張。







講義4.コロケーション



確率計算方法:パラメトリックおよびノンパラメトリックアプローチ、標準および二項分布、多項および正規分布、近似。 統計に対するベイズのアプローチ。 コロケーションの定義、その兆候。 バイグラムの頻度。 品詞でフィルタリングします。 偏差、偏差のヒストグラム。 コロケーション検索、t-criterionアプリケーションの例。 使用法の違いを検索します。 ピアソン基準。 x 2基準。 信頼性比の基準。 相対頻度。 相互情報。 スパースデータ。 Fメジャー。







講義5.言語モデル。 Nグラム。 マルコフ連鎖



言語認識の目標。 言語モデル。 言語モデルを使用して検索します。 基本的なデータ不足の問題。 N-gramの構築。 最尤法。 スムージング。 モデルの検証。 モデルの線形混合。 マルコフ連鎖。 遷移マトリックス。 条件のシーケンス。 隠れマルコフモデル。 HMMの3つのタスク。 前方および後方のアルゴリズム。 Viterbiのアルゴリズム、Baum-Welsh。 NMM Taggerのアプリケーション。 ユーザーの行動の分析。







講義6.機械翻訳



機械翻訳の定義とタスク。 機械翻訳の歴史。 機械翻訳のアプローチ:ルールベース、コーパスベース、ハイブリッド。 3つの主な方法。 RBMT、SMTとの比較、その長所と短所。 平行ハウジング。 オファーの調整。 単語ベースのモデル。 モデルIBMモデル、その制限。 フレーズモデル:句の統計的翻訳、翻訳の確率の計算、言語モデル、翻訳モデル、フレーズテーブルの構築。 デコード。 機械翻訳の評価。 BLEU(バイリンガル評価の調査)。 機械翻訳の進化。







講義7.インデックス付け



検索ベースの一般的なスキーム。 逆インデックス割り当て。 技術的な制限とディスクサブシステム。 逆インデックスの構成とその構築オプション。 ブロック交差の最適化。 座標ブロックの圧縮:ビット単位アプローチとバイトアプローチの比較:フィボナッチコード、VarByte、ガンマコード、Simple9。 インデックスのボリュームを減らすための実用的なヒント。 辞書の作成に使用されるデータ構造。 ストップワードの保存へのアプローチ。 大量のインデックス作成の問題。 ドキュメントの配布とデータベースのバランス。 インデクサーアーキテクチャ。







講義8.ウェブ検索のアーキテクチャ。 テキストランキング



検索エンジンの論理図。 検索クラスター。 インデックス作成。 ブール検索。 重量計算。 ジャカード係数。 周波数行列。 「言葉の袋」モデル。 用語の頻度。 対数計量。 文書の頻度。 IDF ベクターとしてのドキュメント。 テキストのランキングを最適化する方法。 IDFが優れた用語。 リクエストから多くの用語を含むドキュメント。 静的重量、総重量。 エシュロン。 インデックスクラスタリング。 パラメトリックインデックスとゾーン。 フィールド(数値ゾーン)。 ゾーンのインデックス。 エントリーのコンパクトさ。 確率的検索。 検索時に言語モデルを使用します。 モデルを比較するためのオプション。 リクエストとドキュメントの信頼性。 モデルの比較。 関連性に関するフィードバック。 バイナリ確率モデル。 ランキング問題におけるベイジアンネットワーク。







講義9.検索結果のデザイン。 スニペット。 検索品質評価



さまざまなリソースの検索結果のページデザインの例。 SERPのコンポーネント。 オーガニック検索結果。 段落を強調表示します。 文への内訳。 スニペット形成、一般的な形成アルゴリズム。 スニペットの強化。 スニペットメトリック。 評価者による評価。 検索エンジンの品質指標。 検索品質。 標準コレクション。 トレック。 精度/完全性。 純粋な関連性に対する批判。 マーカーテスト。 周辺サイトを検索します。 地域ナビゲーション。 テーマ検索。 全体的な検索品質。 評価サービス。 文書の関連性の評価。 相互検証 SOMカード。 自動エラー追跡。 オンライン指標。 仮説の評価。 メトリックをクリックします。 評価者との相関。







講義10.ウェブ検索の特徴。 くも



検索の使用の人気。 検索エンジンの歴史。 Web検索の基本。 ユーザーのニーズ。 ユーザーによる検索結果の経験的評価。 Webドキュメントのコレクション。 検索広告、ランク付けの方法、賛否両論。 クモ、彼の仕事。 URLのキュー。 ロボットを検索します。 クモの主要なアーキテクチャ。 解析:URL正規化。 分散スパイダー。 サーバーの相互作用。 メルカトル回路。 フロントキュー、バックキュー。 ベースの鮮度。 ディープWeb(アクセスできないサイト)。 サイトマップ。 文書の保管。 ノイズ除去。







講義11. Web上で重複を検索する



文書の比較:正確かつ不正確な複製、ほぼ複製、印刷バージョン。 類似文書を識別するための3つのステップ。 帯状疱疹(帯状疱疹)、圧縮のオプション。 複数モデル、マトリックスモデル。 同様の列を検索します。 署名。 同様のセットの識別(ミンハッシュ)。 同様のカップルを検索します。 ミンハッシュ署名からの候補者の選択。 局所性に依存したハッシュ。 部品およびバスケットの配布。 LSHの妥協。 Web上で重複を検索します。







講義12.検索エンジンでの自己組織化マップの使用



講義は2つの部分に分かれています。 最初の部分:検索エンジンスパイダーの優先順位付けの問題、大規模サイトを部分にセグメント化するアルゴリズム、およびセグメントをポンピングするための優先順位の割り当て。 2番目の部分:Kohonen自己組織化マップ(SOM)を使用した大量のデータの分析と視覚化のためのアルゴリズム、Webの構造の分析と検索ロボットの優先順位付けタスクでのこのツールの使用、SOMを使用して検索エンジン開発のさまざまな領域のデータを分析する可能性







講義13.ページコンテンツ分析に基づくスパムサイトの検出



ガベージ検索インデックスのクリーニングのさまざまな側面。 分類子の構築の問題。 機械学習の基本的なトピック:学習セットの正しい構築、属性の生成、分類アルゴリズムの選択。 さまざまなデータクラスの分類子を構築する際の問題。







講義14.行動と参照のランキング



行動関連性の計算。 アンカーテキストのインデックス作成。 HITSアルゴリズム、ページランク。 ブロック構造法。 グラフ処理システム。







講義15.機械学習によるランキング



クラシックランキング。 ランキング要因。 機械学習に基づいたランキング。 機械学習ランキングのタスクの詳細。 問題の正式な声明。 勾配降下。 決定木。 不注意な決定木。 決定木の上のアルゴリズム合成(バギング、ブースティング)。 スタッキング。 BagBooアルゴリズム。 トレーニングデータの構築の問題。 アクティブラーニング。 サンプリングの不確実性。 積極的な学習の委員会の方法。 自己組織化マップを使用して、トレーニングデータをサンプリングします。 アクティブランキングトレーニング用のSOM + QBagアルゴリズム。







以前の問題



テクノパーク:



Technosphere:



テクノパークとテクノスフィアのYouTubeチャンネルに登録してください!



All Articles