Technosphereの講義。 2学期。 情報検索(2016年春)

品質が当然であると考えられている現代の検索システムは、複雑なソフトウェアとハ​​ードウェアの複合体であり、その作成者は、大量の処理されたデータから始まり、検索結果の人間の知覚のニュアンスで終わる膨大な数の実際的な問題を解決しなければなりませんでした。 テクノスフィアの第2学期、「情報検索システムを構築するための最新の方法とツール」の過程で、検索エンジンの作成に使用される主な方法について説明します。 それらのいくつかは創意工夫の良い例であり、いくつかは現代の数学的装置をどこでどのように適用できるかを示しています。



コースの作成者-ポータルMail.Ruの検索エンジンの作成者-は、人工知能システムの開発における自身の経験を共有しています。 このコースでは、検索エンジンを実行し、テキスト処理タスクを自然言語で解決すること、およびそのような問題を解決するために使用される方法と手段がどれほど面白いとエキサイティングかを説明します。



講義1.「情報検索の紹介」







Mail.Ru Search推奨グループの責任者であるAleksey Voropaevは、情報検索の概念の定義を提供し、既存の検索エンジンの概要、インデックス作成と検索クラスターについて説明します。



講義2.「ウェブ検索の機能。 ロボットアーキテクチャの検索»







この講義では、検索エンジンの歴史、ウェブ検索の最新の基本、ユーザーの好み、検索結果の経験的評価について学びます。 講義は、Mail.Ru Search Infrastructure GroupのヘッドであるJan Kiselによって行われました。



講義3.「クローラーの優先順位付け」







ランキンググループのトップデベロッパーであるDmitry Solovievが検索ロボットについて語ります。 クローラーの概要、サイトクラスターの分析に関する情報、クォータの実験、インデックス品質の決定などを提供します。



講義4.「検索エンジンでの自己組織化マップの使用」







Dmitry Solovyovは、データ分析と視覚化の問題を解決し、検索エンジンで自己組織化マップを使用するためのオプションについて話し、優先順位付けのためのセグメントの識別と分析に関するセミナーを開催します。



レクチャー5.「重複ドキュメントの検索」







Jan Kiselは、重複とそのタイプを定義し、シングリング(シングリング:ドキュメントをセットに変換する)の例を示しています。 ミンハッシング(大きなセットを短い署名に変換する)やスケーリングのトリックなど、同様のドキュメントを識別するためのすべての手順をカバーしています。



講義6.「重複するドキュメントを検索します。 パート2」







前の講義の継続。 Ianは、ページバインディング、テキストの正規化、グローバル検出を削除する方法について説明し、テキストと画像のテイクで次に何をするかについての情報で講義を終了します。



講義7.「インデックス付けとブール検索」







インデックス作成および圧縮方法へのアプローチが考慮されます。 インデックス検索とは、リストをすばやく横断するためのアプローチとは、ウェブ上のさまざまな圧縮オプションです。 講演はJan Kiselによって行われます。



講義8.「逆インデックスを最適化する方法」







Janは索引付けのトピックを続けています。 今回は、インデックスディクショナリの作成、ビッグWebでの結果の収集、およびメモリを操作して悪魔を書くときに存在する機能に焦点を当てます。



講義9.「検索インデックスのクリーンアップ:スパム対策」







コンテンツフィルタリングに関する最初の講義。 このパートでは、検索エンジンでのスパムへの露出の方法と反作用の方法を扱います。 Dmitry Solovievは、スパムコンテンツを検出し、ページコンテンツ分析に基づいてスパムを検出する方法を示しています。



講義10.「検索インデックスのクリーンアップ:antiporn」







フィルタリングの2番目の部分:今回はポルノとの戦い。 このタスクには、スパム対策方法とは対照的に、他のアプローチが必要です。 畳み込みニューラルネットワークの操作に基づく方法を含む、要求、Webページ、および画像をフィルタリングする手法が検討されています。



講義11.「マイクロディストリビューション。 エンド検出器を提供»







応用言語学者イゴール・アンドレーエフは、スニペット(検索結果でリンクの説明として使用されるテキストの断片)に講義を捧げました。 Igorは、検索エンジンの設計、セマンティックWeb、RDF(リソース記述フレームワーク)、マイクロマークアップ、およびスニペットとの適合性について説明しています。



講義12.「スニペットの構築」







スニペットに関する講演の第2部:自動要約の要約、オーガニックスニペットの形成への移行、短い直接インデックスデバイス、および最後の部では、スニペットの品質の評価を行います。



講義13.「タイプミスの修正。 サジェス。 改革»







クエリ分析グループの長であるYevgeny Chernovは、検索クエリのタイプミスを修正するために2つの講義を行いました。 ユージーンは、エラーの種類、タイプミスの簡単な検索、レーベンシュタイン距離、言語モデル統計、置換オプションの生成、さまざまな種類の修正について説明します。



講義14.「サジェスト、再定式化、分類子」







最後の講義では、Evgeny Chernovが検索のヒント(sagestas)、再定式化(特定のクエリに共通するクエリのセット)、およびさまざまな分類子のグループ全体について説明します。



すべての講義のプレイリストはこちらにあります 。 テクノパーク、テクノスフィア、テクノトレックの各プロジェクトのITスペシャリストによるプログラミングに関する実際の講義とマスタークラスは、テクノストリームチャンネルで公開されてます。



All Articles