私のスピーチの前に、いくつかの人々が私に質問をしましたが、垂直検索エンジンとは正確には何ですか? だから私はいくつかの明確なポイントを追加しました...
垂直検索が任意のトピックに関する構造化された情報として理解されている場合、垂直検索エンジンまたはニッチ検索エンジンのアイデアはまったく新しいものではありません。 インターネットのごく初期(主要なプレーヤーが存在せず、市場が構造化されていないとき)に、ウェブマスターはテーマ別のサイト(自動車検索、自動車に関するニュース、レビュー、自動車関連サイトのカタログなど)を作成しました。
たとえば、 RuNetでは、 Avto.ruは典型的な業種であり、情報は同じトピックで構成されています。 データベースのみがユーザー自身によって補充され、他のサイトからの広告で構成されていません。 価格の比較kelkoo.com (2000年以降)または10年前に登場した商品price.ruの価格のアグリゲーターも、ある程度垂直です。 ベースは、指定された形式でコンテンツエディターを提供することで補充されます。
一般に、この多様性のすべてを混乱させないために、垂直検索を同じ主題のサイトの検索エンジンと見なすことを提案します。vert検索エンジンはトラフィックディストリビューターであり、内部の所有者ではありません。
垂直検索が水平検索よりも優れているのはなぜですか?
1.パイルが小さい。
RamblerとGoogleでクエリ「nissan x-trail new」を入力してみましょう。 トップ10には、...へのリンクがあります...
SERP pos | ランブラー | グーグル |
1。 | ディーラー | ディーラー |
2。 | 自動カタログ | ディーラー-モデルカード |
3。 | ディーラー | 自動レビュー |
4。 | ディーラー | ジーンズ |
5。 | フォトアルバム | レビュー-p3と同じ |
6。 | フォーラム投稿 | カタログ、ラインナップ |
7。 | ニュース-より正確にはゴミ | ニュース |
8。 | ニュース | ディーラー(何らかの理由で、中国の車) |
9。 | ニュース | 復習 |
10。 | ニュース | ディーラー |
ご覧のとおり、ソース(ニュース、説明、価格、カタログなど)の本質と構造がまったく異なる検索結果は、単一の番号付きの長いリストの形式で割り当てられ、実質的にソートする手段はなく、元のデータの構造は失われます。
2.マルチクリック
検索結果はリンクのリストです。 情報を受信するには、ユーザーはこれらのリンクのいずれかをもう一度クリックする必要があります(せいぜい1回)。 ユーザーが比較のための情報(価格、条件など)を探している場合、ユーザーは長い間リンクをクリックすることを余儀なくされ、世界の全体像をまとめるには多くの忍耐が必要です。
3.ごみ
インターネットの大部分はテキストジャンクで構成されています。スパマーサイト、ジーンズ、再版、ゴミ、意図的に歪められた情報-これらのサイトは、特にこのすべてのゴミを宣伝するために大きなリソースが費やされるため、「通常の」サイトと区別することがますます困難になっています。 このような状況では、信頼できる関連情報のソースを特定することがますます難しくなります(客観的なリストの機械的な意味で)。
しかし一方で、水平検索。 インターネット全体をカバーするために、1,000の縦線をカバーすることさえできません(50を超える人気のあるトピックはほとんどありませんが)。
業種は何ですか? または少し分類
情報を受け取ったら:
- コンテンツを自分で収集して正規化します。 「単一の分母に」持ち込みます。 例:( 100works 、 auto.yandeks.ru )。
- コンテンツプロバイダー自体は、単一の形式でコンテンツを提供します。 例:( price.ru )。
- 混合オプション、つまり 自分自身を収集し、サプライヤーからのコンテンツを受け入れます。
- Webベース(選択したサイトで検索)。 例: YellowSearch
件名別:ニュース、mp3ファイル、ビデオ、書籍、プログラムコード、電子機器、辞書。 例は必要ないと思います。
情報の種類別:テキスト、写真、ビデオ、音楽。
地域別(ウェブベース)。 国レベルでは、region-regiona。 たとえば、1つの都市のサイトのみの検索エンジン。
垂直検索エンジンの開発における落とし穴
ここで垂直空席のトピックが拡大しました 。
一般に、問題は次のとおりです。
- 大規模なプレーヤー(市場でデータの大部分を集めた)の無関心。 垂直検索を無効にすると、プレイヤーが共謀するリスクがあります。 (そして、オフライン広告の表示への切り替えは困難です-すべての新聞広告は短く、有益ではないため、形式に適していません)。
- テーマ別の浴場。 同じ業種ですが、オフラインです(プロのプレイヤーが利用できます)。 たとえば、不動産や観光で利用できます。 それらは常に、インターネットに表示されるものよりも関連性が高く、より完全なものになります。
- 業種は収益化が困難です。 クライアントの予算の大部分を占める強力なオフライン競合他社(仕事、観光、レジャーとエンターテイメント、建設、不動産、健康と美容、車、商品など)の存在。
各垂直検索は、可能な限り完全な(ほとんどのデータを含む)、可能な限り関連性の高い、質の高いデータを表示することを目指しています。 1年か2年後には、これらすべてに加えてユーザーに何を提供するかを考える必要があると思います...
なぜベータ版がそれをしたのですか?
ベータ版は実験的なプロジェクトです。 ベータ版は、インターネットサイトのページでの従来の検索の本文に「埋め込まれた」多数の専門(垂直)検索です。 インターネットでの検索の包括性を組み合わせて、トピックごとに検索結果を構造化できます。 ワンクリックでさまざまな情報源を同時に検索できます。
プロジェクトの目的は最も実用的でした:
1.新しいデザイン、インターフェイス、新しい視覚的ソリューション、新しいカテゴリ(たとえば、「レビューとレビュー」)についてユーザーの意見を収集します。
2.統計の収集(垂直の関連性の作業を改善することを含む)。 さまざまな研究。 たとえば、製品名「canon 40d」をリクエストする場合、ユーザーは何を最もよく意味しますか? カメラを購入しますか? レビューを読む? ニュースをご覧ください? そして、あなたが「カード」を要求するとき? 地理的? (そしてどれですか?)グラフィック? ゲーム?
3.収益化。
業種の関連性をどのように判断しますか?
静的関連性
この要求またはその要求がどの垂直に属するかについての仮定があります。 現在、これは特定の主題(垂直の場合)でのクエリワードの頻度+手動で設定されたキーワードと式のリストです。 最初のステップでは、静的関連性と呼ばれるリクエストの初期評価を行います。 評価は、内部QueryBrokerモジュールによって行われます。 静的な関連性には、カテゴリを照会できる下限があります。
動的および結果の関連性
動的関連性とは、クエリに対する自分自身の関連性の垂直評価を指します。 彼女は、いくつかの見積もりに基づいてこの決定を行うことができます-例えば、現時点での照会の結果の数。 動的関連性を決定するためのアルゴリズムは、各業種と個別に交渉されます。
結果の関連性は、主要なパラメーターがstatである式から取得されます。 そしてダイナモ。 関連性、その他のパラメーターおよび定数。 業種は関連性に基づいて並べ替えられます。 rezの場合。 特定の数よりも小さい場合、垂直は表示されません。
関連性を適用し、垂直のシーケンスを描画した結果は、新しい自動垂直で見ることができます 。
Xag
XAGシステム(eXtended AGgregator)は、垂直検索のコアです。 受信した情報の受信、分析、処理、および検索を提供します。 このシステムの独自性は、多くのリソースを費やすことなく、新しい垂直(テーマ領域)に比較的簡単に適応できることです。
データ収集。 サイトごとにパーサーアプリケーションが作成され、htmlドキュメントから必要な情報を選択できます。 たとえば、空席の検索では、空席の名前、会社名、給与、説明などのパラメータが強調表示されます。 さらに、選択は半自動モードで行われます。
データ処理。 それは、一般化と構造化によって得られた情報の分析から成ります。 たとえば、ほとんどの雇用主の拠点があり、雇用主がドキュメントに示されておらず、電話番号のみが示されている場合、雇用主の名前はその番号で判断できます。 また、このデータベースには、雇用主に関する新しいデータを補充できます。 したがって、サイトで明示的に示されていない場合でも、募集代理店を計算できます。 または、たとえば、空席-繰り返し、ネットワークマーケティングなどの疑わしい主題の空席を定義します。 「クリアされた」データから、検索で直接使用される検索インデックスが使用されます。
この場合、式の同義語。たとえば、「ハニー。 保険「および」医療保険」は、同じ用語に対応しています。 ちなみに、会社名にはGoogleやGoogleなどの同義語があります。 また、空席の名前で計画されています:「インターフェイスの専門家」と「使いやすさ」。
Beta 2.0で何が起こるか
カリーニングラードでの会議のすべて、私は今週の終わりに行きます。 彼らはとても美しい街だと言います。
PS「では、古い検索と新しい検索の違いは何ですか? 「まだ探しているものを入力する必要があります...(ユーザーレビューから)。」