よろしければ、紹介も背景もなしに始めます。
現在の検索エンジン(主にインターネット検索エンジンを含む)は、数学的装置、統計的、確率的、その他の方法に基づいたプログラムです。 いずれにせよ、彼は信じています。 リンクをカウントし、関連性、コンバージョン統計を考慮し、多くの要因(場所、年齢など、さまざまな状況情報)を考慮します。 これにより、最終的に結果が絞り込まれ、結果がフィルタリングされます。 そして最終的には、インターネット上で収集された情報のデータベースへの巨大で、確かにマルチレベルで、今日根本的に非常に複雑なインデックスがあります。 同時に、情報ベース自体もかなり複雑なマルチレベルの構造を持っています。これは今日ではかなり理解できますが、本質は変わりません。 もちろん、ここにはキャッシュ、冗長性、並列化、そして他の人、他の人、他の人がいて、私にとっては非常に重要なリソースを使用する機会があります。 検索せずに今日のインターネットを想像してみてください。 情報検索の分野での進歩が、原則としてインターネットの成長を刺激する主な要因であると断言することさえできます。
ただし、検索エンジンとは何ですか? 検索エンジンは、公開した人と公開したい人との間の仲介者です。 ある電子文書のデジタル形式に変換されたある人の考えと、リクエストの形で提示された別の人の考えの間。 この場合の検索エンジンは、相互作用プロトコルを備えた通信チャネルであり、 人と人との相互作用のチャネルです。 この事実は非常に重要です。私たちは、確かに巨大な道具ですが、ほとんどの場合、人間の相互作用の道具について話しているのです。
先日、私は4年前にhabrahabr.ru/post/31600という記事に出くわしました 。これは、異論、質問、回答があったことに関連して、セマンティック検索の問題、あるいはそのアイデアを扱っています。
1.今日の検索品質。 彼のレベルは? 見込みは何ですか?
理論的には、今日の技術に基づいた検索の最高の達成可能な品質は、リクエストに応じて、最も関連性の高いクエリ応答の記事を1つ受け取ることです! つまり、可能な最大数の因子が与えられると、検索エンジンの数学的装置はこの対応を計算します。 この場合、検索エンジンは誰かが残したものを表示することを理解する必要があります。 コミュニケーションチャネル(検索エンジン)のこの理論的なレベルに達したので、2番目の質問をします。心の観点からの数学的な答えはいくらですか。 結局、返された結果が実際に誰かの質問に対する答えであり、まさに私たちの質問であれば、完璧な答えを得ることができます。 私の目的には、今日の検索レベルで十分です。 つまり、興味のある情報を非常に快適かつ迅速に見つけることができます。 私が知る限り、現在使用されているアーキテクチャの関連性を高めることは、主にプロセスに関連するパラメーターを増やすことによって達成されます。要求に出力の差別化のために利用可能なデータの最大量を含めることです。
2.セマンティック検索-それは何ですか?
コンテンツで検索するか、意味のある検索ですか? 定義については議論しませんが、意味を理解したコンテンツ検索は、まったく異なる技術プラットフォームです。 これは完全に異なるアーキテクチャです。 システムが「私は勉強し、理解し、質問し、答えを作り、答える」ように機能します。 私が今見ているのは、質問と回答の形式の情報を検索することです。これもまた、人々のコミュニケーションです。 これにより、検索エンジンの機能がすべて同じ計算になります。
この問題は、私の興味の範囲、この分野および関連分野での研究、および達成された結果にあります。 キビコムでは、得られた結果が検索フィールドに関連してテストされる応答プロジェクトを実施しています。 ただし、検索は他のアプローチを必要とする唯一の領域からはほど遠いものです。
この方向で作業し、情報の概念、その組織の原則、および処理に至るまで、多くのことを再考しました。 私は、情報を特別な機械指向の形式で提示するという考えが好きではありません。 これは「スマート」なコンピューターには至りませんが、今日のプログラミング(別に言います)で起こったように、多くの専門プログラマーが必要になります。
明日の検索はすでにコミュニケーション担当者<->マシンであると確信しています。 マシンがまったく異なるテクノロジープラットフォームである場合、情報は無意味なバイトの配列ではなくなります。 私はこれらの時代に生きるだけでなく、あらゆる努力をしたいと思います!