画像検索-Googleなど

最初に、画像で検索を整理する方法についてのいくつかの一般的な言葉。

理想的には、写真の内容を分析し、家、湖、または子猫のいる猫があるかどうかを判断し、検出されたオブジェクトのさまざまな特性(色、サイズ、相対的な位置など)を記憶し、これを検索できるシステムが必要です情報。 しかし、残念ながら、今日それは明らかに不可能です。 少なくとも、実際のオブジェクトを写真で確実に強調表示できる方法はありません。

したがって、どのシステムでもあまりインテリジェントでない兆候を分析する必要があり、これらの兆候にはいくつかの異なるタイプがあります。



ボーダーズ

画像

いくつかの境界線割り当てアルゴリズムがあり、それらは非常にうまく確実に機能します。それらの主な問題は、割り当て後、それらをどうするかがまだ不明であるということです。 境界線の相対面積を計算できます-理想的には、「斑点」が画像、または「フラット」であると言えますが、実際にはこの基準はうまく機能しないことがわかります。 境界の画像のフーリエ画像を見てみることができます-これにより、画像にはっきりとした周期的な輪郭があるかどうかがわかります。 それでも、そのような情報は、画像が視覚的にどのように知覚されるかを非常に弱く特徴付けています。 したがって、このクラスの標識は、非常に補助的なものとしてのみ機能します。



テクスチャー

画像

テクスチャとは、隣接するポイント間で明るさと色が大きく異なる可能性があるが、視覚的に均一な領域(草、水面など)として認識される画像の領域です。 テクスチャ間の境界を多かれ少なかれ十分に区別することを可能にするさまざまな方法があり(いくつかの例はここにあります: matlab.exponenta.ru/imageprocess/book2/55.php )、それらは非常に計算コストがかかりますが、実際に使用することができます。 質問はかなり異なります-この情報をどうしますか? 実際、これにより、ボーダーとほぼ同じ機能セット(画像の視覚的な均一性のアイデア)が得られる場合がありますが、これはある意味では優れています。 したがって、これらの兆候は二次的である場合もありますが、その値はいくぶん大きくなります。



SIFTのような署名

画像

SIFT(スケール不変特徴変換)メソッドは、画像上のコントロールポイントのセットを選択し(大まかに言えば、画像の2次導関数が局所的最大値に達する場所で-厳密に言えば、すべてがやや複雑です)、コントロールポイントの相対位置を画像の特性として使用します。 この方法にはいくつかのバリエーションがあります(主にコントロールポイントを選択する他の方法に関連しています)。 この方法のグループは、ある画像が別の画像の変形コピーであるかどうかを調べるのに非常に適しています-ただし、視覚的には似ているが、根本的に異なる2つの画像の類似性を判断するには、この方法は不適切です(たとえば、異なるポーズの同じ子猫の2つの写真は、そのような方法)。 したがって、検索システムでは、データベース内の目的の画像に変更があるかどうかを判断するだけの役割を果たすことができますが、他の意味ではそのような画像を見つけることはできません。





画像

色はおそらく分析にとって最も重要な特性です-なぜなら まず、視覚的に非常に重要なサインです。 2番目に、画像を調べて、どの色が最も頻繁に見つかるかを見つけるのは非常に簡単です。 さらに、原色のほとんどの実際の画像では、通常は6〜7個、多くの場合3〜4個です。 これは不可欠です-なぜなら このような少数の標識により、画像のデータベースでの検索は、htmlページのデータベースでの検索よりも高速に実現できます。



メタ情報

そしてもちろん、ネットワーク上の画像のほとんどがそのようなものではないことを忘れてはなりません-それらは名前とコメント付きのフォトアルバムに整理されているか、いくつかのテキストのイラストであるか、詳細なキャプションや既製のタグさえ持っています。 もちろん、本格的な検索システムでは、画像データベースをテーマ別に構成するために、この情報を最大限に活用する必要があります。これは画像自体を分析することではできないため、回避策で努力する必要があります。



今グーグルについて

実際のGoogle検索を分析すると、彼が最初にやろうとしているのは、「人気のある写真」のデータベースで類似の画像を見つけることです(たとえば、Wikipediaのイラストが含まれています)。 どうやら、いくつかのSIFTのような方法が使用されている-ため それを色補正と混同しようとしても結果は得られませんでしたが(青→緑、その他の色は同様)、ただし、縦横比が20%しか圧縮されていない画像では、この方法は認識されませんでした。

人気のあるデータベースで画像が見つかった場合、Googleはそのコンテキストを上げ、このコンテキストに基づいて同様の画像を表示します。



最も興味深いのは、画像が「認識」されなかった場合に始まります。 この場合、Googleは一連の「視覚的に類似した」画像を提供します-そして、それらの類似性の重要な兆候は、それらが占める領域を考慮して、画像に存在する色の集合にすぎないことを実験的に簡単に見つけることができます-おそらくテクスチャまたは境界に関するいくつかの情報で補完しかし、鍵は確かに色です。



All Articles