TAPe画像認識技術の動作メカニズム

こんにちは、カブラフチャン。



最後の投稿についてコメントしてくれたすべての人に感謝します。 本日は、当社が開発したTAPeテクノロジーについて、その本質と特徴を詳しく説明していきます。 また、画像認識の方法についても少し教えてください。



画像認識に興味のある方は、猫の下でお願いします。





技術メカニズム



だから、前回の記事で私たちは、新しい画像認識技術について話しました。 テクノロジーを一般的な用語で説明すると、アクションのメカニズムは次のとおりです。特定のフレームセット(ビデオシーケンス)があり、フレームのリファレンスシーケンス(または1つの画像)もあります。 特定のセットから参照シーケンスを見つけるために、標準およびセットのすべてのフレームに対してイメージが作成されます。これは、イメージを一意に記述する「キャスト」です。



これらの「スナップショット」は、いくつかの重要なスケルトンまたは積分曲線-TAPe形式のファイルです 。 これは、これらの「感想」であり、我々はお互いに比較します。 同じ「キャスト」が見つかった場合、完全に同一のフレームが見つかります。 それ以外の場合は、距離dと呼ばれるフレームの「視覚的類似性」を定義する特別な手段が導入されます。 距離短縮 - 「視覚的類似性」が高いです



デジタル指紋



参照およびソースセットを表すこのアプローチで最も一般的に使用される用語は、デジタルフィンガープリントです。 「デジタル指紋」は、特定の画像を特徴付ける特定の機能セットです。 この場合に考慮される画像への標準の適合性に関する決定は、画像と標準の「デジタル指紋」を比較することによって行われます。 この場合、最も正確に対応する標準、または特定の割合の類似性を満たす標準のセットが選択されます。



計算精度



アルゴリズムの場合、0.175未満の距離(以下、距離スケールは条件付きです)- フレームはほぼ100%の確率で同じです。



論理的な質問は-この数字はどこから来たのですか? 説明します。 一連の実験を実施しました。 たくさん-千以上。 実験の本質は次のとおりです。異なるソース(アナログおよび衛星チャンネルからのテレビ)から記録された2つの明らかに同一のビデオクリップを取得し、 TAPeテクノロジーを使用して各フレームのペアを順次比較し、結果を記録しました。



次に、分布密度をプロットしました。 それで、最初の(青い)チャートを得ました。 その後、フラグメントの1つでフレームのシーケンスを変更し(逆の順序で起動、異なるフレーム数でシフトなど)、明らかに異なるフレームのサンプルを取得し、比較し、結果も記録しました。 そこで、2つ目の(ピンクの)グラフを取得しました(チャート1Aおよび1B)。





図1A。 比較画像は、テープ・テクノロジーを使用した密度の分布のグラフ。





図1B。 TAPeテクノロジー(対数目盛)を使用して画像を比較するときの分布密度のグラフ。



この図は、同じフレームの場合、すべての比較結果が0〜0.175の間隔にあり、異なるフレームの場合、ほとんどすべての結果がこの間隔の外側にあることを示しています。 このグラフは、同じオプションと異なるオプションの同じものについて約150万回の比較の結果を示しています。 これらのうち、異なるフレームを比較するための21の値のみが0.175までの範囲に収まりました。 数学統計の言語では、この場合、第1種のエラー(誤検知)は次のとおりです。

アルファ= 21/1500000 = 0.000014

次に、第2種のエラー(信号のスキップ):

ベタ= 0/1500000 = 0.0



つまり、エラーはごくわずかです。





第1種と第2種のエラーの明確なビュー。



しかし、これはただの実験であり、彼は何を証明していますか? 一番下の行は、 私たちのすべての実験の結果が実質的に同じであるということです。 図は同じに見え、それぞれの場合に、エラーが最小化されます。 そのため、フレームアイデンティティの決定基準として0.175に等しいしきい値を使用します。



「標準」メソッド使用時の精度



比較のために、多くの教科書で説明されている画像を比較する輝度ヒストグラムを比較する最も単純な方法を使用して、同じパラメーター(フレームのペア間の距離)の分析を考えてみましょう。 まったく同じ方法で、最初のケースと同じデータを分析しました。 ダイアグラムの結果:





図2A。 輝度ヒストグラムを比較して画像を比較するときの分布密度のグラフ。





図2B。 輝度ヒストグラム(対数目盛)を比較して画像を比較するときの分布密度のグラフ。



ちなみに、グラフにはエラーが明確に表示されます(しきい値0.48の場合)

アルファ= 0.3055

ベタ= 0.1680



おわりに



膨大な数のビデオデータからモデルビデオクリップをすぐに、優れた完全性と信頼性で検索できる技術を開発しました。 それが最初にテレビでコマーシャルを見つけることに焦点を合わせた理由であり、テレビ信号のソースは重要ではありません-それがデジタルテレビ、ケーブル放送、さらには単純なアナログ放送であっても。



ただし、当社の技術を適用する唯一の機会はテレビの監視ではないと考えています。 それが、Habrazhiteliに目を向けている理由です。おそらく、別のアプリケーションのアイデアをお持ちかもしれません。 現在、APIを開発しており、お客様が当社のテクノロジーを最大限に活用できるようにしています。 APIの将来の機能に関するアイデアを提供してください。開発の際にそれらを考慮します。 PMで提案を送信するか、コメントを残すことができます。 TAPeテクノロジーをできるだけ便利で便利なものにしたいと考えています。



All Articles