👎🏿 🍳 ⌚️ 射影変換のグラフを一致させることにより、接着パノラマの品質を改善する 📵 🤰🏽 🌋

こんにちは、Habr！本日は、接着パノラマの品質を改善する方法の1つについてお話します。平らなオブジェクトのパノラマを接着するために広く使用されているアプローチがありますが、このアプローチには欠点がないわけではないため、改善を提案します。

パンニングのタスクは、一連のソース画像に基づいて1つの合成画像を構築することです（図1を参照）。次のような実用的な問題を解決するためのアプリケーションを見つけます。

衛星またはドローンから地球の表面を鳴らす。
顕微鏡を使用して取得した画像を接着します。
ビデオの接着;
超解像画像キャプチャ。

図1-元の画像とパノラマ

一般に、パノラマ接着アルゴリズムは次のように定式化できます[1]（図2を参照）。最初は、ビデオストリームから十分な数のフレームを抽出する必要があります。これはオンラインで行うことができ、すべてのフレームを順番に読み取り、必要な頻度で個々のフレームを選択します。

図2-特別なポイントを使用したパノラマ接着アルゴリズムの動作のブロック図

その後、セットから画像のペアを順番に並べ替え、特異点を検出し、これらの画像の記述子を計算する必要があります[2–4]。 2つのフレーム間の幾何学的対応を構築することができるのは、これらの特異点です。以下は、記述子に基づいた特異点の比較です。これは、誤った一致を取得する可能性を排除しないことに留意する必要があります。

さらに、特異点の2つのセットがある場合、1つのフレームの点を他のフレームの点に最適な方法で変換する射影変換を見つける必要があります。この問題を解決するには、RANSACアプローチ[5]を使用できます。このアプローチは、[6、7]で詳細に説明されています。

フレーム間の射影変換を検索するために、パノラマを貼り付けるタスクでよく使用される光学ストリームも使用できます[8]。

希望する射影変換のセットを取得した後、画像を接着するための技術的な手順が実行されます。つまり、各チャンネル（RGB）の最終パノラマ（x、y）の各ピクセルについて、ピクセル強度の算術平均が以下を含むすべてのフレームの座標（x、y）そのような座標を持つピクセル。

射影変換を検索する方法を使用して、空間内の前の位置に対するカメラ位置の変位を決定できます。実験室の条件では、これらのデータの計算の精度は、平らな静止物体のパノラマを構築するのに十分です。実際の条件では、前の位置に対するカメラの位置の変位を計算するときに、計算エラーが発生します（測定エラー/干渉/アルゴリズムによって課される制限など）。時間の経過とともに、累積誤差は増加し続け、隣接する位置間の変位を決定する許容可能な精度にもかかわらず、オブジェクトの一般的なパノラマにはすでに重大な偏差が含まれます（図3を参照）。

図3-累積エラー

エラーを累積する問題に耐性のあるフラットな固定オブジェクトをパンするタスクのために、射影変換のグラフを一致させる方法を開発するという目標を設定しました。もう1つの目標は、射影変換のパラメーターの計算方法に依存しない方法でメソッドを開発することです。

次の条件のいずれかを満たす必要があります。

静止した擬似剛体を撮影します。
十分に長い距離から平らに近い物体を撮影する;
撮影中のすべてのカメラ位置について、要件が満たされます。すべての画像ポイントについて、これらのポイントをカメラフォーカスに接続する光線は互いに一致しません。

射影変換のグラフを一致させるためのアルゴリズムの説明

単一の座標系の概念を紹介します。単一の座標系とは、異なる画像からのオブジェクトの同じポイントが同じ座標を持つ座標系を意味します。この要件は、次の式で表すことができます。

f （ x ） = y 、

$f（x）= y、$

どこで $f$ -これは、フレームの共通部分で定義され、最初のフレームのポイントを2番目のフレームのポイントに変換するマッピングです。 $x$ -最初のフレームの座標系のポイントの座標、 $y$ -2番目のフレームの座標系のポイントの座標。

マッピングする場合 $f$ フレームの交差点を超えて正しく継続できる場合、最初のフレームからの情報で2番目のフレームを補完できます。したがって、2つ以上のフレームのモザイクとして接着されたマップが取得されます。

隣接するフレーム間の射影変換を見つけた後、単一の座標系でフレームの一意の位置を設定する初期接着があります（図4を参照）。

図4-地図上のフレームの明確な位置

画像の主要な接着を構築した後、射影変換のグラフが構築されます $G$ ：

G = （ V 、 E ） 、

$G =（V、E）、$

どこで $V$ -射影的に補正された画像の頂点である4つのポイントが多数あります。 $\ vert V \ vert = n$ 、 $E$ -フレーム間の多くの射影変換。 $\ vert E \ vert = m$ 。

頂点間のエッジは、少なくともフレームが交差する場合にのみ構築されます $T \％$ 一次接着（IoU-ユニオンの交差点）（図5、6を参照）：

f r a c s_{i j} s_{i} + s_{j} - s_{i j} c d o t 100 \％ > T \％ 。

$\ frac {s_ {ij}} {s_i + s_j-s_ {ij}} \ cdot100 \％> T \％。$

図5-フレームの交差領域

しきい値 $T$ 2つのフレーム間で射影変換を検索するタスクの条件と、グラフ内の期待されるエッジとサイクルの数とのバランスをとることにより、射影変換の検索に使用される方法に応じて選択されます。

図6-グラフ構築の例

その結果、射影変換のグラフ $G$ 次のようになります（図7を参照）。

図7-射影変換の最終グラフ

グラフにサイクルが含まれる場合（図6を参照）、冗長な情報が表示されます。これには矛盾も含まれる場合があります。どのような矛盾が生じるかを判断するために、特定のグラフサイクルを検討します（図8を参照）。このサイクルを頂点で構成します $1,2、...、k$ 。次に、このサイクルに沿って一連の射影マッピングがあります。

H_{12} ： 1 t o 2 、 H_{23} ： 2 t o 3 、 . . . H_{k 1} ： k t o 1 。

$H_ {12}：1 \ to2、\\ H_ {23}：2 \ to3、\\ ... \\ H_ {k1}：k \ to1。\\$

これらのマッピングの構成を検討してください。

H_{k 1} * . . . * H_{23} * H_{12} = H_{11}

$H_ {k1} * ... * H_ {23} * H_ {12} = H_ {11}$

図8-グラフループ

ディスプレイ $H_ {11}$ 同一のマッピングでなければなりません。マッピングの場合 $H_ {11}$ 同一とは異なり、矛盾が得られたと言います。この場合、サイクルはinconsistentと呼ばれます。したがって、射影変換のグラフに矛盾を完全に接着すると、射影変換のグラフに一貫性のないサイクルが存在することに関連する問題があります。 $G$ 欠席する必要があります。

射影変換のグラフのマッチングアルゴリズム、つまり、すべてのサイクルのマッチングについて説明します。射影変換のグラフでサイクルが閉じられたときに発生する累積エラーを最小限に抑えるために、SLAM（Simultaneous Localization And Mapping）メソッドの概念が使用されます[9]。

各フレームで、一般的な位置にある4つのポイントを考慮します。フレームに番号を付けてみましょう $1$ 前に $n$ その後、4つのポイントは $p_i$ どこで $1 \ le i \ le n$ 。このような4つのポイントのセット $P$ 任意の2つのフレームに対して、1つの4点を別の点に変換する射影マップを一意に見つけることができるため、単一の座標系を一意に定義します。

目的の一貫性のあるグラフを決定する点の4組のセットを見つけるには、最小二乗法を使用できます。関数を最小化します。これは、セットのすべてのエッジの合計に等しくなります。 $E$ 数える $G$ 、および各エッジ-量の4つのポイントの合計 $\ Vert H_ {ij} p_ {is} -p_ {js} \ Vert$ 。関数を最小化する解決策を見つけるために、共役勾配法を使用することが提案されています。

\ sum _ {E（in、j）\ sum_ {s = 1} ^ 4 \ Vert H_ {ij} p_ {is} -p_ {js} \ Vert \ to \ min_ {P}

$\ sum _ {E（in、j）\ sum_ {s = 1} ^ 4 \ Vert H_ {ij} p_ {is} -p_ {js} \ Vert \ to \ min_ {P}$

マップ上のフレームの位置を一意に設定する各フレームの射影変換が完了したら、パノラマ画像を取得できます。

実験結果

これまで、接着画像の品質を評価する普遍的な方法はありません。原則として、接着の品質は専門家によって感覚刺激的に評価されますが、科学的研究のためには、定量的で自動的に計算された品質評価を持つことが望ましいです。

人間の専門家の関与なしに接着の品質を評価するには、結果を比較する標準の接着が必要です。接着が実際のビデオから取得され、オブジェクト全体の写真が標準の接着と見なされるアプローチでは、空間内のカメラの位置を物理的に（センサーを使用して）固定できるマニピュレーターを使用した良好な実験室条件が必要です。ただし、この品質評価方法にはコストがかかります。

[10]では、パノラマボンディングの品質を定量化するために、高解像度の画像を持つ著者は、フレームが元の画像の射影的に歪んだ領域である人工ビデオを作成します（図9を参照）。最初のフレームを基準にして単一の座標系が指定されているため、最初のフレームを除くすべてのフレームが射影されます。さらに、これらの人工ビデオのフレームはパノラマに接着され、元の参照画像とさらに比較されます。このアプローチを使用すると、シーンの歪みだけでなく、取得した接着剤と参照接着剤の輝度の違いの問題を回避することができます。

図9-人工ビデオの元の画像とフレーム

グラフに同意する前後の接着の品質を比較するために、50枚の画像のテストサンプルを準備し、50の人工ビデオを元の画像から作成し、それに応じて接着を行いました（図10を参照）。取得されたすべてのパノラマはソース画像のサイズに縮小され、各パノラマについてエラー測定値が計算されました：

R M S E = s q r t f r a c s u m_{i = 1}^{h} s u m_{j = 1}^{w} （ （ I_{i j}^{R} - h a t I_{i j}^{R} ）^{2} + （ I_{i j}^{G} - h a t I_{i j}^{G} ）^{2} + （ I_{i j}^{B} - h a t I_{i j}^{B} ）^{2} ） h c d o t w c d o t 3 、

$RMSE = \ sqrt {\ frac {\ sum_ {i = 1} ^ h \ sum_ {j = 1} ^ w（（I_ {ij} ^ R- \ hat {I_ {ij} ^ R}）^ 2+ （I_ {ij} ^ G- \ hat {I_ {ij} ^ G}）^ 2+（I_ {ij} ^ B- \ hat {I_ {ij} ^ B}）^ 2）} {h \ cdot w \ cdot 3}}、$

どこで $h$ -画像の高さ、 $w$ -画像の幅 $I_ {ij} ^ R$ -ピクセル強度 $（i、j）$ 結果として生じる赤いチャンネル上のパノラマ（ $G$ -緑チャンネル $B$ -青チャンネル） $\ hat {I_ {ij} ^ R}$ -ピクセル強度 $（i、j）$ 赤チャンネルのソース画像（ $G$ -緑チャンネル $B$ -青チャンネル）。

図10-グラフが一致する前（RMSE = 35.3）と後（RMSE = 14.2）のパノラマ

グラフィック表示では、テストセットのRMSEは次のようになります（図11を参照）。

図11-テストサンプルのRMSE フレームは、グラフが一致するまでRMSEの昇順で並べ替えられます。

マッチング前の二乗平均平方根誤差の各ルート値に従って、グラフのマッチング後の二乗平均平方根誤差のルート値が表示されます。グラフが一致する前のテストサンプルのRMSE値の中央値は35.5で、グラフが一致した後は13.9です。

おわりに

接着の品質を比較した結果に基づいて、グラフを一致させると累積誤差が大幅に減少し、パノラマの接着の品質が向上すると結論付けることができます。ただし、グラフ変換は、射影変換のグラフにサイクルがある場合にのみ役立つことに留意する必要があります。射影変換のグラフにサイクルがない場合、グラフマッチングモジュールはパノラマ接着の品質を低下させません。

グラフマッチングのこの方法は、一連の射影変換で機能し、これらの射影変換が見つかった方法は、この方法では役割を果たさないことに注意してください。

「オフライン」ユーザーケースにのみ適用されるため、将来、アルゴリズムの複雑さを最適化する予定です。

文学

[1] Gubin A.Yu.、Kovin R.V. 重複する画像をパノラマに接着するタスクへの簡単なアプローチ// X学生、大学院生、および若手科学者の国際科学および実務会議「青少年と現代の情報技術」、p。 79-81、2012。

[2] Drummond T.、Rosten E.高速コーナー検出のための機械学習//コンピュータビジョンに関する第9回欧州会議（ECCV）、p。 430-443、2006。

[3] Low- DGスケール不変のキーポイントからの特徴的な画像の特徴// International Journal of Computer Vision、p。 91-110、2004。

[4] Bay H.、Ess A.、Yuitelaars T.、Van Gool L. SURF：堅牢な機能の高速化//コンピュータービジョンと画像理解、v。 110、p。 346-359、2008。

[5] Martin A. Fischler、Robert C. Bolles。ランダムサンプルコンセンサス：画像分析および自動地図作成へのアプリケーションを使用したモデルフィッティングのパラダイム// Comm。 ACMのv。 24、p。 381-395、1981。

[6] Arlazarov V.L.、Bulatov K.B.、Chernov T.S. 大量のビデオデータでのファジーイメージ検索の方法//高可用性システム、Vol。12、No。1、p。 53-58、2016。

[7] Skoryukina N. et al。スナップスクリーン：投影的に歪んだノイズの多いクエリを使用したTVストリームフレーム検索//マシンビジョンに関する第9回国際会議（ICMV）-Proc。 SPIE V. 10341、P。103410Y、2017。

[8]アフィンルーカスカナデ機能トラッカーのBouguet JY Pyramidal実装：アルゴリズムの削除// Intel Corporation、V. 5、p。 2001年1月10日。

[9] Newman P.、Ho K.視覚的に顕著な特徴を備えたSLAMループのクローズ// IEEE Proc。ロボット工学および自動化に関する国際会議、p。 635-642、2005。

[10] Paalanen P.、Kamarainen JK、Kalviainen H.人工ビデオによる画像ベースの定量的モザイク評価//画像解析に関するスカンジナビア会議、Springer（ベルリン、ハイデルベルク）、p。 470-479、2009。

射影変換のグラフを一致させることにより、接着パノラマの品質を改善する

射影変換のグラフを一致させるためのアルゴリズムの説明

実験結果

おわりに

文学

More articles: