🧥 🧑 👩🏻‍🍳 衛星写真をプログラムでマークする方法は？ Dstl衛星画像機能検出ソリューション 🥕 🤟🏿 🏢

こんにちは、Habr！私の名前はEvgeny Nekrasovです。Mail.RuGroupの研究プログラマーです。今日は、衛星画像のセグメンテーションに焦点を当てたDstl衛星画像特徴検出データ解析コンテストのソリューションについてお話します。このコンペティションでは、比較的単純なモデリング手法を使用し、419チーム中7位になりました。カットの下-私がそれをやった方法の物語。

すぐに紹介のメモをお見せします。2017年1月、私はトップクラスのNVIDIA GeForce GTX 1080 GPUの誇りのある所有者になりました。これにより、実際の問題に関するディープラーニングの理論的知識をテストする機会が与えられました。私の選択は、KaggleプラットフォームでのDstlとの競争でした。このタスクには、まず、マルチスペクトル衛星画像という珍しいデータがあり、次に衛星画像処理などの重要な分野で貴重な実務経験を積む機会がありました。この記事では、主にデータ分析手法と機械学習について説明します。それでも、技術的な詳細を完全に無視するのは間違っているので、簡単に言うと、すべてのコードをPython3で記述し、numpy、scipy、pandas、skimage、tifffile、shapely、kerasとTensorFlowバックエンドを使用しました。

問題の声明

データ

主催者は、1x1 kmの地表の450個の断片の画像を提供しました。これらの断片は、私たちの惑星のある地域からのものでした。各フラグメントは、4つのWorldView3衛星センサー（RGBセンサー、パンクロマチックセンサー、マルチスペクトルセンサー、および赤外線SWIRセンサー）によってキャプチャされました。 RGBセンサーとパンクロマチックセンサーは、それぞれ通常のカラー画像と白黒画像を生成します。マルチスペクトルおよびSWIRセンサーが除去するものを図に示します。 1.したがって、各フラグメントに対して4つのTIFFファイルが与えられ、空間解像度とダイナミックレンジの両方で異なっていたため、画像特性を表1に示します。これらの450フラグメントのうち、25がトレーニングセットにあり、ベクター形式のWKTまたはGeoJSONの10クラスのオブジェクトのマークアップ（専門家によって実行される画像セグメンテーション）。残りの425個のイメージでテストスイートを構成しました。これらのイメージでは、WKT形式で10クラスの同様のマークアップを作成する必要がありました。

図1.マルチスペクトルセンサーとSWIRセンサーのスペクトル範囲

表1. WorldView3衛星センサーからのデータの特性

約10のクラスのオブジェクトになりました。これらは次のとおりです。

建物
その他人工構造物（人工構造物、主にフェンス）
道路（アスファルト道路）。
追跡（汚れた道路）。
木（木）。
作物（農業分野）。
水路（川）。
永続的な水（小さな池）。
大型車両（トラック）。
車両小（車）。

これらのクラスの領域の分布は、トレーニングレイアウトで非常に不均一でした（図2）。わかりやすくするために、トレーニングセット（図3）のRGBイメージとそのレイアウト（図4）の例を示します。

図2.地表の断片の総面積に対するオブジェクトのクラスの面積の割合のヒストグラム。 1-建物、2-その他 人工構造物、3-道路、4-線路、5-木、6-作物、7-水路、8-静水、9-大型車両、10-小型車両

図3.トレーニングセットのRGBイメージの例

図4.トレーニングセットからのマーキングの例。 赤-建物、オレンジ-その他 人工構造物、灰色-道路、黄色-線路、暗緑色-木、薄緑色-作物、青-水路、青-静水、紫-車両大、ピンク-車両小

コンテストの品質指標はJaccard（図5）で、10クラスすべてで平均されました。主催者は決定の質を評価し、この指標のみで勝者を決定しました。最終評価では、競技終了後に初めて知られるようになりました。主催者はテスト画像の81％（プライベートリーダーボード）を使用し、テスト画像の残りの19％はパブリックリーダーボードであり、参加者はすぐに予備を受け取ることができました意思決定の質の評価。

図5. Jaccardメトリックの図

問題解決

前処理

まず、データをモデリングに適した形式にする必要があります。この方法で前処理を行いました。4つの衛星画像はすべて、最高の空間解像度を持つため、RGB画像のサイズ（約3300x3300ピクセル）にスケーリングされました。さらに、各画像は、ピクセル輝度値が厳密に範囲[0、1]にあるようにダイナミックレンジの最大値に正規化され、単一の20チャネル画像に結合されました。ベクターマークアップをラスターバイナリマスクに投影しました。サイズは20チャンネルの画像に対応していました。ベクトルマークアップをラスターマスクに、またはその逆に変換して、skimageとshapelyライブラリを使用して実行しました。

モデリング

前処理の後、画像セグメンテーションの定式化された問題を取得します：トレーニングセットは25の20チャンネル画像で構成され、これらの画像は10クラスのピクセルごとのマークアップを持ち、テストセットは425の20チャンネル画像で構成され、同様のバイナリマスクを構築する必要がありますWKT形式のベクターマークアップに簡単に変換できます-これはオーガナイザーが望むものです。

画像セグメンテーションのタスクの場合、最良のモデルの1つはU-netアーキテクチャの畳み込みニューラルネットワークです。 U-netの構造は自動エンコーダーと非常に似ていますが、1つの違いがあります。対応するサイズのエンコーダーとデコーダーのパーツが接続されています。自動エンコーダー部分は画像の高レベルの表現を形成し、接続によりネットワークは小さな詳細を効果的にセグメント化できます。

ほぼ同一のアーキテクチャの2つのU-net類似の人工ニューラルネットワークを使用しました（図6）。最初のニューラルネットワーク（2c）は、2つの非常にまれなクラス-Vehicle LargeとVehicle Smallのセグメンテーションのためにシャープになりました（図2）。 2番目のニューラルネットワーク（7c）は他のすべてのクラス用に設計されており、私はWaterwayとStanding waterを1つのクラスに結合しました。これには2つの理由があります。トレーニングセットにはリザーバーがほとんどないため、それらの違いを人工ニューラルネットワークの最初から学習することはほとんど不可能です。既に予測されたリザーバーを2つのクラスに分割することをお勧めします。

両方のニューラルネットワークの入力は160 x 160ピクセルでした。私は次のようにマジックナンバー160x160を取得しました：人工ニューラルネットワークの視野が大きいほど、観測されたオブジェクトが置かれているコンテキストをニューラルネットワークがよりよく理解できますが、ニューラルネットワークの増加に伴い、モデルの複雑さが増し、それに応じて、トレーニングと予測の時間が増加します。さまざまなサイズの視野を通して衛星画像を見ると、160x160の視野でこのタスクのコンテキストを理解するのに十分であることがわかりました。

図6.ニューラルネットワークのアーキテクチャ2cおよび7c。 最後の層では、7cには出力に7つのチャネルがあり、2cには2つのチャネルがありました

ニューラルネットワークトレーニング

ニューラルネットワークのトレーニングでは、このタスクはそれほど単純ではありません。トレーニングセットには25枚の画像しかないため、これは160x160ピクセルの約1万個のばらばらの画像フラグメント（クロップ）のみであり、非常に小さく、2sおよび7sネットワークの可能性を完全に実現することはできません。そのため、少量のトレーニングデータの問題を解決できる手法を使用しました。これは、教師の部分的な関与によるトレーニング（ 半教師あり学習 ）とトレーニングセットの拡張（ データ拡張 ）です。両方のネットワークをトレーニングするために、損失の関数としてバイナリクロスエントロピーを使用しました。つまり、ネットワークをトレーニングして各ピクセルのオブジェクトの確率を予測し、 Adamオプティマイザーによってニューラルネットワークの重みを最適化しました。両方のニューラルネットワークをトレーニングするプロセスでは、いわゆる回転クロップ-ランダムな変位とランダムな角度での回転で画像から切り取られた160x160ピクセルの画像フラグメントのトレーニングを使用しました（図7）。これにより、衛星画像の回転不変性に関する先験的な知識により、トレーニングセットを拡張できます。つまり、衛星画像を任意の角度で回転させると、有効な衛星画像が得られます。

図7.輪作のサンプリングスキーム

2秒のネットワークからトレーニング手順の話を始めます。車とトラックのクラスは非常にまれなので、最初に車またはトラックが約50％の確率で作物に存在するようなサンプリングで20万の回転部隊でニューラルネットワークをトレーニングしました。これは、ニューラルネットワークが車やトラックが何であるかを把握するために必要でした。次に、ランダムサンプリングを使用して、ニューラルネットワークを70万回転の集団でトレーニングし、ネットワークがデータセット全体の適切なアイデアを形成するようにしました。

7cネットワークでは、より複雑なアプローチを使用し、教師を部分的に関与させてトレーニングを適用しました。実際には、タグ付きの衛星画像は25個しかありませんが、合計で450個の衛星画像が提供されており、このセット全体を使用して、ニューラルネットワークが衛星画像の一般的な概念を学習できるようになっています。 7cネットワークに対応する構造のオートエンコーダーを構築し、450の画像すべてから60万の普通の作物でトレーニングしました。次に、トレーニング済みの自動エンコーダーのエンコーダー部分の重みをニューラルネットワーク7cに転送し、修正しました。彼は40万輪作のネットワークを訓練しました。彼はエンコーダー部分の重量を解放し、さらに60万回転のニューラルネットワークを再訓練しました。

予測

予測を実行するために、「スライディングウィンドウ」で画像を歩き回りました。つまり、画像から160x160ピクセルの断片を切り取り、ニューラルネットワーク2cおよび7cで予測を実行し、これらの断片から元の画像を収集しました。可能であれば、ニューラルネットワークによって予測された作物の中央部分のみを再構成に使用しました（図8）。エッジでは予測の品質が最も低い可能性が高いためです。画像の各コーナーから「スライディングウィンドウ」パスを実行し、予測を平均して、画像の各ポイントでオブジェクトの各クラスの確率の最終予測を受け取りました。

図8.予測を取得するためのスキーム。 赤-作物の中央部からの予測、黄色-作物の周辺部からの予測、緑-予測なし

ただし、確率ではなく、バイナリマスクが必要です。それらを構築する最も簡単な方法は、0.5のしきい値でサンプリングすることです。しかし、私はより高度な方法を使用しました。画像のトレーニングセットで予測を実行し、サンプリングしきい値に関してトレーニングセット全体でJaccardを最大化しました。その結果、多くの場合0.5とは大幅に異なる値が得られました（表2）。読者は尋ねるかもしれません：ここで再訓練がありますか？ニューラルネットワークは回転する群れで訓練されており、予測の段階でニューラルネットワークに入力されたものはほとんど確率なく訓練セットに入ることができるため、これは多かれ少なかれ適切なアプローチです。

表2.さまざまなクラスのオブジェクトのサンプリングしきい値

水域の予測を作成する際に、私はウラジミールオシンの水予測モデルも使用しました。彼はこれを競争フォーラムに公開しました。キャノピークロロフィルコンテンツインデックス（CCCI）に基づいて、非常に簡単です。インデックスは、いくつかのチャネルの強度の組み合わせと見なされ、しきい値で水を効果的に分割できます。これらは本質的に非常に異なるモデルであるため、水域の予測とウラジミールオシンモデルの作業の結果を組み合わせました。これらの組み合わせの結果、水域のセグメンテーションの品質が目に見えて改善されました。

次に、予測された水を水路と定水に分類する必要がありました。ここでは、コンピュータービジョンの古典的な方法と、川と小さな池の違いに関する先験的な知識を使用しました。水域ごとに、これらのタイプの水域を分離するのに効果的なパラメーターを検討しました。

エリア（川は通常、エリア内の池よりも大きい）;
楕円率（細長い川、円に近い池）;
写真の境界に触れる（川は通常1 kmよりも長いため、写真の境界を越えるため、池の写真の境界にある可能性は小さい）。

次に、これらのパラメーターの線形結合を作成し、水のクラスをしきい値で除算しました。

したがって、10個すべてのクラスのバイナリマスクができたので、問題は解決しました。その後、技術的な手順を実行するだけで、結果のバイナリマスクをベクトル化し、WKT形式で保存する必要がありました。テストセット（図9）の画像とモデルによるセグメンテーション（図10）の例を示します。

図9.テストスイートのRGB画像の例

図10.テストスイートの画像におけるモデル予測の例。 赤-建物、オレンジ-その他 人工構造物、灰色-道路、黄色-線路、暗緑色-木、薄緑色-作物、青-水路、青-静水、紫-車両大、ピンク-車両小

おわりに

説明されたソリューションは、パブリックスコア0.51725、プライベートスコア0.43897を提供し、これは競争の結果によると7位です。このような高い結果を達成することができたソリューションの重要な要素は次のとおりです。

U-Netアーキテクチャ、現在では画像セグメンテーションの最先端です。
少量のトレーニングデータの条件で効果的に作業できる技術の使用。これらは、輪作作物のトレーニングと、ニューラルネットワークのトレーニングプロセスでのテストイメージの使用です。
貯水池のクラスを分離するためのコンピュータービジョンの従来の方法と先験的な知識の使用。

これは、このコンペティションで機能したアイデアとアプローチの完全なリストではありませんが、公開されている上位のソリューションから多くの興味深いアイデアを引き出すことができます。

ご清聴ありがとうございました。

衛星写真をプログラムでマークする方法は？ Dstl衛星画像機能検出ソリューション

問題の声明

データ

問題解決

前処理

モデリング

ニューラルネットワークトレーニング

予測

おわりに

More articles: