👩🏼‍⚖️ 👴🏻 🤼 事前に訓練されたニューラルネットワークに基づいて画像分類器を構築する方法 🧕🏿 🐖 ✊🏻

現在、人工知能の民主化のプロセスが行われています。最近、限られた数の大企業の特権と見なされていた技術が、個々の専門家にとってますます利用しやすくなっています。

近年、大量のデータと膨大な計算能力を使用して、専門家によって多数のモデルが登場、作成、および訓練されています。これらのモデルの多くはパブリックドメインであり、誰でも無料で問題を解決するためにそれらを使用できます。

この記事では、事前に訓練されたニューラルネットワークを使用して画像分類の問題を解決する方法を検討し、その使用の利点を評価します。

写真からの植物クラスの予測

例として、 LifeCLEF2014 Plant Identification Taskコンテストの画像を分類するタスクを検討します。課題は、いくつかの写真に基づいて、植物の分類学上のクラスを予測することです。

トレーニング用に、植物の47815個の画像を使用できます。各画像は、500のクラスのいずれかに属します。最も可能性の高い植物クラスのリストを返すモデルを構築する必要があります。予測されたクラスのリスト（ランク）における正しいプラントクラスの位置は、システムの品質を決定します。

このタスクは、人が植物の個々の部分（茎、葉、花など）を調べて植物を特定しようとする実際のシナリオをモデル化します。

入り口のモデルは「観測」を受け取ります。これは、同じ気象条件の下で同じデバイスを使用して同じ日に撮影された同じ植物の写真のセットです。例として、コンテスト主催者から提供された画像をご覧ください。

Imageclef

写真の品質と量はユーザーによって異なるため、主催者は、システムが個々のユーザーの正しい予測を生成する能力を考慮したメトリックを提案しました。したがって、品質の主要な指標は、次の平均評価Sとして定義されます。

S = f r a c 1 U s u m_{u = 1}^{U} d f r a c 1 p_{u} s u m_{p = 1}^{p_{u}} s_{u 、 p}

$S = \ frac {1} {U} \ sum_ {u = 1} ^ {U} \ dfrac {1} {p_ {u}} \ sum_ {p = 1} ^ {p_ {u}} s_ {u 、p}$

どこで

U

$U$ -テストサンプルに少なくとも1枚の写真があるユーザーの数、

p_{u}

$p_ {u}$ -ユーザーが撮影したユニークな植物の数

U

$U$ 、

s_{u 、 p}

$s_ {u、p}$ -最も可能性のあるクラスのリスト内の正しい植物クラスのランクの逆数として計算される0〜1の値。

競争の一環として、事前にトレーニングされたニューラルネットワークを含む外部データソースの使用は禁止されていました。事前学習済みモデルを使用して分類器を改善する方法を示すために、この制限を意図的に無視します。

解決策

この問題を解決するために、ImageNetデータベースの120万枚の画像でトレーニングされたニューラルネットワークを使用します。画像には、コンピューター、テーブル、猫、犬、日常生活でよく遭遇するその他のオブジェクトなど、1000の異なるクラスに属するオブジェクトが含まれています。

ベースアーキテクチャとして、VGG16、VGG19、ResNet50、およびInceptionV3を選択しました。これらのネットワークは膨大な数の画像でトレーニングされており、すでに単純なオブジェクトを認識できるため、植物を分類するための適切なモデルの作成に役立つことが期待できます。

それでは、画像の前処理から始めましょう。

画像の前処理

画像の前処理は画像の前処理です。この場合の前処理の主な目的は、画像の最も重要な部分を特定し、不要なノイズを除去することです。

競争の勝者（ IBM Researchチーム）と同じ前処理方法を使用しますが、少し変更します。

トレーニングセットのすべての画像は、それらに描かれた植物の部分に応じてカテゴリに分類できます：全体（植物全体）、枝（枝）、花（花）、果物（果物）、葉スキャン（葉スキャン）、葉（葉）、幹（ステム）。これらのカテゴリーのそれぞれについて、最も適切な前処理方法が選択されました。

イメージ全体とブランチイメージの処理

多くの場合、画像の大部分には、失いたくない有用な情報が含まれているため、EntireおよびBranch画像は変更しません。

画像全体の例

ブランチ画像の例

花と果物の画像の処理

花と果物の画像の処理には、同じ方法を使用します。

画像を白黒に変換します。
パラメーターa = 2.5のガウスフィルターを適用します。
アクティブな輪郭法を使用して、画像の最も重要な部分を見つけます。
境界の周りの長方形を記述します。

花の画像処理の例

フルーツ画像処理の例

LeafScan画像処理

LeafScanの写真を見ると、ほとんどの場合、葉が明るい背景にあることがわかります。画像を白で正規化します：

最初に、画像を白黒に変換し、Otsuメソッドを使用してしきい値を計算します。
値がしきい値よりも小さいすべてのピクセルが白でペイントされます。

LeafScan画像処理の例

葉の画像処理

通常、葉の画像では、葉は中央にあり、その輪郭は画像の端からわずかに外れています。このような写真の前処理には、次の方法を使用します。

左、右、下、上で画像の1/10を切り取ります。
画像を白黒に変換します。
パラメーターa = 2のガウスフィルターを適用します。
アクティブな輪郭法を使用して、最も重要な領域の境界を計算します。
結果の境界線の周りの長方形を記述します。

葉の画像処理の例

ステム画像処理

通常、ステムは画像の中央にあります。ステム画像を処理するには、次のアルゴリズムを使用します。

左、右、下、上部の画像の⅕を削除します。
画像を白黒に変換します。
パラメーターa = 2のガウスフィルターを適用します。
アクティブな輪郭法を使用して、画像の最も重要な領域の境界を計算します。
結果の境界線の周りの長方形を記述します。

ステム画像処理の例

これで、すべてが分類子を作成する準備ができました。

事前学習済みのニューラルネットワークに基づいて画像分類器を構築した方法

TensorFlowをバックエンドとしてKerasを使用してモデルを構築します。 Kerasはニューラルネットワークで動作するように設計された強力な機械学習ライブラリであり、パーセプトロンなどの単純なモデルからビデオ処理用に設計された非常に複雑なネットワークまで、あらゆる種類のモデルを構築できます。私たちの場合、これは非常に重要です。Kerasでは、事前にトレーニングされたニューラルネットワークを使用し、CPUとGPUの両方を使用してモデルを最適化できます。

ステップ1

最初に、完全に接続されたレイヤーなしで事前に訓練されたモデルをロードし、その出力にプーリング操作を適用します。今回のケースでは、「平均」プーリング（ GlobalAveragePooling ）が最良の結果を示したため、それをモデルの構築に使用します。

次に、受信したネットワークを介してトレーニングセットから画像を実行し、受信した特性をファイルに保存します。少し後で、これが必要な理由がわかります。

ステップ2

事前に訓練されたネットワークのすべてのレイヤーをフリーズし、その上に独自の完全に接続されたネットワークを追加し、結果のモデルを訓練しますが、この場合、各時代に事前に訓練されたネットワークを介してすべての画像を実行する必要があり、これには非常に時間がかかりますたくさんの時間。時間を節約するために、前のステップで保存した特性を使用して、完全に接続されたネットワークをそれらでトレーニングします。

この段階で、トレーニングセットを2つの部分に分割することを忘れないでください。トレーニングセットと、重みを調整するためのエラーを考慮する検証セットです。データは3対1の比率で分割できます。

私たちが教える完全に接続されたネットワークのアーキテクチャを詳しく見てみましょう。一連の実験の後、最高のアーキテクチャの1つが次の構造を持つことがわかりました。

512ニューロンの3つの密な層。各密なレイヤーの後には、パラメーターが0.5のドロップアウトレイヤーが続きます。これは、ネットワークの各通路の各層で、ニューロンの約半分から信号をランダムに捨てることを意味します。
出力層は500クラスでソフトマックスです。
損失関数として、 カテゴリクロスエントロピーを使用し、 Adamを使用してネットワークを最適化します。
また、活性化関数としてreluの代わりにselu （スケーリングされた指数単位）関数を使用すると、ネットワークの収束が速くなることがわかりました。

役立つ情報：

説明したティーチング方法では、拡張（画像変換：回転、圧縮、ノイズの追加など）を使用できませんが、このステップで取得したモデルは最終モデルの作成プロセスの中間結果にすぎないため、この制限は重要ではありません。
このようなネットワークは非常に迅速に学習し、必要な時代数を手動で決定できます。
私たちの場合、ニューラルネットワークは収束に40エポックから80エポックを必要としました。

モデルの再トレーニングまたはアンダートレーニングは、修正する機会があるため、あまり心配する必要はありません。

ステップ3

このステップでは、事前にトレーニングされたモデルの上に、トレーニング済みの完全に接続されたネットワークを追加します。損失関数は変更せず、ネットワークのトレーニングに別のオプティマイザーを使用します。

事前に訓練されたニューラルネットワークは、多くの抽象的および一般的な機能を既に学習しています。見つかった重みを下げないために、非常に低い学習速度でネットワークを訓練します。 AdamやRMSPropなどのオプティマイザー自体が学習速度を選択します。この場合、選択された速度が高すぎる可能性があるため、これらは私たちには適していません。学習速度を自分で設定できるようにするために、従来のSGDオプティマイザーを使用します。

最終分類子の品質を改善するには、次のことを覚えておく必要があります。

学習速度をプラトーまで下げて、最小に近づきすぎないようにします（ ReduceLROnPlateauコールバック ）。
いくつかの時代で検証データのエラーが減少していない場合、トレーニングを停止する価値があります（ EarlyStoppingコールバック ）。
通常、モデルの学習を完了するには長い時間がかかり、 .ipynbファイルを閉じると、すべての動的出力が失われます。モデルのトレーニング方法を後で分析できるように、トレーニング情報をファイル（ CSVLoggerコールバック ）に保存することをお勧めします。

標準のプログレスバーの代わりに、 TQDMNotebookCallbackを使用することを好みます。これは結果に直接影響しませんが、モデルのトレーニングを見る方がはるかに快適です。

データ増強

最終ステップでネットワーク全体をトレーニングするため、ここで拡張機能を使用できます。しかし、標準のKeras ImageDataGeneratorの代わりに、画像を増強するように設計されたライブラリであるImgaugを使用します。 Imgaugの重要な機能は、画像に変換を適用する確率を明示的に指定できることです。さらに、このライブラリにはさまざまな変換があり、変換をグループに結合し、適用するグループを選択することができます。例は上記のリンクにあります。

拡張のために、実際の生活で発生する可能性のある変換を選択します。たとえば、写真の鏡面反射（水平）、回転、増加、ノイズ、輝度およびコントラストの変化などです。多数の変換を使用する場合、ネットワークが写真から有用な情報を抽出することは非常に難しいため、それらを同時に適用しないことが非常に重要です。

変換をいくつかのグループに分割し、それぞれを特定の確率で適用することをお勧めします（それぞれの確率は異なる可能性があります）。また、80％のケースで画像を増強することをお勧めします。そうすれば、ネットワークは実際の画像を見ることができます。トレーニングには数十の時代がかかることを考えると、ネットワークがオリジナルの各画像を見る可能性が非常に高くなります。

カスタム写真の評価

各画像のメタデータには、品質評価（画像が分類に適しているかどうかを示す平均的なユーザー評価）があります。評価1および2の画像は非常にノイズが多く、有用な情報が含まれている場合がありますが、最終的には分類器の品質に悪影響を与える可能性があると想定しました。 InceptionV3を学習しながら、この仮説をテストしました。トレーニングセットの評価が1の画像は非常に少なく、1966年しかなかったため、トレーニングには使用しないことにしました。その結果、ネットワークは、1より高い評価の画像でよりよくトレーニングされたため、トレーニングセット内の画像の品質を慎重に検討することをお勧めします。

以下に、ResNet50およびInceptionV3の再トレーニングチャートを示します。少し先を見ると、これらのネットワークが最高の結果を達成するのに役立ったと言えます。

ResNet50再トレーニングスケジュール

ResNet50フル

InceptionV3継続教育スケジュール

Inception V3フル

テスト時間の増加

分類器の品質を向上させるのに役立ったもう1つの方法は、拡張データの予測です（テスト時間拡張、TTA）。この方法では、テストセット内の画像だけでなく、その増強についても予測を行います。

たとえば、最も現実的な5つの変換を取得して画像に適用すると、1つの画像ではなく6つの画像の予測が得られます。その後、結果を平均します。すべての拡張画像は、1つの変換（1つの画像-1つの変換）の結果として取得されることに注意してください。

予測増強の例

増強例

結果

行われた作業の結果は、以下の表に示されています。

4つのメトリックを使用します。オーガナイザーによって提案されたメインメトリックと、3つのトップメトリック-トップ1、トップ3、トップ5。メインメトリックとメインメトリックは、観測（同じ観測IDを持つ一連の写真）に適用され、単一の画像に。

このプロセスでは、分類器の品質をさらに向上させるために、いくつかのモデルの結果を組み合わせようとしました（すべてのモデルは同じ重みで取得されました）。表の最後の3行は、モデルを組み合わせて得られた最良の結果を示しています。

モデル性能比較
モデル	ネットワーク	ターゲット指標（ランク）	トップ1	トップ3	トップ5	エポック	Tta
1	VGG16	0.549490	0.454194	0.610442	0.665546	49	いや
2	VGG16	0.553820	0.458732	0.612600	0.666996	49	はい
3	VGG19	0.559978	0.468980	0.620219	0.671253	62	いや
4	VGG19	0.563019	0.470534	0.619303	0.676396	62	はい
5	Resnet50	0.573424	0.489943	0.627836	0.682585	46	いや
6	Resnet50	0.581954	0.495962	0.638806	0.688938	46	はい
7	InceptionV3	0.528063	0.495962	0.666928	0.716630	38	いや
8	InceptionV3	0.615734	0.535675	0.671392	0.723992	38	はい
9	モデル1、3、5、7の組み合わせ	0.63009	0.549993	0.677204	0.721084	-	-
10	モデル2、4、6、8の組み合わせ	0.635100	0.553577	0.680857	0.727824	-	-
11	モデル2、6、8の組み合わせ	0.632564	0.551064	0.684839	0.730051	-	-

コンテストの勝者モデルは、ターゲットメトリックで0.471の結果を示しました。これは、統計手法とニューラルネットワークの組み合わせであり、主催者から提供された植物の画像についてのみトレーニングされます。

InceptionV3の事前学習済みニューラルネットワークをベースとして使用するこのモデルは、ターゲットメトリックで結果0.60785を達成し、コンテストの勝者の結果を29％改善します。

テストデータに拡張を使用すると、ターゲットメトリックの結果は0.615734に増加しますが、同時にモデルの速度は約6倍低下します。

さらに進んで、いくつかのネットワークの結果を組み合わせることができます。このアプローチにより、ターゲットメトリックで0.635100の結果を達成することができますが、同時に速度は非常に低下します。実際の実験では、このようなモデルは、たとえば実験室でのさまざまな研究で、作業速度が重要な要因ではない場合にのみ使用できます

既存のモデルが常に植物のクラスを正しく判断できるとは限りません;この場合、最も可能性の高い植物種のリストを知っておくと便利です。最も可能性の高いクラスのリストで真の植物クラスを生成するモデルの能力を測定するために、上位のメトリックを使用します。たとえば、上位5つのメトリックによると、完成したInceptionV3ネットワークの結果は0.716630でした。複数のモデルを組み合わせてTTAを適用すると、結果を0.730051に改善できます。

事前に訓練されたニューラルネットワークを使用してモデルの品質を改善する方法を説明しましたが、もちろん、この記事では利用可能な方法の一部のみを説明します。

かなり有望に見える他のアプローチを試すことをお勧めします。

画像の前処理のためのより正確な方法の使用。
完全に接続されたレイヤーのアーキテクチャの変更。
高密度層の活性化関数の変更。
トレーニングには最高品質の画像のみを使用します（たとえば、2以上の評価）。
トレーニングセット内のクラスの分布の調査、およびトレーニングでのclass_weightパラメータの使用。

まとめ

100万を超える画像でトレーニングされたニューラルネットワークの追加トレーニングにより、コンテストの勝者が提示するソリューションが大幅に改善されました。私たちのアプローチは、特にトレーニングに十分なデータがない状況で、事前トレーニングされたモデルが画像分類タスクの品質を大幅に改善できることを示しました。基本モデルが手元のタスクとは関係なくても、周囲の世界で最も単純なオブジェクトを認識する方法を既に知っているので、それはまだ有用です。

これらの結果を達成するのに役立った最も重要なステップ：

画像増強のためにImgaugを使用します（このライブラリにはKeras ImageDataGeneratorよりも多くの変換が含まれています。さらに、変換をグループに結合することもできます）。
画像の80％は教育の各時代に増強されました。
拡張データ（TTA）の予測を使用します。
高原での学習速度の低下。
検証データの損失関数の値が複数の時代にわたって減少しない場合、トレーニングを停止します。
評価が1より大きい画像のモデルトレーニング

あなたの実験で幸運を祈ります！

事前に訓練されたニューラルネットワークに基づいて画像分類器を構築する方法