マシンビジョンシステムは、人と同じレベルの顔を認識し、現実的な人工顔を作成することもできます。 しかし、研究者は、これらのシステムが錯視を認識できないため、新しい錯視を作成できないことを発見しました。
人間の視覚は驚くべき装置です。 何百万年もの間、特定の環境で開発されてきましたが、初期の視覚システムに出会ったことのないタスクを実行できます。 良い例は、人工物-車、飛行機、交通標識など-を読んだり定義したりすることです。
しかし、視覚システムには、よく知られている一連の欠陥があり、それらは錯覚として認識されます。 研究者はすでに、これらの錯覚が人々に色、サイズ、相対的な位置と動きを誤って評価させる多くのオプションを特定しています。
幻想自体は、視覚システムと知覚の性質のアイデアを与えるという点で興味深いです。 したがって、このシステムの限界を研究するのに役立つ新しい幻想を見つける方法を考え出すことは非常に便利です。
同心円?
ここでは、便利な詳細なトレーニングが必要です。 近年、機械は画像内のオブジェクトと顔を認識し、同様の画像を作成することを学びました。 マシンビジョンシステムが幻想を認識し、独自のシステムを作成できることは容易に想像できます。
ここでは、ケンタッキー州ルイビル大学のロバート・ウィリアムズとロマン・ヤンポルスキーが舞台に立つ。 これらの人々 はそのようなことをやろうとしたが、すべてがそれほど単純ではないことがわかった。 既存の機械学習システムは、独自の目の錯覚を伝えることができません-少なくともまだ。 なぜそうですか?
まず、一般的な情報。 ディープラーニングの最近の進歩は、2つのブレークスルーに基づいています。 1つ目は、強力なニューラルネットワークと、それらを上手に学習させるためのソフトウェアトリックの可用性です。
2番目は、どのマシンが学習できるかに基づいて、ボリュームの観点から巨大なマークアップされたデータベースを作成することです。 たとえば、顔を認識するようにマシンに教えるには、明確にマークされた顔を含む数万枚の画像が必要です。 この情報を使用して、ニューラルネットワークは、顔の特徴的なパターン(2つの目、鼻、口)を認識することを学習できます。 さらに印象的なのは、一対のネットワーク-いわゆる ジェネレーティブコンペティティブネットワーク (GSS)-顔のリアルで完全に人工的な画像を作成する方法を互いに教え合うことができます。
ウィリアムズとヤンポルスキーは、錯覚を決定するためにニューラルネットワークを教えることを考えました。 計算能力は十分であり、適切なデータベースは十分ではありません。 したがって、彼らの最初のタスクは、トレーニング用の錯視のデータベースを作成することでした。
難しいことがわかりました。 「静的な錯視は数千個しかなく、独自の種類の錯視の数は非常に少なく、おそらく数十個です」と彼らは言います。
そして、これは現代の機械学習システムにとって深刻な障害です。 「こうした限られたデータセットから学習できるモデルを作成することは、生成モデルと人間の視覚の理解にとって大きな前進です」と彼らは言います。
したがって、ウィリアムズとヤンポルスキーは、6,000以上の錯視の画像のデータベースを収集し、それらを認識するようにニューラルネットワークを訓練しました。 次に、GSSを作成しました。GSSは、錯視を独自に作成する必要があります。
結果は彼らを失望させた。 「Nvidia Tesla K80での7時間のトレーニングの後、価値あるものは何も作成されませんでした」と、誰もが使用できるようにデータベースを開いた研究者は述べています。
しかし、結果は興味深いものです。 「私たちに知られている唯一の錯視は、進化(例えば、蝶の羽のアイパターン)または人間の芸術家によって作成されました」と彼らは指摘しています。 どちらの場合も、人々はフィードバックを提供する上で重要な役割を果たしました。人々は幻想を見ることができます。
そして、マシンビジョンシステムはできません。 「GSSが幻想の根底にある原則を理解することなくビジョンを欺くことを学ぶことができるとは考えにくい」とウィリアムズとヤンポルスキーは言う。
人間と機械の視覚システムには重大な違いがあるため、これは困難な場合があります。 多くの研究者は、人間の視覚システムをさらに連想させるニューラルネットワークを作成します。 おそらく、これらのシステムの興味深いチェックの1つは、錯覚を見ることができるかどうかです。
一方で、ウィリアムズとヤンポルスキーは楽観的ではありません:「どうやら、錯覚を伴うデータセットは、新しい錯覚を作成するのに十分ではないかもしれません」と彼らは言います。 そのため、錯視は人間の知覚の要塞のままであり、機械の影響を受けません。