視覚モデリング。 パート1 アイツアー

1アイツアー -2知覚 -3視覚のジオメトリ -4アイトラッキング -5視線の捉え方 -6アイトラッキングのモデリング



人が画像をどのように知覚するかを理解するには、視覚器官-目から始めなければなりません。 目の解剖学的構造以外にさらに理解するための重要なポイントは、目の解像度の制限です。これについては、ここで説明します。 このすべてを知っている場合、選択したテキストをざっと見て、すぐに2番目の部分に進むことができます。



目の解剖学



そして、目の配置方法については、おそらく生物学の教科書から覚えているでしょうが、ここでは、学校でなんらかの理由で伝えられない、本当に驚くべきことを紹介します。 しかし、最初に、目の構造を思い出させます(イラストは、David Hubellの本Eye、Brain、Visionから取られています)。







目は6つの筋肉のグループによって軌道に保持されますが、「目を刈る」必要がある場合は、上下に右または左に回します。



網膜に入射する光束は角膜を通過し(光の屈折の約70%を提供)、瞳孔を通過します。瞳孔はカメラの横隔膜に似ており、サイズを変更する放射状および輪状の筋肉のグループによって制御され、最終的にレンズに入ります。目に見えるオブジェクトに焦点を合わせます。 水晶体は、放射状の筋肉によって圧縮されるゼラチン状の枕です。 圧縮されると、レンズの形状が変わり、光の屈折の程度と焦点距離が変わります。



実際、これはすべて、網膜上の可視世界の投影を作成するために必要です。 網膜は、発達の初期段階で網膜から分離した脳の一部ですが、視神経の束によって網膜と密接につながっています。







網膜は、光信号を電気インパルスに変換するカメラセンサーの単なるアナログではありません。 網膜は、視覚野に入る前に着信画像の主要な処理を実行します。



網膜自体は3層の神経細胞で構成されており、光(receive体と錐体)を受け取る実際の光センサーは、背面の3番目の外層を構成しています。







したがって、センサーに到達するために、光はまず神経細胞の2つの層を通過します。 背面の光受容体はメラニン(黒色顔料)でコーティングされており、カメラの内側を黒くするのと同じ役割を果たします。 黒化がなければ、棒と円錐の層を通過する光は脳にさらに到達し、脳から反射されて戻ってきて、あらゆる方法で私たちに世界の写真を台無しにします。



感光体



感光体には2つの形式があります。



会話はコンピューターモニター上の画像の分析に関するものなので、暗所視とスティックについてはこれ以上説明せず、明所視と錐体にすべての注意を集中します。



そのため、コーンは、その中の色素のタイプに応じて3つのタイプに分けられ、これらのタイプのそれぞれがそのスペクトルバンドの知覚に関与しています。 従来、円錐のタイプは「青」、「緑」、「赤」と呼ばれていますが、実際には、それらの知覚の範囲はこれらの色の範囲を超えています。 したがって、 たとえば黄色などのスペクトルの多くの部分は、2種類の錐体によってすぐに知覚され、「赤」と「緑」の錐体の励起による複合感覚は、私たちに黄色の感覚を作り出します





(コーンの感度分布のより正確なプロットはここにあります



3種類すべてのコーンの数はほぼ同じですが、黄色のスペクトルでそれを知覚するコーンの数は2倍であるため、黄色のコーンは青よりもはるかに強く見えます。 同じことが他の色にも適用されます (下の図を参照)。



網膜ピクセル



すべての光受容体は、神経節細胞によって受容野と呼ばれるブロックに結合されます。各神経節細胞には、1つの受容野が関連付けられています。 1つの光受容体は一度に複数の受容野で構成されているため、2つの隣接する神経節細胞の野原は70〜80%重複しています。 最も単純なケースでは、受容野はカメラの感光性マトリックスのピクセルアナログに似ています。 しかし、それほど単純ではありません!



まず、 受容野の大きさは網膜の面積に応じて異なります 。たとえば、眼窩の領域—最大視力の領域に対応する網膜の領域、受容野は1〜2 mm(これは2〜3分の角度に相当)、 -すでに最大5 mm!



第二に、受容野の「ピクセル」は、それらの間に分離があるという点でカメラのマトリックスのピクセルと異なります-「オン」に応答するものと「オフ」に応答するものがあります。 つまり 一部のフィールドは、暗い場所から明るい場所への照明の変化にのみ反応します



第三に、フィールドはそのタイプに応じてサイズが異なります(従来はPフィールドとMフィールドで示されます)。 Mフィールドは大きく、反応速度が速いですが、サイズが大きいため、それらによって送信される画像は、Pフィールドによって送信される画像よりもはるかに低い解像度になります。 Pフィールドは小さいため、送信される画像はより正確ですが、反応率は高くありません。 したがって、 Mフィールドは動きを記録し、「オブジェクトはどこにあるか(動きと奥行きの知覚)」という質問に答え、Pフィールドは視覚ディスプレイの色、形状、および詳細を扱い、「オブジェクトは何か(色覚と鮮明度)」に答えます。 。 アンシャープコントラストはMフィールドを扱い、P-シャープコントラストを扱います。 視線が長く維持されるほど、Pフィールドの役割は大きくなります。



第4に、これらの「ピクセル」ではすべてがそれほど単純ではありません。フォトマトリックスのピクセルが色のみを記録する場合、受容フィールドは線、ストライプ、明確なエッジを持つさまざまな長方形セグメントにも応答できます。 つまり 色/光に変化があるという情報に加えて、これらの「ポンプされたピクセル」は、直線があるという情報、その長さに関する情報(視覚の限界を超えたりセグメントの端が見えるほど長い)、さらには方向に関する情報も送信します(この線の角度)



1アイツアー -2知覚 -3視覚のジオメトリ -4アイトラッキング -5視線の捉え方 -6アイトラッキングのモデリング



All Articles