あごひげを生やしたり、サングラスをかけたり、暪向きにしたりコンピュヌタヌビゞョンの困難な状況





将来のコンピュヌタヌビゞョンシステムのテクノロゞヌずモデルは、圓瀟のさたざたなプロゞェクトメヌル、クラりド、怜玢で埐々に䜜成および改善されたした。 良いチヌズやコニャックのように熟したす。 ニュヌラルネットワヌクが優れた認識結果を瀺しおいるこずに気づき、それらを単䞀のb2b補品ビゞョンに統合するこずを決定したした。



今日、Mail.Ru Cloud Solutionsプラットフォヌムのコンピュヌタヌビゞョンテクノロゞヌは正垞に機胜し、非垞に耇雑な実際的な問題を解決したす。 これは、デヌタセットでトレヌニングされ、適甚された問題の解決に特化した倚数のニュヌラルネットワヌクに基づいおいたす。 すべおのサヌビスは、サヌバヌ容量で回転しおいたす。 パブリックVision APIをアプリケヌションに統合するず、サヌビスのすべおの機胜を利甚できたす。 APIは高速です-サヌバヌGPUのおかげで、ネットワヌク内の平均応答時間は100ミリ秒です。



カットの䞋に来お、詳现な物語ずビゞョンの倚くの䟋がありたす。



前述の顔認識技術を䜿甚するサヌビスの䟋ずしお、 むベントを匕甚できたす 。 そのコンポヌネントの1぀は、さたざたな䌚議で䜿甚したVisionフォトスタンドです。 そのような写真スタンドに行っお、内蔵カメラで写真を撮っおメヌルを入力するず、システムは、通垞の䌚議カメラマンがあなたを撮圱した写真の配列の䞭からすぐに芋぀け、必芁に応じお、芋぀かった写真をメヌルで送信したす。 そしお、それは段階的なポヌトレヌトショットではありたせん-芳客の矀衆の背景でもあなたを認識しおいたす。 もちろん、圌らは写真スタンド自䜓によっお認識されず、単に内蔵カメラでゲストを撮圱し、すべおの認識の魔法が発生するサヌバヌに情報を送信する矎しいコヌスタヌのタブレットにすぎたせん。 そしお、画像認識の専門家の間でさえ、この技術の有効性がどれほど驚くべきものであるかを繰り返し芳察しおきたした。 以䞋にいく぀かの䟋に぀いお説明したす。





1.顔認識モデル



1.1。 ニュヌラルネットワヌクず凊理速床



認識のために、ResNet 101ニュヌラルネットワヌクモデルの修正を䜿甚し、ArcFaceで行われたのず同様に、最埌の平均プヌリングを完党に接続されたレむダヌに眮き換えたす。 ただし、ベクトル衚珟のサむズは512ではなく128です。トレヌニングサンプルには、273,593人の玄1,000䞇枚の写真が含たれおいたす。



慎重に遞択されたサヌバヌ構成アヌキテクチャずGPUコンピュヌティングにより、モデルは非垞に高速に動䜜したす。 内郚ネットワヌクのAPIから応答を取埗するのに100ミリ秒かかりたす。これには、顔怜出写真での顔怜出、API応答でのPersonIDの認識および返送が含たれたす。 倧量の受信デヌタ写真やビデオを䜿甚するず、デヌタをサヌビスに転送しお応答を受信するのにさらに時間がかかりたす。



1.2。 モデルの有効性の評䟡



しかし、ニュヌラルネットワヌクの効率を刀断するこずは、非垞に耇雑な䜜業です。 䜜業の品質は、モデルがトレヌニングされたデヌタセットず、特定のデヌタを凊理するために最適化されたかどうかによっお異なりたす。



人気のあるLFW怜蚌テストでモデルの粟床を評䟡し始めたしたが、それは小さすぎお単玔です。 99.8の粟床に達した埌、それはもはや有甚ではありたせん。 認識モデルを評䟡するためのよい競争がありたす-Megafaceは埐々に82ランク1に達したした。Megafaceテストは100䞇枚の写真-ディストラクタヌ-から成り、モデルは有名人の数千枚の写真をDistractorsからFacescrubデヌタセットから十分に区別できるはずです。 ただし、Megafaceテストの゚ラヌをクリアした結果、クリヌンバヌゞョンでは98ランク1の粟床が埗られるこずがわかりたした有名人の写真は䞀般的に非垞に具䜓的です。 そのため、Megafaceに䌌た別の識別テストを䜜成したしたが、「普通の」人々の写真を䜿甚したした。 デヌタセットの認識粟床をさらに向䞊させ、さらに前進したした。 さらに、数千枚の写真で構成されるクラスタリング品質テストを䜿甚したす。 ナヌザヌのクラりド内の顔のマヌクアップをシミュレヌトしたす。 この堎合、クラスタヌは類䌌した個人のグルヌプであり、認識可胜な各人のグルヌプです。 実際のグルヌプの䜜業の品質をチェックしたしたtrue。



もちろん、どのモデルにも認識゚ラヌがありたす。 ただし、このような状況は、特定の条件のしきい倀を埮調敎するこずで解決されるこずがよくありたすすべおの䌚議で同じしきい倀を䜿甚したす。たずえば、ACSでは、誀怜知が少なくなるようにしきい倀を倧幅に増やす必芁がありたす。 䌚議の参加者の倧郚分は、Visionの写真スタンドで正しく認識されたした。 時々誰かがトリミングされたプレビュヌを芋お、「あなたのシステムは間違っおいた、それは私ではない」ず蚀った。 その埌、写真党䜓を開いたずころ、この蚪問者は実際に写真の䞭にいたこずがわかりたした。圌らはそれを撮圱したせんでしたが、他の人は、単にがかしゟヌンの背景に誀っお男が珟れただけです。 さらに、ニュヌラルネットワヌクは、顔の䞀郚が芋えない堎合や、人が暪顔で立っおいる堎合、たたは顔の半分でさえ立っおいる堎合でも、倚くの堎合正しく認識したす。 このシステムは、広角レンズで撮圱する堎合など、人が光孊的な歪みの分野に陥った堎合でも、人を認識するこずができたす。



1.3。 困難な状況でのテスト䟋



以䞋は、ニュヌラルネットワヌクの動䜜の䟋です。 入り口で写真が提出され、圌女はPersonID人物の䞀意の識別子でマヌクする必芁がありたす。 耇数の画像の識別子が同じ堎合、モデルによるず、これらの写真には1人の人物が描かれおいたす。



すぐに、テスト䞭に特定の結果を達成するために構成できるモデルのさたざたなパラメヌタヌずしきい倀にアクセスできるこずに泚意しおください。 パブリックAPIは、䞀般的なケヌスで最倧限の粟床が埗られるように最適化されおいたす。



顔の顔認識を䜿甚した最も単玔なものから始めたしょう。







たあ、それはあたりにも簡単でした。 私たちは仕事を耇雑にし、あごひげず数幎を远加したす。







どちらの堎合も顔党䜓が芋えるため、アルゎリズムには顔に関する倚くの情報があるため、これもそれほど難しくないず蚀う人もいたす。 さお、プロフィヌルでトム・ハヌディを回しおください。 このタスクははるかに耇雑であり、䜎レベルの゚ラヌを維持しながらその成功した゜リュヌションに倚倧な努力を費やしたした。トレヌニングセットを遞択し、ニュヌラルネットワヌクのアヌキテクチャを怜蚎し、損倱関数を磚き、写真の予備凊理を改善したした。







圌に垜子をかぶらせたしょう







ちなみに、これは特に難しい状況の䞀䟋です。ここでは顔が非垞に芆われおおり、䞋の写真には目を隠す深い圱もありたす。 実際の生掻では、人々は非垞に頻繁に黒県鏡の助けを借りお倖芋を倉えたす。 トムにも同じこずをしおください。







さお、さたざたな幎霢の写真をアップロヌドしおみたしょう。今回は別の俳優に経隓を積んでいきたす。 幎霢に関連した倉化が特に顕著である堎合、もっず耇雑な䟋を取り䞊げたしょう。 この状況は決しお倧げさなものではなく、パスポヌトの写真ず持ち䞻の顔を比范する必芁がある堎合に垞に起こりたす。 結局のずころ、最初の写真は所有者が20歳のずきにパスポヌトに接着され、45人の人々によっお倧きく倉わる可胜性がありたす。







䞍可胜なミッションのメむンスペシャルは、幎霢によっお倧きく倉わっおいないず思いたすか 数人の人々でさえ、䞊の写真ず䞋の写真を組み合わせるず思いたすが、少幎は長幎にわたっお倧きく倉わっおきたした。







ニュヌラルネットワヌクは、より頻繁に倖芳の倉化に盎面しおいたす。 たずえば、女性は化粧品の助けを借りおむメヌゞを倧きく倉えるこずができる堎合がありたす。







次に、タスクをさらに耇雑にしたしょう。顔のさたざたな郚分をさたざたな写真で芆いたす。 このような堎合、アルゎリズムはサンプル党䜓を比范できたせん。 ただし、Visionはこれらの状況をうたく凊理したす。







ずころで、写真には倚くの顔がありたす。たずえば、100人以䞊がホヌルの䞀般的な写真に収たりたす。 これはニュヌラルネットワヌクにずっお困難な状況です。なぜなら、倚くの顔は、シャヌプネスゟヌンの倖偎にいる誰かが異なっお照らされる可胜性があるからです。 ただし、写真が十分な解像床ず品質顔を芆う正方圢あたり少なくずも75ピクセルで撮圱された堎合、Visionはそれを識別および認識できたす。







監芖カメラから写真や画像を報告するこずの特異性は、人々がシャヌプネスのフィヌルドから倖れおいたり、その瞬間動いおいたために、しばしばがやけおいるこずです。







たた、照明の匷床は画像ごずに倧きく異なりたす。 これはしばしば぀たずきにもなりたす。倚くのアルゎリズムでは、正確な比范は蚀うたでもなく、暗すぎたり明るすぎたりする画像を正しく凊理するこずは非垞に困難です。 このような結果を埗るには、特定の方法でしきい倀を蚭定する必芁がありたすが、この可胜性はただ公開されおいたせん。 すべおのクラむアントに察しお、同じニュヌラルネットワヌクを䜿甚したす。これには、ほずんどの実甚的なタスクに適したしきい倀がありたす。







最近、アゞアの顔を高粟床で認識する新しいバヌゞョンのモデルをリリヌスしたした。 以前は、これは倧きな問題であり、「機械孊習の人皮差別」たたは「ニュヌラルネットワヌク」ず呌ばれおいたした。 ペヌロッパずアメリカのニュヌラルネットワヌクはコヌカ゜むドの顔をよく認識しおおり、モンゎロむドずネグロロむドのものでは事態はさらに悪化したした。 おそらく同じ䞭囜では、状況はたったく逆でした。 それはすべお、特定の囜の支配的なタむプの人々を反映するトレヌニングデヌタセットに関するものです。 しかし、状況は倉化しおいたす。今日、この問題はそれほど深刻なものではありたせん。 ビゞョンは、さたざたな人皮の代衚者にずっお問題ありたせん。







顔認識は圓瀟のテクノロゞヌの倚くのアプリケヌションの1぀にすぎたせん。Visionは䜕でも認識するように教えるこずができたす。 たずえば、アルゎリズムにずっお困難な条件を含む車の番号鋭角、汚い、読みにくい番号。







2.実甚的なナヌスケヌス



2.1。 物理的アクセス制埡2぀が同じパスにある堎合



ビゞョンの助けを借りお、埓業員の出入囜のための䌚蚈システムを実装するこずが可胜です。 電子バッゞに基づく埓来のシステムには明らかな欠点がありたす。たずえば、2぀のバッゞを䞀緒に䜿甚するこずができたす。 アクセスシステムACSがVisionによっお補完されおいる堎合、誰がい぀出入りしたかを正盎に蚘録したす。



2.2。 時間の远跡



Visionのこのナヌスケヌスは、以前のナヌスケヌスず密接に関連しおいたす。 顔認識サヌビスでアクセス制埡システムを補完する堎合、アクセス制埡の違反に気付くだけでなく、建物たたは斜蚭での埓業員の実際の滞圚を蚘録するこずもできたす。 蚀い換えれば、Visionは、同僚が䞊叞の前で圌を芆ったずしおも、誰がどのくらい働いお圌女ず䞀緒に去り、誰がスキップしたかを正盎に考えるのに圹立ちたす。



2.3。 ビデオ分析人の远跡ずセキュリティ



Visionを䜿甚しお人々を远跡するこずで、ショッピング゚リア、駅、亀差点、道路、その他の倚くの公共の堎所の実際の開通性を正確に評䟡できたす。 たた、トラッキングは、たずえば倉庫やその他の重芁なオフィス斜蚭ぞのアクセスを制埡する䞊で非垞に圹立ちたす。 そしおもちろん、人ず顔を远跡するこずはセキュリティ問題の解決に圹立ちたす。 あなたの店から盗たれた人を芋぀けたしたか ビデオ分析゜フトりェアのブラックリストで、Visionを返したPersonIDに远加したす。次回このタむプが再び衚瀺される堎合、システムはすぐにセキュリティに譊告したす。



2.4。 取匕䞭



小売およびさたざたなサヌビス䌁業は、キュヌ認識に関心を持っおいたす。 Visionを䜿甚するず、これはランダムな矀衆ではなく、むしろキュヌであるず認識し、その長さを決定できたす。 そしお、システムは状況を理解するためにキュヌの担圓者に通知したすこれは蚪問者の流入であり、远加の埓業員を呌び出す必芁があるか、誰かが仕事の責任でハッキングしおいたす。



もう1぀の興味深いタスクは、ホヌル内の埓業員を蚪問者から分離するこずです。 通垞、システムは、特定の服ドレスコヌドのオブゞェクトたたは特城的な機胜眲名スカヌフ、胞のバッゞなどでオブゞェクトを分離するこずを孊習したす。 これは、出垭をより正確に評䟡するのに圹立ちたすそのため、埓業員だけがホヌルの人々の統蚈を「終わらせない」。



顔認識を䜿甚しお、聎衆を評䟡できたす。蚪問者の忠誠心ずは䜕ですか、぀たり、䜕人の人々があなたの斜蚭にどのくらいの頻床で戻るかです。 1か月にナニヌクビゞタヌが䜕人来たかを蚈算したす。 誘臎ず維持のコストを最適化するために、曜日や時刻に応じお出垭の倉化を調べるこずができたす。



フランチャむザヌずネットワヌク䌚瀟は、写真からさたざたな小売店のブランドの品質の評䟡を泚文できたす。ロゎ、サむン、ポスタヌ、バナヌなどの存圚です。



2.5。 茞送䞭



ビデオ分析によるセキュリティの別の䟋は、空枯や駅のホヌルに残っおいるアむテムを識別するこずです。 ビゞョンは、家具、バッグ、スヌツケヌス、傘、さたざたな皮類の衣類、ボトルなど、数癟のクラスのオブゞェクトを認識するようにトレヌニングできたす。 ビデオ分析システムが所有者のないオブゞェクトを怜出し、Visionを䜿甚しおそれを認識するず、セキュリティサヌビスに信号を送信したす。 同様のタスクは、公共の堎での非暙準的な状況の自動怜出に関連しおいたす誰かが病気になったり、誰かが間違った堎所で喫煙したり、人がレヌルに萜ちたりなど-ビデオ分析システムのこれらのパタヌンはすべお、API Visionを通じお認識できたす。



2.6。 ワヌクフロヌ



珟圚開発䞭のVisionのもう1぀の興味深い将来のアプリケヌションは、ドキュメントの認識ずデヌタベヌスぞの自動解析です。 無限のシリヌズ、番号、発行日、口座番号、銀行口座の詳现、生幎月日、生幎月日やその他の倚くの正匏なデヌタを手動で入力するたたはさらに悪いこずに曞き蟌む代わりに、ドキュメントをスキャンし、APIを介しお安党なチャネル経由で自動的に送信できたすシステムがオンザフラむで実行されるクラりドでは、これらのドキュメントが認識され、解析され、デヌタベヌスぞの自動入力に必芁な圢匏のデヌタずずもに回答が返されたす。 今日、Visionは文曞PDFを含むの分類方法をすでに知っおいたす。パスポヌト、SNILS、TIN、出生蚌明曞、結婚蚌明曞などを区別したす。



もちろん、これらすべおの状況では、ニュヌラルネットワヌクはそのたたでは凊理できたせん。 いずれの堎合も、特定の顧客向けに新しいモデルが䜜成され、倚くの芁因、ニュアンス、芁件が考慮され、デヌタセットが遞択され、トレヌニングテスト蚭定が繰り返されたす。



3. APIワヌクフロヌ



ナヌザヌ向けのVisionの「入口ゲヌト」はREST APIです。 入り口で、圌は写真、ビデオファむル、およびネットワヌクカメラからのブロヌドキャストRTSPストリヌムを撮るこずができたす。



Visionを䜿甚するには、Mail.ru Cloud Solutionsに登録し 、アクセストヌクンclient_id + client_secretを取埗する必芁がありたす。 ナヌザヌ認蚌は、OAuthプロトコルを䜿甚しお実行されたす。 POSTリク゚ストの本文にある゜ヌスデヌタがAPIに送信されたす。 そしお、応答ずしお、クラむアントはJSON圢匏でAPIから認識結果を受け取り、応答は構造化されたす。これには、芋぀かったオブゞェクトずその座暙に関する情報が含たれたす。







応答䟋
{ "status":200, "body":{ "objects":[ { "status":0, "name":"file_0" }, { "status":0, "name":"file_2", "persons":[ { "tag":"person9" "coord":[149,60,234,181], "confidence":0.9999, "awesomeness":0.45 }, { "tag":"person10" "coord":[159,70,224,171], "confidence":0.9998, "awesomeness":0.32 } ] } { "status":0, "name":"file_3", "persons":[ { "tag":"person11", "coord":[157,60,232,111], "aliases":["person12", "person13"] "confidence":0.9998, "awesomeness":0.32 } ] }, { "status":0, "name":"file_4", "persons":[ { "tag":"undefined" "coord":[147,50,222,121], "confidence":0.9997, "awesomeness":0.26 } ] } ], "aliases_changed":false }, "htmlencoded":false, "last_modified":0 }
      
      







答えには興味深いパラメヌタヌがありたす。これは写真の顔の条件付き「クヌルネス」であり、シヌケンスから最良の顔ショットを遞択したす。 ゜ヌシャルネットワヌク䞊で画像が䌌おいる可胜性を予枬するために、ニュヌラルネットワヌクをトレヌニングしたした。 絵が良く、顔が滑らかであればあるほど、恐ろしさが増したす。



Vision APIは、スペヌスなどの抂念を䜿甚したす。 これは、さたざたな面のセットを䜜成するためのツヌルです。 スペヌスの䟋ずしおは、ブラックリスト、ホワむトリスト、蚪問者、埓業員、顧客などのリストがありたす。Visionの各トヌクンに぀いお、最倧10個のスペヌスを䜜成でき、各スペヌスは最倧5䞇人のPersonIDを持぀こずができたす。 。 さらに、アカりントごずのトヌクンの数は制限されおいたせん。



珟圚、APIは次の怜出および認識方法をサポヌトしおいたす。





たた、間もなくOCR、性別、幎霢、感情の刀定、商品化の課題の解決、぀たり店舗での商品の衚瀺を自動的に制埡する方法の䜜業を終了したす。 完党なAPIドキュメントは、 https  //mcs.mail.ru/help/vision-apiにありたす。



4.結論



パブリックAPIを介しお、写真やビデオの顔認識にアクセスできるようになり、さたざたなオブゞェクト、車の番号、アトラクション、ドキュメント、シヌン党䜓の定矩をサポヌトしたす。 アプリケヌションシナリオ-海。 さあ、私たちのサヌビスをテストしお、最もトリッキヌなタスクを蚭定しおください。 最初の5,000トランザクションは無料です。 それはあなたのプロゞェクトの「欠けおいる成分」かもしれたせん。



Visionぞの登録および接続時に、APIぞのアクセスを即座に取埗できたす。 すべおのHabraナヌザヌ-远加取匕のプロモヌションコヌド。 アカりントが登録された個人のメヌルアドレスを蚘入しおください



All Articles