🤱🏿 🧑🏽 👩🏻‍🚒 多数のセンサーと1人の祖母が進歩に貢献 👆🏽 🥅 🥄

こんにちは、Habr！

今日は、8月末にワシントンの首都で開催されたICDARおよびCBDARカンファレンスについてお話します。より正確には、会議全体に関するものではありません。そこにある科学は非常に具体的であり、ABBYYの従業員のほかにロシア語を話す参加者が1、2回いて、彼らが報酬を得たことは無駄ではありませんでした。ここでは、 Kai Kunzeという名の熱狂的な科学者の指導の下で、チームの仕事についてお話します。

Kaiの関心分野は、会議のテーマと完全に一致しているわけではありませんが、密接に絡み合っています。 Kaiは、彼のCBDAR基調講演で彼の開発について十分に詳しく話しました。 そして、Kaiは、ユーザーに何をしているかを理解するようにコンピューターに教えることをしています。 会議参加者の大部分（私を含む）はハードウェアに精通していないため、このトピックはレポートで適切に扱われていなかったため、鉄に関する話はありません。

さらに、私はこの科学者のビジョンを説明します（彼を理解できた限り）。ここでの判断は私自身のものではなく、Kai Kunzeのものであるということはあまり言及しません。

技術開発の現在の段階では、作業のボトルネックはユーザーの注意です。特別な注意を必要としないデバイスの方が使いやすいです。したがって、コンピューターは予防的になる必要があります。どのように見えますか？小さな例を見てみましょう。

非常に複雑なデバイスを修復しているため、頻繁に手順を確認する必要があるとします。あなたが今何をしているかに応じて、誰かがあなたのために必要なページを親切に開いてくれたら便利でしょう。この人があなたが何をしていて、あなたの困難が何であるかを理解していれば、これは簡単に達成できます。このような理解を達成するために、活動認識システムが作成されています。

このシステムは、ジャイロスコープ、マイク、コンパス、超音波、慣性センサーなど、人に掛けられているさまざまなセンサーから入力情報を受け取ります。著者はシステムのトレーニング方法を開示していませんが、現時点では突破口はないと思います：おそらく、隠れマルコフモデルが使用され、事実上、連続プロセスを認識するための標準になっています。システムはすでに十分に訓練されており、さまざまなタイプのアクティビティを認識しています（レポート中、カイは、同じ作業を実行するさまざまな人からの信号が大きく異なるため、システムが特定のユーザーに調整されたことを正直に認めました）。アクティビティの各タイプには、独自のセンサーセットが必要です。しかし、まだ多くの問題があります。

朝、祖母が自分で数十個のセンサーをぶら下げ、活動を変更するときにセンサーを交換すると想像できますか？まあ、あなたが祖母が研究を手伝ったカイ・クンゼである場合を除いて。したがって、実際の作業では、センサーからのデータを自動的に較正して、センサーが身体のどの部分にあるかを動的に判断し、センサーから受信したデータを評価する必要があります。実際、今日、人々はすでに携帯電話にセンサーを搭載しており、同じスマートフォンはジャイロスコープとマイクを備えています。Kaiによると、彼らはすでに彼の目的に十分敏感です。 GoogleGlassesの普及により、タスクは完全に現実のものになります。

人が利用できるセンサーから一連のデータベースをアクティブ化することになっています。カイ自身が予測しているように、2015年から2020年の間に認識精度は95％を超えると予想されます-これは、センサーを備えた学生ではなく、スマートフォンを使用する一般の人向けです。

それでは、会議のトピックに戻りましょう。 Kaiと彼の同僚は2つの開発を発表しました。 1つ目は、脳の脳波による、人が読んでいるもの-科学記事、ニュース、または漫画（カイは大阪大学で働いています）を見つける試みです。さらに、この実験では、システムはある被験者でトレーニングされ、別の被験者でテストされました。結果はまだ否定的です：正確に人が読んでいるものを見つけることができません-システムはランダムな答えを与えます。しかし、読書と動画や写真の鑑賞を区別することは非常にうまくいきました。ただし、実験が多すぎない（各タスク3回）ため、肯定的な結果について真剣に話すのは時期尚早です。

会議で話し合ったグループの2番目の開発は、ユーザーがドキュメントで読んでいるものを分析するための視線追跡システムです。このシステムには2つのレポートが当てられています。アイデアはシンプルです-ユーザーがドキュメントを勉強しているときに視線の方向を修正する小さなカメラ-それは紙でもコンピューターでも構いません。この点は次のようになります。

各実験の前に、システムが調整され、ドキュメントの中心を4つの角度で順番に見るようにユーザーに促します。有望な歪みを克服するために、文書はこれまでデータベースから選択され、歪みのない形式で保存されます。

率直に言って、基地はそれほど大きくはありませんでしたが、そこからの文書は非常に確実に認識されました。システムは多くの要求を行い（それぞれ約40ミリ秒かかりました）、ほとんどの場合、ユーザーがどの文書を読んでいるかを正しく認識しました。

多くの異なる目的で必要になる場合があります。たとえば、「この場所を読んだユーザーの10％のみ」というシリーズの統計を保持できます。これを行う方法がレポートで強調されました。すぐに言ってみましょう-ユーザー同意書の読みを制御するというアイデアは表明されませんでした:)スピーカーは彼の読みのログを表示し、次のページをどのように見て、理解できない略語に会ったかを見ました。このシステムの開発では、目を追跡するカメラに加えて、特別な半透明のバーチャルリアリティヘルメット（シースルーヘッドマウントディスプレイ、HMD）が被験者に装着され、目で制御できます（ユーザーが2秒以上見た場合、ボタンが押されたと見なされました））ユーザー側からは次のように見えました。

レポートでは、このデバイスのテストについて説明しました。実験は次のようなものでした-ユーザーは「データベースから」テキストを読み取ることができました。このテキストには「now look at the monitor」という行が含まれていました。記事では、約100％のリコール（常にユーザーが画面を見たとき、システムはこれを理解した）と44％の精度（システムがユーザーが画面を見ていると思った場合の半分以上で、彼女は間違っていた）を報告しました。

これはこれまでのところ科学的な発展に過ぎず、何かが「成長」するかどうかは言うのが難しいことは明らかです。しかし、Kai Kunzeは現在、マウスポインターで見てプラス記号をクリックして、このレビューを評価できる人物です。

大きな本会議のスライドはここで見ることができます。

ドミトリー・デリヤギン

技術開発部

多数のセンサーと1人の祖母が進歩に貢献

More articles: