MERC-2017コンテストの結果について:受賞者とコメント

独自のDatacombatsサイトで開催されたNeurodata Labからの最初のMERC-2017機械学習コンテストは終了し、終了します(まもなくプラットフォームの更新された本格的なバージョンを紹介します)。 在庫を取り、結果についてコメントする時間です。 ブログの前回の投稿で、統計の視覚化に慣れることができます。

画像



コンテストのアイデアはどうでしたか



私たちの研究室は、私たちが扱っている感情データの性質と特異性のために、機械学習、またはむしろ音声およびビデオストリームの感情を認識する技術に取り組んでいます。 これは十分に研究された分野ではありません。平均して、1年に平均2〜5件の専門的な記事しか公開されておらず、最先端のアプローチの正確さは容認できません。 そして、人々の画像(写真)で基本的な感情が一般的に非常によく認識されている場合、音声ではすべてがはるかに複雑になります。 さらに、ボディランゲージと目の動きを使用する適切な試みはほとんどありませんが、これらは非常に有益な情報源です。 いくつかのチャネルを組み合わせるという問題も満足のいくものではありません。利用可能なすべての機能(サイン)の素朴な組み合わせや、個々のモデルの予測が発明されたのです。

私たちに関連するもう1つの問題は、実際にはすべてのデータが利用できるわけではないということです。 たとえば、舞台裏で人物の顔を見たり、接写した人物の手の動きを見たりすることはできません。技術的な不具合があります。マイクがひるんで、深刻な干渉とノイズが発生するとします。

両方の問題は、それらを解決するために設計された膨大な数の仮説を示唆しています。 それぞれを試すのは物理的に困難です。 だからこそ、私たちはコンペティションを組織し、集合的な精神に目を向けることに決めました。



問題の声明と提案されたデータ



感情データセット-RAMASとラベル付けされた独自の実験室タイプがあります。 約7時間のビデオで構成されており、さまざまな俳優のペアが実際の生活のシーンを再生し、素材のプレゼンテーションの高度な即興性と多様性を可能にするシナリオに合わせています。 各研究は、外部のアノテーター(エピソードごとに5〜6人分)によって、その感情についてマークされます。 実際には、ビデオで考慮した機能によって予測する必要がありました。



私たちは、参加者に新しく行われた手動によるマーキングの可能性のある状況を回避するために、参加者にビデオファイルを提供しませんでした。したがって、私たちは標識に限定しました。 ここで最初の落とし穴に直面しています-なぜこれらの機能を正確に考慮したのか、どのように考えているのかを人々に説明する必要がありました。 音、体、目については、参照記事を参照することができ、それが行われた場合、顔には別のアプローチが必要でした。 2つのオプションがありました。 1つは、顔の68のキーポイントを強調表示することです。 この場合、何が原因であるかは明確であり、それをうまく視覚化することもでき、なぜそうなのかをより簡単に説明することもできますが、内部の実験では、このアプローチでは大量の情報が失われることが示されています ビデオのすべてのフレームで顔を選択し、事前に訓練されたニューラルネットワークを介して実行し、最後から2番目に完全に接続されたレイヤーから出力を取得し、 主成分法を使用て次元を縮小します 。 より詳細には、このおよびその他の技術的側面はコンテストの説明で取り上げられました。



もちろん、不正行為の可能性(ブルートフォース、グリッド検索、運転)を最小限に抑えたいと思っていました(ただし、木が落ちる可能性は最小化されませんでしたが、それ以上になります)。 これを行うために、簡単に言えば、参加者が特定のアクターで再トレーニングしないように機能プレートの名前を変更し、競技中にアクセスできないサンプルの最終決定チェックを導入し、モデルが2段階で同じであることを要求しました。



解決策



最初の段階が終了するまでに、約20の解決策が得られました。 これは非常に小さく、そのうち、約半分が公開テストサンプルの52.5%の精度を上回りました(52.5%はソリューションの精度で、lstmグリッドに単純に積み重ねました)。 第2段階では、テストサンプルのプライベート部分を投稿しました。

参加者に、予測+モデル自体+モデルの構成要素、機能の実行内容などに関する主要な質問を含む小さなレポートを送信するように依頼しました。 サンプルの公開部分のリーダーは、彼の決定を非常に迅速に説明し、競争の結果に基づいて、彼の立場を維持しました。 私たちは自分たちが知らなかったものを見つけることを期待して、受け取った文書を開きました。



額のチャネルを結合し、データのギャップを中央値に置き換え、xgboostをモデルとして魔法の木数で使用する必要があることが判明しました。 両方のテストサンプルをすぐに確認し、すべてが揃った。 私たち自身の実験では、たとえば、他のチャネルのギャップを予測する生成ネットワークを教え(比較的悪いことが判明しました)、)がちょうど開きました。 はるかに良い。 いずれにせよ、機能と後処理の処理は多く行われましたが、パスの処理とチャネルの結合の観点からもっと多くのことを望んでいました。

第2段階では、公開テストとプライベートテストのメトリックが0.3異なるため、提示された2つのソリューションが明らかに間違っていました。 残りは来週のために会社を作りました、我々はそれらを完全に分解しました。 レポートを分析し、スクリプトを実行し、送信された予測と当社側の起動結果を比較する必要がありました。



決定チェック



メソッドの分析は難しくありませんでした。ソリューションは、機能の前処理、モデルアーキテクチャ、およびいくつかの小さなものによって互いに異なっていました。 ほとんどすべてのソリューションは、必要に応じて箱から出してすぐに開始されました。 3番目と4番目の位置が入れ替わったことに興味があります。 この場合、ニューラルネットワークのアーキテクチャを最適化するよりも、サインを操作する方が効果的であることがわかりました。 その結果、4位の参加者は、明らかに、公開テストサンプルで再トレーニングを行い、プライベートで-6%になりました。

しかし、ジュース自体は2位をチェックすることでした。 チームの決定は、22個の重いLSTMグリッドのアンサンブルで構成されていました。 最初から結果を繰り返すことはできませんでしたが、約5回目からパズルが開発されました。 次回はもちろん、アルゴリズムの速度に制限を追加します。



最終評価と賞品は次のように配布されました。

画像

面白いのは、1位と2位の2つのまったく異なるアプローチが小数点以下4桁でのみ異なることです。 これは、もちろん、偶然であり、激しい競争の兆候ではありませんが、それでもなおです。

一方、パスとの戦いとチャンネルのマージについての期待は実現しませんでした。 参加者はこの問題にほとんど注意を払わず、機能とアーキテクチャの処理を最適化しました。 それでも、これは非常に貴重な経験であり、次回のコンテストの準備において、すべてのニュアンスで考慮されます。



受賞ソリューションの概要:



配置:tEarth

モデル:lightXGB

チャネル集約:機能レベル

パス処理:メディアに置き換えられました。

特徴:毎秒、属性の中央値が計算され、モデルはそのようなデータ+予測の後処理+非常に一貫したデータのトレーニング(aas> = 0.8)でトレーニングされました。



II位:10011000

モデル:異なるパラメーターでトレーニングされたlstmモデルのアンサンブル、わずか22個

リンク集約:決定レベル

パス処理:0

特徴:予測計算には、各テストで1日以上かかります(リアルタイムよりも30倍遅い)。



III位:レシャトノワール

モデル:通常のlstm

チャネルの組み合わせ:目と顔が組み合わされ、キネクトの一部の機能が拒否され、その後決定レベル

パス処理:0



審査員コメント



アレクセイ・ポタポフ 、技術科学博士、コンピュータフォトニクスおよびビデオ情報学科教授、NRU ITMO:

「まず、参加者(XGBoost、LSTMアンサンブル)が使用するメソッドの単純さは、実際には相対的であることに注意してください。しばらく前に、それらは非常に複雑に思えたかもしれません。 したがって、これらは単に最新の十分にテストされた方法であり、その適用は研究開発に過度の努力を必要とせず、参加者はこれらの条件に時間を持っていません。 長い大会でも、この結果は非常に典型的です。 この意味では、元のモデルの形の「奇跡」が発生した可能性はありますが、それは非常に自然です。 結果は、問題のこの構成におけるこれらの方法が本当に最適に近いことを意味しないことを強調する価値があります(疑わしいけれども、これも可能です)。

最初の2つの場所でほぼ同じ精度については、これは奇妙ですが、4番目の文字の違いはまだ偶然のようです。 データ自体のプロパティが原因である可能性があります-提供された属性のクラスが分離できないため、原則として顕著な改善は達成できません。 しかし、私は先験的にそれを信じていません。 たとえば、ImageNetでは、2012年にたたみ込みネットワークの適用が成功するまでの最良のソリューションは非常に近かったが、その後、深いネットワークはこれらすべてのソリューションを大幅に凌byした。 このタスクでも同様の状況が可能であるように思えます。 おそらく、同じ生成モデルを使用して、これを達成できます(ただし、毎月のコンテストのフレームワークで同様のブレークスルーを期待するのは多少楽観的ですが)。 しかし、どうしてそんなに異なるモデルが品質において同様の結果を与えるのか、私はまだ答えるのが難しいと感じています。

他にどのような方法を使用できますか? 明らかに、リカレントネットワークの他のブロック(GRU、擬似リカレントネットワークなど)。 畳み込みネットワークもまた、もちろん、元のモデルを開発することがより有望であると考えられます。



Pavel Prikhodko博士、Skolkovo科学技術研究所、IPPI RAS:

「主要な決定について再訓練があまり行われていないという事実は良い兆候です。 それらがどれほど一般化されているかは未解決の問題ですので、試してみる必要があります(少なくとも何らかの形で苦労したり修正したソースデータについて)。 ほとんどの場合、ビデオを使用して畳み込みネットワークでフィーチャを計算し、LSTMに適用することでエンドツーエンドの問題を解決すると、精度が向上する可能性があります(特に、フィーチャは畳み込みグリッドで既に生成されているため)。 さらに、感情のマークアップは、厳密に言えば、それぞれが感情を判断するための独自のしきい値を持つ専門家に依存します。 異なる人々が異なる感情を聞くことができる機能空間の領域があります。 これは問題の本質的な特徴であり、複数のラベルを持つステートメントを検討する価値があるように思えます。 まず、生成モデルまたは他のアプローチ(たとえば、スピーカーのパラメーターを変える)を、トレーニングサンプルのサイズを大幅に増やし、データの外乱に対するモデルの耐性を高める方法として検討します。 7時間ではまだ開始データセットの十分な大きさではありません。つまり、サイズを1桁大きくすると、品質が著しく向上する可能性があります。



テキストに取り組んだ:

Grigory Sterling、数学者、機械学習およびデータ分析の専門家Neurodata Lab



All Articles