一般的な分類アプローチ
現在利用可能なビデオでのポルノの検索のさまざまな実装に精通しているので、包括的に問題にアプローチすること、つまりポルノの異なる兆候を使用することにしました。 ビデオは複数の検出器を通過し、それぞれが異なる精度でビデオの「ポルノ」の推定値を返します。 次に、結果の推定値が1つの最終に結合されます。
映画全体を評価するのではなく、小さな断片を探すことにしました。 フラグメントサイズは、最終分類の精度に基づいて決定されました。
複数の検出器を使用したこのアプローチでは、それらを組み合わせて新しい検出器を追加し、それぞれを個別に処理できます。 現在まで、システムは4つの検出器で構成されています。
- 動きの性質(リズム) ;
- color(フレーム内のピクセル数「肌色」) ;
- フレームコンテンツ(画像内の特性フォーム);
- 音(うめき声の存在)。
これらの各検出器は、フラグメントがポルノである確率を返します。 そして、全体的な確率を計算するだけです。
各検出器について個別にもう少し詳しく説明します。
運動の性質
フレーム内のリズミカルな動きの探索は、私たちが仕事を始めた場所です。 しかし、最初に、分類自体に関するいくつかの言葉。 分類の本質は、オブジェクトの特定のセットを2つの(この場合)クラスに分割することです。 これを行うには、次のことを行います。
- 手動で分類するオブジェクトのトレーニングセットを使用します。
- 統計モデルのパラメーターを選択する手順を作成します。
- オブジェクトのトレーニングセットでモデルをトレーニングします。
- モデルの精度を評価するために、テストセットでテストします。
だから、すべてが簡単です。 つまり、最初はリズミカルなポルノでフラグメントを取得するタスクがありました(ポルノ労働なしでフラグメントを収集することは難しくありませんでした)。 多くのビデオが視聴され、特徴的なリズミカルな動きのシーンがカットされて保存されました。 これには60時間かかりました(分類のためには、オブジェクトが多いほど良い)。
次の記事で、リズミカルな動きの検索の技術的な詳細を説明します。 ここで、我々の方法の基礎は時空フィルターの使用であることに注意してください。
色
色を使うと、動きよりも物事が簡単になります。 画像の各ポイントには、特定の色空間の座標があります。 このような座標を持つ点がより一般的である場所を判断するだけです。裸の人体の画像または写真の他の領域です。 これらのデータに基づいて、人々の裸の体で満たされているビデオの断片の特性を取得します。 また、特定の実装については触れず、使用する色空間についていくつか説明します。 YUVカラーモデルに決めた理由は次のとおりです。
- 色座標は2つ(UとV)のみです。
- 輝度座標(Y)を破棄すると、オブジェクトの異なる輝度を考慮しない場合があります。
- ビデオを操作するときに追加の変換を実行する必要はありません。
フレームコンテンツ
ポルノを探すとき、個々のフレームを無視することはできません。 あなたもそこに何かを探す必要があります。 スタッフから有用な情報を直接抽出するために、 Bag of Visual Wordsを使用することにしました。 つまり、「視覚的な言葉」が最初に定義されます。ポルノのあるフレームとないフレームを最もよく特徴付ける断片またはサンプルです。 このような視覚的な単語のセットが判明しました。 そして、分類中に、画像内の特定の単語の存在による私たちの検出器は、このフレームのポルノの推定値を与えます。
音
サウンドディテクターは、ポルノの認識に役立つ2つの主要なパラメーターに基づいています。
- 人間(主に女性)の声の音の存在。
- 特定の音のリズミカルな繰り返し。 このために、 メル周波数ケプストラム係数の計算を使用します。
したがって、音声の断片にうめき声があることを(もちろん、ある程度の確率で)判断できます。 つまり、これら2つのパラメーターに従って、検出器はフラグメントを分類します。
おわりに
それだけですか? もちろん違います。 これは単なる紹介です。 異なる検出器のすべての技術的な詳細を積み上げるのではなく、別々の記事で説明することにしました。 検出器は根本的に異なるため、検出器に対する作業は個別に実行され、作業量(したがって記述量)は異なりました。
したがって、継続するには:
Licenzero:シンプルな動き
Licenzero:肌の色でポルノを探す