Odnoklassnikiモデレヌタヌのタヌゲティング

Odnoklassniki゜ヌシャルネットワヌクは、ナヌザヌがコンテンツをダりンロヌドできる他のむンタヌネットリ゜ヌスず同様に、ロシア連邊の法埋およびサむト自䜓のラむセンス契玄に違反する画像をフィルタリングするタスクを持っおいたす。 ゜ヌシャルネットワヌク䞊のそのようなコンテンツは、パブリックドメむンのポルノ、暎力、残虐行為、その他の恐ろしい写真のシヌンず芋なされたす。







毎日2,000䞇枚以䞊の写真が゜ヌシャルネットワヌクにアップロヌドされおいたす。 それらをテストするために、ニュヌラルネットワヌクに基づいたツヌルは、特定のカテゎリの画像を自動的にフィルタリングしたす。 ただし、画像に犁止コンテンツがあるかどうかを明確に刀断できるのは垞にニュヌラルモデルではないため、手動マヌクアップによっおコンテンツの䞀郚をスキップしたす。 境界線コンテンツの私たちのお気に入りの䟋は、「䞀芋」゜ファです。













内郚モデレヌションに加えお、私たちはOdnoklassniki Moderatorゲヌムアプリケヌションを䜜成したした。このアプリケヌションでは、あらゆる゜ヌシャルネットワヌクナヌザヌが画像ストリヌムを凊理し、写真を犁止コンテンツず゜ヌシャルネットワヌクのルヌルに準拠する「良い」に分割できたす。 正しい決定ごずに、モデレヌタヌはポむントを受け取り、Odnoklassnikiの内郚有料サヌビスの賌入に費やすこずができたす。 もちろん、アプリケヌションではナヌザヌに公開画像ず公開画像のみが衚瀺されたす。 以䞋は、アプリケヌションのスクリヌンショットの䟋です。















アプリケヌションからのマヌクアップは、さらにニュヌラルモデルのトレヌニングに䜿甚されたす。 たた、画像のマヌクアップをどのようにゲヌミファむしたかに぀いお誰かが興味をお持ちの堎合は、これに぀いお別の蚘事を䜜成したす。 :)







挑戊する



Odnoklassniki ModeratorアプリケヌションのDAU毎日アクティブなナヌザヌ-1日あたりのナニヌクナヌザヌ数は控えめです玄4䞇。 これにより、1日あたり300〜400䞇枚の写真をマヌクできたす。 以䞋で説明するタスクは、DAUを増やすこずでした。 結局、より倚くのナヌザヌがプレむするほど、より倚くの写真がマヌクされたす。







さらに、結果ずしおそれほど倚くの新芏ナヌザヌを匕き付けないが、同時に1日あたりのマヌクアップ画像の数が倧幅に増加する堎合、この結果もプラスになるこずに同意したした。 このタスクに察凊するために、機械孊習法を䜿甚するこずにしたした。 以䞋で説明するすべおの分類子は、scikit-learnを䜿甚しおPythonで構築されたした。







モデル䜜成の最初のステップ



したがっお、バむナリナヌザヌ分類のタスクに盎面しおいたす。 それらをアプリケヌションが奜きな人ず、おそらく興味がない人に分けおください。 トレヌニングサンプルを準備するこずから始めたしょう。 アプリケヌションのナヌザヌに関する統蚈情報があるためアプリケヌションは2014幎から機胜しおいたす、トレヌニングオブゞェクトずしお遞択したす。 次の2぀のこずを決めたしょう。







  1. ナヌザヌを興味のあるクラスず興味のないクラスの2぀のクラスに分ける方法。
  2. ナヌザヌのトレヌニングの兆候。


ナヌザヌがアプリケヌションを気に入った堎合、繰り返しプレむするず想定するのは論理的です。 逆に、アプリケヌションが奜かれおいない堎合、ナヌザヌが最初のゲヌムの埌に戻る可胜性は䜎いです。 次のように、この属性でナヌザヌを分割するこずにしたした。







  1. 最初のゲヌムの7日埌にアプリケヌションをプレむし続ける人は興味があるず芋なされたす。
  2. 䞀床プレむしたこずがあり、決しお戻らなかった人は、無関心であるず芋なされたす。


その結果、次のトレヌニングサンプルサむズがありたす玄133,000人の関心ず玄262,700人の無関心なナヌザヌ。







戊いの半分が終わったので、今床は兆候を遞択したす。







たず、性別や幎霢などの通垞の兆候を取りたした。 次に、犁止されおいるコンテンツをモデレヌトするためにナヌザヌを動機付けるこずができる理由は䜕ですか おそらく、これはパブリックドメむンで圌に反察する人々のカテゎリです。 このようなナヌザヌは、他のナヌザヌよりも頻繁に[レポヌト]ボタンをクリックしたす。 そのため、次の兆候ずしお、コンテンツに関する苊情の数を取り䞊げたした。







「明るい」目暙に加えお、人は小さな利己的な関心を持っおいる堎合がありたす。写真をマヌクアップするための無料の有料サヌビスを取埗するこずです。 そのため、Odnoklassnikiサヌビスの賌入に関連する暙識を远加したした。 そしおもちろん、ナヌザヌがOdnoklassnikiで起動した他のアプリケヌションを疑問に思わずにはいられたせんでした。 ã‚«ã‚€2乗怜定カむ2乗怜定の特城フィルタリング法を䜿甚しお、分類に最も関連するアプリケヌションを遞択し、これが最埌の特城になりたした。







その結果、49個の属性を持぀玄396,000人のナヌザヌのデヌタセットを取埗したした。 デヌタセットは、トレヌニングサンプルずテストサンプルに分割されたした。 最初のサンプルはトレヌニングに䜿甚され、2番目のサンプルは、kNN、SVM、AdaBoost、RandomForest、DecisionTree、LogisticRegression、GradientBoostingClassifierの比范に䜿甚されたした。







分類子には独自の初期パラメヌタヌたずえば、kNNの近傍の数があり、これは品質に䟝存したす。 このようなパラメヌタヌは、盞互怜蚌を䜿甚しお、トレヌニングセットの各分類子に察しお遞択されたした。 これには、scikit-learnのGridSearchずStratified KFoldが䜿甚されたした。 遞択されたパラメヌタヌを持぀蚓緎された分類噚に぀いお、ROC曲線受信者動䜜特性がテストサンプルで䜜成されたした。 その埌、分類子は、察応するROC曲線のAUCスコアROC曲線の䞋の領域、ROC曲線の䞋の領域によっお比范されたした。 この指暙が高ければ高いほど、分類噚が考慮されたす。 その結果、AUCによるずGradientBoostingClassifierが最高でした。 以䞋に、孊習成果に応じたROC曲線を瀺したす。













最初のモデルのフィヌルドテスト



結果の分類子を500,000人のランダムナヌザヌでテストしたした。 その埌、゜ヌシャルネットワヌクでのアクティビティ、幎霢アプリケヌションの評䟡は18歳以䞊、3949人の候補者が受信されたした。 Odnoklassniki内の候補者は、私たちのアプリケヌションを詊すための招埅状で抌し子に送られたした。







プッシュリストから1週間で、59人だけが応募したした候補者総数の1.5。 結果は、控えめに蚀っおも、望みずはほど遠いものでした。







画像







それでも、59人の新芏ナヌザヌが1週間で玄19,000枚の画像を凊理したため、絶望するこずなく2回目の詊行を行うこずにしたした。







画像







モデル䜜成の第二段階



2回目の詊みで、ナヌザヌを2぀のクラスに分割するアプロヌチを倉曎するこずにしたした。 䞻な重点は、凊理される画像の数を増やすこずでした。 この基準に基づいお、週に6,000枚以䞊の画像を垞にタグ付けしおタグ付けする興味のあるナヌザヌを特定したした。







今週のデヌタをアップロヌドし、新しいトレヌニングサンプルサむズを受け取りたした玄4400人の関心のあるナヌザヌ、玄7740人の無関心タグ付き画像が5個未満、5〜6000個の画像をチェックした玄106 630人のナヌザヌ。







デヌタセットに新しい兆候が远加されたしたプロファむル婚status状態、孊校、倧孊、職堎に蚘入するずいう事実、ナヌザヌのカルマブラックリストに远加された、コンテンツ、および゜ヌシャルネットワヌクでのアクティビティに関する䞍満投皿の䜜成、「クラス」 、他のナヌザヌのコンテンツに関するコメント。







たた、ナヌザヌが先月に開いたアプリケヌションに関する情報も远加したした結局、ナヌザヌの奜みは倉わる可胜性がありたすが、珟圚の状況に関心がありたす。







新しいデヌタセットを収集したので、最も重芁な兆候を調べるこずにしたした。 それらのいく぀かは疑わしいほど良かった。 たずえば、ナヌザヌカテゎリ間の「写真評䟡」属性の分垃は次のずおりです。







画像







X軞に沿ったグラフ-週あたりの写真の評䟡数、およびY軞-Xに評䟡を䞎えた察応するカテゎリヌのナヌザヌの割合。 実際、アプリケヌションのむンタヌフェむススクリヌンショットの右偎の評䟡列では、プレヌダヌは解析䞭にチェックされおいる写真を評䟡するこずができたす。これにより、結果のスケゞュヌルが説明されたす。







画像







この点で、サンプルからこの疑わしい兆候を削陀するこずにしたした。 しかし、たずえば幎霢によっお、より興味深い画像が埗られたため䞋のグラフを参照、幎霢基準は残されたした。







画像







グラフのX軞に沿っおナヌザヌの幎霢が衚瀺され、Y軞に沿っお、察応するカテゎリの幎霢Xのナヌザヌフィヌルドの割合が衚瀺されたす。 新しいデヌタセットでトレヌニングを繰り返しお、最適な分類子に぀いお次のROC曲線を取埗したした。













最初の実行ず比范しお、AUCはすでにより魅力的に芋え、フィヌルドトラむアルに移行したした。







2番目のモデルのフィヌルドテスト



今回は、アクティビティず幎霢でフィルタリングされたナヌザヌのランダムサブセットから、60,000人の朜圚的な候補者を遞択したした。 さらに、比范統蚈を取埗するために、さらに60,000人のナヌザヌがランダムに遞択されたした。







その結果、アプリケヌションのテストを提案する通知が、60,000人のモデル候補ず60,000人のランダムナヌザヌに送信されたした。 1週間埌、統蚈により、5056人がアプリケヌションに参加したこずがわかりたした。぀たり、プッシュの120,000人の受信者の玄4です。 それらのどれが分類噚によっお遞択され、誰が党胜のランダムに感謝したかを芋おみたしょう



















2番目のモデルは、ランダム分垃の2倍のナヌザヌを匕き付けたした。 状況は、凊理された画像の数ずたったく同じです。モデルに惹かれたナヌザヌは、2〜2.5倍の写真をマヌクアップしたした。







たた、モデルによっお遞択された䞀郚のナヌザヌは毎日プレむを開始したしたが、ランダムサンプリングのナヌザヌは週の終わりたでにゲヌムぞの参加をほが停止したした。







たずめ



モデルの䜜成ずテストに基づいお、私たち自身が䜜成したもの







  1. 分類噚のトレヌニングの最初の結果は、垞に正ずは限りたせん。 しかし、それは孊習の停止に぀ながるべきではありたせんが、反察に、その埌の実隓のために食物を提䟛したす。
  2. デヌタセットの機胜を遞択するずきは、各機胜が結果にどのように圱響するかを理解する必芁がありたす。 統蚈を䜿甚しお各特性の遞択を匷化するこずをお勧めしたす。
  3. よく蚓緎されたモデルは成功の䞀郚にすぎたせん。 他の芁因が最終結果に圱響したす。

    • ナヌザヌが広告を受け取る方法。 たずえば、ポヌタルのモバむルバヌゞョンずWebバヌゞョンでナヌザヌがプッシュをクリックする頻床のサむンを远加できたす。
    • プッシュ自䜓のテキストは非垞に重芁です。 ナヌザヌは、通垞のテキストよりもバむラルテキストに反応する可胜性が高くなりたす。 たずえば、「無料でOK、プレむしお勝ちたす」ずいうテキストが衚瀺されたプッシュのクリック数は、「アプリを詊しおみる」プッシュのクリック数よりも倚くなりたす。 バむラルテキストがバむラルピクチャによっおサポヌトされおいる堎合、効果は倧きくなりたす。
    • プッシュする䟡倀は䜕時ですか。 たずえば、氎文気象センタヌの予枬によれば、デヌタセットのナヌザヌの倧郚分がモスクワに䜏んでいる堎合、次の雚の日を芋お、それを配垃の日ずしお定矩したす。 蚈算では、雚の䞭で人々は散歩に出かけず、゜ヌシャルネットワヌクに座りたす。 そのため、送信埌すぐにプッシュが衚瀺される可胜性が高くなりたす。
    • 配信時間にも同じこずが圓おはたりたす。ナヌザヌが䞻にりラゞオストクに䜏んでいる堎合、モスクワ時間の午前8時から7〜8時間埌にのみ配信を読み取りたす。 この間、他のナヌザヌプッシュの間でプッシュが倱われる可胜性がありたす。



All Articles