みんなを見ていると......

...そして、いいね!も設定します。



それはすべて、ある出会い系サイトで、写真が処理なしでそこに保存されていることを発見したという事実から始まりました。



もちろん、アバターやリボンなどの場合、写真は拡大縮小され、トリミングされ、他の変形が加えられましたが、表示するときに「元の写真」リンクをクリックすることができ、もちろんそこにあるすべてのコンテンツ(EXIF)が開きます。 Rarjpegも働いた。 はい、PNG形式で写真をアップロードした場合、JPEGに変換されました。



写真をダウンロードし、誰が何をしているのかを疑うことなく公開アクセスで投稿することにしました。 ユーザーが設定で反対の設定をしていない場合、未登録のユーザーでも1枚の写真のプロファイルが表示されます。 一般に、私はジオタグに興味があり、他のすべては二次的なものでした。



まず、写真付きの0〜99歳の女性のプロフィールに制限します。 その時点で、そのようなアンケートは10611でした。判明したのは、プロファイルに関する情報、そしてプロファイルからの情報を処理するツールを選択するときです。 選択肢はC#にありました。 検索するためにサイトにログインする必要さえありません。



見つかったページ数を確認し、サイクルを作成して、検索結果をダウンロードします。 443ページあります。 次のステップは、これらのページを調べて、それらからidプロファイルを抽出することです。 この段階で、id、nickname、およびageで構成されるデータベースを取得しました。



画像



ページをダウンロードする必要がありました。 この段階では、サイトでの承認がすでに必要でした。 webclientからログインしようとする試みはすべて失敗し、webbrowserからcookieを取得しようとする試みも失敗しました。 Wgetが入ります。 excelを使用して、10,611行の呼び出しgetPage%idと、セッションの保存、firebugを使用して作成されたcookies.txtファイルからのcookieのロード、および同じfirefoxのユーザーエージェントからwgetを呼び出すgetPage.cmdファイルで構成されるcmdファイルが作成されました。 ちなみに、ページは古いバージョンのサイトからダウンロードされました。これは、アンケートの登録日、編集日、および最後のアクティビティの日付が表示されたためです。また、ユーザーが指定した場合、「名前」フィールドが表示されることもありました。 出力は850 MBのhtmlファイルでした。 スクリプトの動作が終了すると、「You Watched」セクションのサイトで、450ページのプロファイルが表示されました。 プロファイルを処理するために、再びC#に戻りました。 アンケートファイルの処理後、名前と日付に関するデータが既存のデータベースに追加されました。 非常に興味深い標本に出会いました。 たとえば、2005年に作成され、その後編集されていないアクティブなプロファイル。



画像



アンケートファイルを処理する際、一部のファイルがブロックされ、情報を取得できないことが判明しました。 写真へのリンクも受信され、ダウンロードが開始されました。 結果は、46,235個のファイル、12.5 GBの写真でした。 確かに、一部の人はすでに写真を削除し、1 x 1ピクセルのファイルをダウンロードしました。 Exiftoolは、メタデータを操作するために選択されました。



画像



彼はすべてのサブディレクトリを自分で完全に処理し、結果は写真の横のテキストファイルに表示されました。 結局のところ、46,000枚の写真のうち1%にのみジオタグが含まれていました。 この瞬間、私が見た人が私のページに来始めました。 夕方には100人のゲストがいました。 好きなものを入れて、私の写真をさまざまなトップに持ってきました。 私も同じように返済することにしました。



「猫での」トレーニングは彼ら自身のプロフィールで行われました。 すべてがajaxとアクションを示すjsonリクエストを介して行われることが明らかになりました。この例では、id photo、id profile with photo、id jsonなどです。 病変部の面積は1.5万個に減少しました。 C#を使用して、jsonファイルが7334個作成され、wgetを使用してサイトに送信されました。



画像



ブラウザによる簡単なチェックにより、カーペットのような投げが成功したことが示されました。 残りの12.5 GBの写真は、出会い系サイトで人気が高まっています。



画像







All Articles