ネットワークを配置する-ロボットを捕まえる





それはすべていつものように始まりました-疑いで。 リファラーなしで直接リンクを介してアプリケーション配布をダウンロードする私のサイトに来るのは多くの人を傷つけます。 なんだかおかしいですよね? リンクブロッカーはそれほど人気が​​ありません。 私はいくつかのアドレスに気づき、ユーザーは通常リンクなしで再びダウンロードするようになりました。 多くの場合、別のプログラム-最初のプログラムとは関係ありません。 次に、ログのように、チェックのコースに入りました。 そのような訪問の大部分は、空のHTTP_ACCEPT_ENCODINGとHTTP_ACCEPT_LANGUAGEを持つ奇妙なユーザーであることが判明しました。 HTTP_USER_AGENTは、Java、JavaScript、Wget、Perl、PHPなどを指す場合がありますが、ほとんどの通常のブラウザー文字列です。 多かれ少なかれまともな検索エンジンが長い間考慮されてきましたが、もちろんこれはそうではありません。



それからそれはさらに面白くなりました-それは何ですか。 つまり、これらがロボットであることは明らかですが、なぜですか? なぜ1日に1回(2週間)来て、まったく異なる方向のすべてのディストリビューションをダウンロードするのですか? 最小限の答えすらありませんでした。 しかし、長い間ログを確認した後、ほとんど同じIPが存在することに気付き始めました-つまり、同じサブネットからのものであるため、1つのIPからのヒット数でソートすると、臨床的な場合を除いて興味深いものはありません。 サブネットごとにグループ化できるログアナライザーを探す必要がありました。 そして、すぐに何も見つけられずに、いつものように、自転車を書きました。



そして、私は何が面白いと思いましたか? さて、多くの興味深いものはありませんし、残念なことにロボットの90%はどのような方法でも識別されません。 ウイルス対策製品(Kaspersky、Symantec、InfoSec、InfoWatch、Bitdefenderなど)のセキュリティについてWebページ(およびもちろんファイル)をチェックするセキュリティ機関は多数ありますが、これらは主なものとはほど遠いもので、頻度によってのみ顕著です。 フランスのクラウドプロバイダーOVHのネットワーク、アジアアジアのサブネット、HETZNER、中国のどこか、デジタルオーシャンクラウドなど、アリババクラウドのネットワークで最大数のロボット。 なぜ-私はまだ理解していません。 しかし、クラウドに多くのトラフィックが存在する理由は理解できます-着信トラフィックは無料だからです。 そして、例えば、Amazonはそう言っています- 私たちのところにて、ウェブロボットを立ち上げください 。 人気のあるCMSには、多くのホールシーカーもいます。 私はすでに1日に1000件のwp-login.phpのリクエストを持っています。 ちなみに、それを要求した人はすぐにロボットに記録することができます。



質問が発生し、それらをどうするか? まあ、あなたは何もできません。 トラフィックは今やサーバーも安くなっています。 また、サブネットで直接ブロックすることもできます-とにかくそこからライブの訪問者を見るのはほとんど不可能です。 はい。1ポンドですが、クラウド内の発信トラフィックは支払われます。 そして、私にとって最も重要なのは、それらが原因で分析が困難な統計を台無しにしていることです。



一般的に、サブネットの統計収集するログアナライザーを投稿します。突然誰かがもっと面白いものを見つけることができます。 答えが見つかりませんでした。



アナライザーソースは次のとおりです(C ++、STL)。 Windowsの下にあることを恐れないでください-アナライザーコアはインターフェイスから切り離されており、コンソールバージョンとGUIの2つのタイプのプロジェクトもあります。 他のプラットフォームへの移植については、C ++ 11のSTLでは十分ではありませんが、C ++ 17の優れたファイルシステムを使用して100%移植可能にします。 一方、ディレクトリトラバースという1つの関数を置き換えるだけで済みます。



アナライザーは、公式のNIC(ネットワークインフォメーションセンター)リージョン( githubにリンクがあります)またはより正確な(ただし曲がっている) db-ip.comからのサブネットデータを含むファイルを認識します(CIDRは通常、そこで解析されません)。 動作させるには、ログが置かれている3つのフォルダー、サブネットファイルが置かれている(サブネットデータベースを構築する)、およびコンパイルされたベースとサブネット(毎回解析しないように)およびレポートを置く場所が必要です。 分析後、ヒット数とダウンロード量でソートされたサブネットを使用してHTMLレポートが生成されるためです。 レポート内のアドレスをクリックすると、サードパーティのサービスが開き、サブネットの所有者が表示されます。 実際、そこではすべての情報が収集されます。 ラティスは、サブネットから特定のアドレスのリストを開きます(またソートされます)。



レポートは次のようになります。







訪問者が多い場合は、すぐにレポートへの掲載に大きな制限を設けてください。 サブネットからのヒットの最小数とトラフィックの最小量があります。



追伸 自分でビルドしたくない場合は、 Windowsでビルドします



All Articles