インターネットマッピング

ソファに座って、再びグローバルなもののカテゴリから、クレイジーなアイデアを思いつきますが、趣味のレベルでは私はまだこれをやっていません、このアイデアはまだ私に来ました:)。



情報を持っている人、聴衆と仕事をする人、そして機会があると推定して、私はなぜインターネット検索エンジンがそんなに少ないのかと思いました。 さて、Google、Yandex、ランブラー、そしてそこにある何か、それは指で数えるのは簡単です。 しかし、彼らはほとんどのインターネットユーザーのほとんどを蓄積しています。 多数のユーザーがユーザーを通過しますが、ユーザーをどこに誘導するかはある程度ユーザーに依存します。 また、同じGoogleのボットに影響を与えるトリッキーな方法で、ある程度まで企業が昇進しています。



結果はありますか? 誰がロシア語のリソースがいくつあるかを知っていますか? 使用頻度とテーマ別でランク付けされたリストを表示することは可能ですか? 彼らはセマンティックインターネットについて話そうとしているが、構造化にはそのような基本的な秩序さえないようだ。 「私たちではないなら誰が」と自分に言い聞かせて、私はこのアイデアとその解決策へのアプローチに気付きました。 しかし、私が理解した主なことは、多くの場所のように、リソース、この場合はプロセッサー時間に単純に依存する主な複雑さでした。 指定されたエリアで初心者を見つけることに興味があるが、新鮮な表情で猫を求めます。







識別の基礎としてのIP





さて、私が自分に言った非常に複雑なことは、すべてのサイトのリストを取得し、少なくともGoogleの同じPageRangでそれらをランク付けするだけです。 さて、私はIP経由でポート80にpingを行い、成功した場合はドメイン名とその国を取得する(GeoIPService Webサービスを使用して)トリッキーではないC#プログラムを作成しました。 シンプルなダイヤラーボットを立ち上げて、1時間で収集したサイトの数を確認しました。ほぼ1つのユニークなものが見つかりました...すべてがここに回りました。 IPバリエーションが256 * 256 * 256 * 256 =約40億であることがどのように知られているかを計算することにしました。さて、私はあまり考えていませんでしたが、1つのpingがどれくらいかかるかを調べました。 同じタイムアウトで、回答の受信を制限しました。 デフォルトでは、かなり大きくなっています。 これで、4971日の計算を完了することができました。 まあ、私はこれのために14年を持っていません、私は自分自身に言いました。 これについては、Googleテクノロジーの奇跡に驚嘆することができました。彼らが素晴らしい仕事をしていることを理解し、単独で競争するのではありません。 しかし、忍耐が勝っていた:)



国の制限





まあ、私は自分自身に、ロシア語のサイトは私にとって十分であり、残りは分析されないかもしれないと言いました。 しかし、IPと国の対応をどのように理解するのでしょうか? インターネットには何らかの構造がありますか? これらの問題に私は注意しなければなりませんでした。 なぜなら ブルートフォースは私に合わなかった。



人々がこれのために何をしているのかを読んで、私はこの単純なタスクに完全なたわごとがあることを発見しました-ジオターゲティングの美しい名前で、ハブに関する記事に驚かされました: IPアドレスによる都市の定義GeoIPデータベース-国と都市と類似したものの束。 一般的に、有料データベースなど、業界全体でも:)



しかし、最も重要なことは、それは何らかの二次的な情報であり、それを使用する必要性と欲求がなかったことです。 したがって、私は風が吹く場所を理解したかった-主な情報はどこですか? そのような地理位置情報データベースの情報はどこから来たのですか?



ネットワーク地域




インターネットを制御している人、 ウィキペディアで人気のある情報読んでいる人を理解するように注意しなければなりませんでした。 現在、ポステルの死後、米国政府によって設立され、米国商務省から契約を受け取ったICANNに参加した特定の非営利組織Internet Assigned Numbers Authority(IANA)がIPアドレスの発行を管理しています。 一般的に、このスキームは混乱を招き、国連ではまだ対決が行われているため、米国はインターネットの制御を国連に委ねることになりました。 しかし、これはすべて、IPアドレスの配布に順序があるかどうか、およびどのサブネットが検索エンジンでスキャンできないかという点でのみ、私たちに興味を持っています。



そして、ここにそれは順序の希望でIANA組織からの最も重要な文書です: IANA IPv4アドレス空間登録



ネットワークの地域の責任者(「所有者」と読みます)を記述します。 したがって、独自のより便利な用語を導入する方が便利です。最初のIPアドレス番号で定義されたIPアドレスをネットワーク領域と呼び最初の2つの番号でセクターを呼び出します。



上記の文書から、0、10、127の領域はIANAによって自身のために予約され、224から255までがいわゆる予約されています。 マルチキャストと将来の使用。 さらに、実質的な部分は、アメリカ、アメリカ軍、イギリスの大規模な電気通信および情報会社に属しています-私は35の地域を数えました。



256のうち合計70の領域は、単なる人間にはアクセスできないため、スキャンする必要はありません。 残りは、北アメリカ、南アメリカ、アフリカ、中国とインドネシア、アジアとヨーロッパの5つの地域ゾーンに分散しています。 それらはすでに他の地域事務所によって配布されており、欧州のRIPE NCCに関心があります。 実際、whoisサービスはそれらによって提供され、これらの地域組織に分散されています。



欧州機関には、配布のために35のIPアドレスの地域が割り当てられていますが、特別な管理により、条件付きでプロバイダー(国の規則に従ってライセンスされていますが)および+4の地域と呼びます。



このレベルでのみ、IPアドレスが属する領土領域を自信を持って言うことができます。 さらに、地域組織が提供する公開情報に依存します。 ただし、インターネットの256の地域をスキャンするのは14年ではなく、ヨーロッパ/アジアの39の地域をスキャンする必要があります。1つのプロセッサの動作はわずか2年です。



以下に行くことができます。 残念ながら、これ以上の順序はありません(地域レベルでは例外があります)。 セクターは異なる国に属する場合があります。 ただし、Ripeから現在のwhoisデータベースをダウンロードして、その国の情報を見つけることができます。 そこにある都市は時々ありますが、機械加工にはほとんど適していません。 私が理解しているように、不注意なネットワーク管理者が使用するためにIPサブネットを受信するときに入力するもの、およびフィールドはしばしば混同される(たとえば、都市の住所ではなく)か、まったく指定されていません。 しかし、国コードは安定しています。



3つのギグからテキストファイルを処理し、そこからラトビアとロシアに属するものを選択して、ロシアでは2004セクター、ラトビアでは307セクターを選択しました(ラトビアへの選択性は祖国によって決定されます:))。 ここで、折りたたみの数学は2004 + 307 = 2063個の一意のセクターで異なります。 つまり 先に述べたように、セクターは自然に交差しており、他のヨーロッパ諸国も存在する可能性がありますが、一方で、示唆的な推定を得ました。



つまり、109分から1つのセクターにpingを送信します。 2063セクターでは約156日間です(80番のポートが正常に開かれた場合にドメインを検索するのにまだ少し時間が必要なので、最小見積もりです)。



8コアすべてを切断した場合、これはすでに解除されています。1か月後にロシアのインターネットの地図を受け取ります。



そして実際、なぜこの種のインターネットマッピングが必要なのですか?




ファンタジーでは、あなたを制限したくありません。 そして、最初に、それが何のために必要なのかについてのアイデアが概説されました。 今回は、80ポートが開いているすべてのコンピューター(つまり、Webサービスの提供の潜在的な候補)を識別するための最初のスキャンにのみ必要であり、実際のドメイン(DNS名)はほとんどないことを強調したいと思います。



しかし、2015年のすべてのドメインを実際に取得し、後で分析することができます。他のドメインはわかりません。 私を助けてこれの必要性を知りたい人、または単にプロセッサ時間を気にしない人は、私に書いてください



そして、おそらく新しいGoogleが生まれます:)



PS肯定的な応答の場合、これに適したリソースを作成します。



All Articles