エントリー
私は、NSAとFSBが皆を見ているという妄想的な物語を繁殖させません。 torとi2pは「私たちのすべて」であるという基本的な理論を採用してください。 残念なことに、TORのコンテキストでは、シルクロードと児童ポルノについてしか聞くことができません。 保育園、揺れ、侵食のように。
複数のtor-exitノードとi2pルーターを管理しています。 質問を避けるために、私の雇用主はそれらとは何の関係もありません。これらのノードはすべて、私が自由な時間に自分の費用で独占しています。 それらの最も古いものはほぼ1歳で、最も若いものは約4ヶ月です。 この間、私は単一の虐待報告書を受け取りませんでした(私自身はホスティング事業で働いているため、「虐待」への反応についてはよく知っています。最初にクライアントに送信されます)。
虐待がないにもかかわらず、疑問が残った:なぜ人々はTORを使用するのか?
出口ノードを制御すると、通過するトラフィックを確認できます。 すべての暗号化トラフィック(TLS、SSH)、および.onionノードへのすべてのトラフィックを除外することは明らかです。 ただし、残りのうち、人気によるリソースのおおよその分布を見ることができます。
今後、記事の質問に対するわずかに簡略化された回答:
(記事の最後にあるより詳細なプレート)
測定方法
ロシア、フランス、ドイツのいくつかの出口ノードからのデータを使用しました。 次の行を使用して、pcapを使用して1週間にわたってデータを収集しました。
true; do tshark -i venet0 -O http -Y http.request -T fields -e http.request.full_uri >> http_log7; rm / tmp / wire *; done
(tsharkはバグがあり、このwhile / trueで定期的にクラッシュします。見返りに、httpリクエストからURIを純粋な形式で抽出します)
データ収集を開始する前に、すべてのノードが約3週間(最後の再起動の瞬間から)「落ち着き」、すべてのノードが利用可能なすべての帯域を使い果たしました。 合計で390万件のヒットが記録され、そのうちjs / css / ico / xmlファイルは破棄され、370万件が残りました。
分析
分析のために、最も単純なスクリプトgithub.com/amarao/url_proberをスケッチしました。
簡単なものから始めましょう-トップ訪問、トップドメインなど。 ユーザー追跡がなかったため、操作できるのはヒット数だけです。
アクセス数の多い上位10ページ(アドレス、数、合計の割合):
cloud.tvigle.ru//img/zero_rkm_chk.gif 193330ヒット、5.73%
dmg.digitaltarget.ru 83905ヒット、2.48%
ib.adnxs.com/getuid 65007ヒット、1.93%
stat.tvigle.ru/track 42513ヒット、1.26%
asg.vidigital.ru 31966ヒット、0.95%
www.google-analytics.com/__utm.gif 31259ヒット、0.93%
advombat.ru/api/id 23363ヒット、0.69%
x.ulogix.ru/match/digitaltarget 23040ヒット、0.68%
blurb.vidigital.ru 22726ヒット、0.67%
tags.bluekai.com/site/5400 22488ヒット、0.67%
ご覧のとおり、最も頻繁に表示されるページ(サービスおよびユーザーによる広告ネットワークの追跡に関連するページ)は、何もおもしろいものではありません。
次に、ドメインページの上部にあるトップ11ドメインがあります。
cloud.tvigle.ru(243,405ヒット、7.21%) http://cloud.tvigle.ru//img/zero_rkm_chk.gif 193330 http://cloud.tvigle.ru/api/player/46/ 18696 photo.tvigle.ru(116943ヒット、3.46%) http://photo.tvigle.ru/resource/rf/flv_lst/232904/src.jpg 1696 http://photo.tvigle.ru/resource/rf/flv_lst/232899/src.jpg 1602 mc.yandex.ru(110897ヒット、3.28%) http://mc.yandex.ru/watch/219670 15381 http://mc.yandex.ru/watch/27181436 15212 www.tns-counter.ru(107708ヒット、3.19%) http://www.tns-counter.ru/V13a***R%3Ehttp://forum.kinomania.ru/showthread.php 792 http://www.tns-counter.ru/V13a***R%3Ehttp://brandcase.info/auto/index.php 153 ib.adnxs.com(91854ヒット、2.72%) http://ib.adnxs.com/getuid 65007 http://ib.adnxs.com/ttj 14706 asg.vidigital.ru(79994ヒット、2.37%) http://asg.vidigital.ru/ 31966 http://asg.vidigital.ru/1/3414/c/v/2 7688 bcp.crwdcntrl.net(44450ヒット、1.32%) http://bcp.crwdcntrl.net/5/c=2962 22309 http://bcp.crwdcntrl.net/5/ct=y/c=2962 1377 www.google-analytics.com(44145ヒット、1.31%) http://www.google-analytics.com/__utm.gif 31259 http://www.google-analytics.com/collect 11003 ad.adriver.ru(44087ヒット、1.31%) http://ad.adriver.ru/cgi-bin/merle.cgi 22142 http://ad.adriver.ru/cgi-bin/rle.cgi 9378 stat.tvigle.ru(42514ヒット、1.26%) http://stat.tvigle.ru/track/ 42513 htthttp://stat.tvigle.ru/track/ 1 vk.com(38796ヒット、1.15%) http://vk.com/share.php 9811 http://vk.com/widget_community.php 9744 http://vk.com/al_photos.php 6214
再び最上位にあるのは、vk.com(ソーシャルネットワーク)とtvigle.ru(オンライン映画館)の形式のまれな例外を除いて、堅固なバナーネットワークとトラッカーです。 vk.comのために、top10ではなくtop11を作成する必要さえありました。
だからうまくいきません。 そして、人々は何を見ていますか? 伝説によると、過激主義、自殺、麻薬、猫、ポルノ、児童ポルノ、反対、その他の禁止事項があるはずです。 さて、topメソッドは機能しません。 別にやってみましょう:
少なくとも数十のヒット(たとえば10)があったドメインのすべてのリソースを取得し、それらの約300を選択し、少なくとも数回(1回以上)アクセスされたページごとに選択します。 これらのページを少なくとも4つ(一致するドメインごとに)取り、手動で分類してみてください。 これにより、ユーザーがアクセスしたサイトの統計情報が得られます。
その後、楽しみが始まります。 ランダムに選択されたこの300個のリンクを手動で確認しました。 最小限の節度(リンクダウンの臨床的危険の場合にURLが詰まっている)を伴うリンク自体は、 ここにあります 。
このプロセスを完了するのに約1週間かかりました。 この作業は見た目よりも難しいことがわかりました。なぜなら、英語版なしでブラジルのサイトをどのように分類するのか、それは何が明確ではないのですか? さらに、面白くないサイトを見るのがどれほど退屈であるか信じられません。 最初は500のサイトを選択したかったのですが、200番目のサイトでは完全に疲れ果てていたので、300が私の個人的な偉業です。 視聴された結果が300件しかないという事実にもかかわらず、これは1週間の「訪問」サイトのランダムサンプルであり、ドメインによって正規化されています。つまり、サンプルの短期ポップは結果に大きな影響を与えません。
以下は分類結果です。 彼らはあまりにも大きなグループになっているように見えるかもしれませんが、私は異なるオンラインケーキやバッグショップのカテゴリーを分類することに本当に興味がありませんでした。
レビューの完全なリンクは、ランダムサンプリング用のスクリプトとともに、 ここから入手できます 。
カテゴリー | パーセント |
普通のポルノ | 11.0% |
企業サイト | 11.0% |
オンラインストア | 7.3% |
ニュースサイト | 7.0% |
HTTPベースのAPI | 7.7% |
ブログ、フォーラム、掲示板 | 6.7% |
広告およびバナーネットワーク | 5.7% |
映画、ビデオ(トラッカーを除く) | 3.7% |
ソーシャルネットワーク | 3.3% |
ホスティングサービス | 3.3% |
ソフトウェア | 3.0% |
ハッキングの試み | 3.0% |
車 | 3.0% |
画像またはファイルのホスティング | 2.7% |
ゲーム | 2.7% |
検索エンジン(SEO)とLanding'iのページ。 | 2.3% |
異なる(無実の)種類の情報を持つページ | 2.3% |
スポーツと旅行 | 1.7% |
不動産 | 1.7% |
趣味 | 1.7% |
宗教と密教(カルトサイトを含む) | 1.3% |
その他(政府、デート、インスタントメッセージング、急流、各1台) | 1.3% |
音楽とオーディオブック | 1.3% |
マルウェアがあり、明らかに不正なサイト | 1.3% |
求人サイト | 1.3% |
児童ポルノ | 0.7% |
ウェブメール | 0.7% |
医療機関のサイト | 0.7% |
教育サイト | 0.7% |
注:「企業サイト」および「オンラインストア」のカテゴリでは、無実のコンテンツを含むサイトのみが該当し、苦情はありません。 違法な商品を扱うサイトは1つも見たことがありませんので、「薬物サイト」、「偽造文書」、「武器」、「奴隷貿易」のカテゴリは上記のリストにありません。
結論
- TORを介してアクセスされるほとんどのインターネットリソース(白い部分)には、その下に犯罪要素はなく、通常のサーフィンとほとんど違いがありません。
- トラフィックの大部分は、ホモサピエンスの繁殖に費やされています。
- ホワイトインターネットにはまだCPがありますが、訪問者の割合は1パーセント未満です。
- TORは、サイトに対して攻撃を行うことができ、使用されます
- 薬物および違法な物質、武器、侵襲性など 見つかりません。
- TORの政治活動はほとんどありません。
なぜ人々がTORを使用してオンラインストアでケーキを注文するのか少し戸惑っていましたが、仕事の同僚が私に提案しました-ホームルーターでTORをオンにして「すべてのために」それを使用します。つまり、通常のホームユーザートラフィックはTORを通過します。
繰り返しますが、出口ノードで使用されるhttpトラフィックのみが考慮されました。 舞台裏には、すべてオニオンサイトと白いインターネットへの非HTTPトラフィックがありました。
PS HTTPSを使用しない場合、出口ノードオペレーターは、Cookieやパスワードを含むすべての「ホワイト」トラフィックを見ることができます。
UPD:サンプルに.onionサイトが含まれないことに関する多数の質問のため、 komachiは出版物www.dailydot.com/politics/tor-dark-net-study-sizeへのリンクを提案しました。総トラフィックの約3.4%を占めます。