未完成のスパム蚘事

たたたた私はスパムの問題に察凊しなければなりたせんでした。 実際、ここで䜕が起こったのでしょう。 倚くのテキストがありたすが、ほずんどは䞀般的な性質のものです。



スパム この短い蚀葉で、倚くの人が䞍快な団䜓を連想し、

システム管理者も震えおいたす。 私たちの時代にはみんなだず思う

コンピュヌタナヌザヌがスパムに遭遇し、それが䜕であるかを盎接知っおいたす。



それで、私たちはスパムず呌んでいたすか



スパムずは、ナヌザヌが倚数の受信者に同時に受信するずは思わないメッセヌゞを送信するこずです。



質量はスパムの䞻な兆候です。 通垞、このアプロヌチではスパマヌは独創的ではありたせん。 それらは、数癟䞇幎の進化の間、自然が䜜り出した道をたどるだけです。



簡単な蚈算では、各杉の朚は、その寿呜にわたっお平均100䞇個の実行可胜な皮子を生成したす。 しかし、私たちの惑星の暹朚の数は増えおいたせん。぀たり、自然遞択のレベルは玄100䞇分の1です。 皮の完党な繁殖ず安定性を保蚌するのはこのレベルです。 http://kedr.forest.ru/culture.html



たずえば、サバScomber scombrusでは、玄99.9996の人が生埌50〜70日で死亡したす。 したがっお、100䞇個のスむヌプ卵および女性のサバ1匹が氎柱で泳ぐ最倧50䞇個の小さな卵を䞀床に生産するのうち、成熟たで生き残るこずができるのはごく少数の個䜓のみです。 それにもかかわらず、サバは魚屋の棚に存圚するこずから明らかなように、非垞に䞀般的な魚のたたです。 http://elementy.ru/news/430696




圌らず䞀行で私たちは、受信者に手玙を届けるために、倧量生産に䟝存するスパマヌを届けるこずができたす。 そしお、最も悲しいこずに、このアプロヌチはそれ自䜓を正圓化したす。



報告によるず、2005幎にスパムメッセヌゞたずえば、ほずんどのメッセヌゞにある「ここをクリック」リンクで広告を出したナヌザヌの割合は11http://www.technewsworld.com/storyでした。 /44655.html)、2006幎-箄6http://www.yale.edu/its/email/spam/whyspam.html)、2008幎-29http://www.marshal.com /pages/newsitem.asp?article=748&thesection=news。

これは信じられないほどの数ですが、最新の調査で622人しかむンタビュヌされなかったため、結果は正確ずはほど遠い可胜性がありたす。 しかし、たずえこの結果が誇匵されおいおも、スパムが所有者に収入をもたらすこずを毎日蚌明しおいるのは䜕癟人もの人々です。



䞀方、たったく異なる性質の数字がありたすhttp://habrahabr.ru/blogs/spam/44353/-「実際のスパムCTRは0.000008です。」 これもおそらく人生の完党な真実ではありたせん。 しかし、ただ収入がありたす。



この芳点から、スパムを撃退する唯䞀の方法は、スパムに応答しないこずです。 たたは、スパムメッセヌゞがただ応答しおいる無意識の受信者に届かないようにしおください。 私たちの文明の発展のこの段階では、悲しいかな、それは䞍可胜です。



スパムずはhttp://ru.wikipedia.org/wiki/Spam





スパムメヌリングには特定の目暙がありたす-それ以倖の堎合はコスト

すべおの意味を倱いたす。 目的に応じお、手玙の内容も倉わりたす。



スパムメッセヌゞの倧郚分は広告です比范のため、フィッシングたたはりむルスの電子メヌルは合蚈でスパムの総数の2を超えたせん。



広告の䞭で、最も人気のある9月の統蚈アダルトスパム-28、薬; 健康のための商品ずサヌビス」-19、「教育」-12、「高玚品のレプリカ」-6、「レゞャヌず旅行」-6。



実際のスパムサヌビスの広告は、最近5前埌に浮䞊しおいたす。



スパマヌ自身がスパムに぀いお蚀うこずを賞賛しおください。

「スパミングは非倫理的な広告方法であるず考える人もいたすが、

緎習では、倚くの人が少なくずも奜奇心からそのような手玙を芋るこずが瀺されおいたす

のような。 そしお必然的にその䞭に朜圚的なクラむアントがいたす、

オファヌに興味がありたす。 スパムは十分なので

安䟡なサヌビス、倚くの顧客、そのようなレバレッゞの有効性の評䟡

朜圚的な消費者ぞの圱響、定期的な顧客になる、

他の同僚にこの広告方法を掚奚したす。」http://www.direct-mail-reklama.ru




配垃





技術的には、スパムは䞻にメヌルで配信されたす。 前䞖玀の終わりに開発されたメヌルプロトコルの欠点、倧量メヌル送信゜フトりェアの実装の単玔さ、アドレスデヌタベヌスの可甚性は、ここでの掻動の幅広い分野を提䟛したす。 たずえば、初心者であれば、 forum.antichat.ru / thread58130.htmlスパムFAQを読んだり、 forum.antichat.ru / thread72829.htmlの関心のある質問に察する倚少の容認できる回答を埗るこずができたす。



実際、技術進歩の過皋でのメヌル送信も倉曎されたした-スパマヌ自身による盎接メヌル送信からナヌザヌのコンピュヌタヌのハッキングず特殊なボットネットの䜜成http://www.viruslist.com/en/spam/info?chapter=156608519



最近、スパムがフォヌラムやブログでIMによっお拡散されおいたす。 たずえば、 www.xakep.ruには、「Microsoftが最もスパム耐性のあるプロバむダヌのリストで5䜍にランクされおいたす」ずいうタむトルのメモがありたす。



クラスメヌトずの䟋。 個人的に、クラスメヌトからメッセヌゞを受け取りたした。

こんにちは、助けおください、アカりントにはお金がありたせん投祚しおください。テキスト「XX 222761」費甚10ルヌブルでSMSを3649に送信しおください





さたざたなメディアに加えお、スパマヌは驚くべき富を瀺しおいたす。

メッセヌゞの圢の空想-メッセヌゞを写真に送信するこずから、自動フィルタヌの動䜜を混乱させるためのテキストの乱雑化たで。



スパムの問題





スパムによる䞻な皮類の害http://beskov.ru/2006/05/16/spam-harm/。



1.ネットワヌクチャネルの負荷-最新のデヌタによるず、玄80

むンタヌネットで送信される電子メヌルはスパムずりむルスです。 増加した負荷

倱敗のリスクず、意図的に䞍必芁な転送のリスクが増加する

デヌタ。

2.メヌルサヌバヌのスペヌスの詰たり-倚くの堎合、スパムを怜出しお削陀できたすが、これは垞に発生するずは限りたせん。

3.スパムフィルタリングに関䞎するメヌルサヌバヌの蚈算胜力の負荷。

4.サヌバヌを構成し、スパムをクリヌンアップし、スパム察策フィルタヌを構成するためのサヌビス担圓者のコスト。 劎働時間の損倱

5.ナヌザヌのマシンのスペヌスの詰たり-ナヌザヌがクラむアントプログラムを䜿甚しおメヌルを収集するず、倚くの堎合、スパムがマシンに盎接届き、削陀されるたでそこに保存されたす。

6.メヌルボックスからスパムを衚瀺および削陀するナヌザヌのコスト。



特に、2008幎9月15〜21日の期間、 www.spamtest.ru / document.htmlcontext = 15946pubid = 208050461のスパムは80.5でした



さらに、スパムの道埳的な偎面を忘れないでください。 3分の1

メヌルボックス内の手玙はスパムであり、少なくずもナヌザヌの気分を䜎䞋させるため、心理にずっお憂鬱になる可胜性がありたす。 䞍十分に機胜するフィルタヌはそれらを匷制したす

定期的にメヌルボックスから挏れたスパムメッセヌゞを陀去し、

迷惑メヌルで誀怜知を確認したす。



ロシアの堎合、すべおのスパム被害者の合蚈被害額は幎間2億ドルを超えおおり、最も控えめな掚定によるず、スパム䌁業の収入は数件に䞊る可胜性がありたす。

幎間癟䞇ドル。



スパムの戊い





スパムに抵抗するには これたでのずころ、進歩的な人類は非垞に思い぀いおいたせん

倚くの方法。 スパムを「凊理する」方法により、それらはブロックずフィルタリングに分けられたす。 ブロックずは、ブロックされたホストからのメッセヌゞを無芖するこずを意味したす。 フィルタリングは、コンテンツを分析した埌、スパムの定矩に該圓するメッセヌゞを無芖したす぀たり、受信者はメッセヌゞの䞀郚を匕き続き受け入れる必芁がありたす。



構成の方法によっお、メ゜ッドは条件付きでロヌカルず分散に分割できたす。 分散メ゜ッドを䜿甚するず、「他人の間違いから孊ぶ」こずができたす。



スパムに察抗するあらゆる方法は、これらの方法を評䟡および比范する倚くの特性によっお区別できたす。



-効率。 最も重芁なパラメヌタヌ。 パヌセンテヌゞで衚されたす。 正しく識別され、ナヌザヌから隠されおいるスパムメッセヌゞの割合ずしお決定されたす。 この倀を100から匕き離すず、「停陰性」応答ず呌ばれるパラメヌタヌ、぀たりナヌザヌに届くスパムメッセヌゞの割合を取埗したす。

-誀怜知。 スパムたたはナヌザヌに到達しないず定矩された「クリヌン」な電子メヌル。

-ネットワヌクチャネルぞの圱響この方法がスパムメッセヌゞの数を枛らすこずで負荷を軜枛できる限り。



したがっお、スパムず戊う䞻な方法を簡単にリストしおください。 ブロックには次のものが含たれたす。



ブラックリスト。 トラフィックの問題を根本的に解決し、玄半分に削枛されるこずがわかりたした。 ただし、この方法の有効性は理想ずはほど遠いです-フィルタがスパムの玄50を削陀する堎合、削陀される実際のメッセヌゞの割合は玄30です。 それは正盎な䌚瀟に害を䞎えたす。



他の極端な堎合、 ホワむトリストは他のすべおのメヌルを無芖したす。 トラフィックの問題は解決したせん。 効率100:)残念ながら、誀怜出コンポヌネントもこの制限に取り組んでいたす。



ブラックリストの進化の次のステップずしお、 グレヌリストもありたす。

グレヌリスト方匏は、スパムを送信するように蚭蚈された゜フトりェアの「動䜜」が通垞のメヌルサヌバヌの動䜜ず異なるずいう事実に基づいおいたす。぀たり、スパマヌは、SMTPプロトコルで必芁な䞀時゚ラヌが発生したずきにメッセヌゞを再送信しようずしたせん。 より正確には、保護をバむパスしようずしお、埌続の詊行で、異なるリレヌ、異なる返信アドレスなどを䜿甚するため、これは異なる文字を送信する詊みずしお受信偎に芋えたす。 www.redcom.ru/isp/ispNews/netNews/ni1170203597

誀怜知のレベルは数パヌセントに䜎䞋し、非垞に良奜です。



以䞋にリストされおいるすべおのメ゜ッドはフィルタリングされたす。



公匏には、メ゜ッドの次のグルヌプは名前を受け取りたせんでした。 そのような方法は、手玙がスパムであるかどうかの質問に、間接的な暙識によっお、手玙のふるたいによっお答えたす。



そのような品皮がありたす



予防接皮 サヌバヌは、スパムであるず報告できるナヌザヌたずえば、電子メヌルクラむアントのむンタヌフェむスのボタンをクリックするなどのみに電子メヌルをすぐに配信したす。 サヌバヌはメむンフィルタヌを「トレヌニング」し、有害な電子メヌルは配信の第2波に該圓したせん。 「投祚」メ゜ッドずも呌ばれたす。



トラップハニヌポット ちなみに、この方法初めおかどうかはわかりたせんは、K。カスペル​​スキヌの著曞「コンピュヌタヌりむルスの研究者によるノヌト」で提案されたした。 実際のナヌザヌに属さない䞀定数の「ランダムな」メヌルボックスが䜜成されたす。 スパマヌは、このアドレスをフォヌラムで特別に匷調衚瀺された堎所か、単にブルヌトフォヌスabc@mosglavprodsnab.comで芋぀けたす。 実際のメヌルがそのようなメヌルボックスに届くこずは決しおないずいう事実に基づいお、ほが100の確実性をもっお、これはスパムであるず蚀えたす。 実際には- 「PC Magazineのテストでは、SkyScanサヌビスは96のスパム怜出率ず0.48の誀怜知率を瀺したした」http://www.lexa.ru/articles/distributed-antispam-2.html



チェックサム方匏。 メヌルシステムを通過するすべおのメヌルがスキャンされ、手玙のチェックサムが䞭倮サヌバヌに送信されたす。 同じチェックサムを持぀文字のフロヌが特定のしきい倀を超える堎合、サヌバヌはこれをスパムの兆候ず芋なし、リク゚ストに応じおメヌルサヌバヌに喜んで通知したす。



ずころで、これらの方法はすべお、分散アヌキテクチャを䜿甚しおいる堎合にのみ効果を発揮したす。 特に、SpamorezはRazorやDCCなどのサヌビスを䜿甚しお、文字の質量を決定したす。



このようなシステムに察抗する䞻な方法は、「ランダム化」です-オリゞナルのコピヌを送信したす。それぞれのコピヌは非垞にわずかに異なりたす-単語の順序たたはセットです。 これは、コンテンツ党䜓からではなく、䞀郚、ランダムに遞択された単語、たたはファゞヌテキスト比范甚の倚数のアルゎリズムの1぀からチェックサムを蚈算するこずで、非垞にうたく凊理できたす。



メッセヌゞの内容に基づいたフィルタリング。



発芋的方法。 コンテンツの比范に䜿甚する䞀連のテンプレヌトが䜜成されたす。 基本的に、これは正芏衚珟を䜿甚しお行われたす。 信じられないほどのメンテナンスコストが必芁です。 効率-箄70〜80、倚くの停陰性応答。



人工知胜メ゜ッド。 今たでのずころ、Spam Assassinがニュヌラルネットワヌクアルゎリズムを䜿甚しお文字に評䟡を割り圓おるこずしか知りたせん。



名前が瀺すように、 統蚈的手法は、

電子メヌルの蚀葉の感芚。 ぀たり、どのコンテキストでも問題ではありたせん

「性別」ずいう蚀葉が䜿甚されたす-芪密な商品の広告であろうず、「性別」の列であろうず

申蟌曞。 これらの方法は、手玙が

スパムです。 䞻な蚈算方法はベむズ匏です

http://en.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0% D0B9D0B5D181D0B0



ろ過の分野での基本的な仕事は、ポヌル・グラハムの蚘事「蚈画

スパム」http://paulgraham.com/spam.html、およびその継続-paulgraham.com/better.html ほがすべおの蚘事

グラハムを指す「スパム」ずいう単語が芋぀かりたした。



䞀般的に、スパムを識別する必芁がありたす

-テキストを単語に分割したす電子メヌルメッセヌゞの堎合、これには手玙の件名ず芋出しの䞀郚の䞡方を含める必芁がありたす。 具䜓的には、単語はテキストを「トヌクン」ず呌ばれる郚分に分割する特殊なケヌスです。 たずえば、テキストを切り取るさたざたな方法によっお、テキストの「ポむ捚お」に抵抗できたす。

-スパムメッセヌゞ内のトヌクンの発生頻床が怜出されたすデヌタベヌスに保存され、フィルタヌを「孊習」するプロセスで䜜成されたす

-代衚的なサンプルが遞択されたすGrahamは最も䞀般的な15個を遞択したした。

-ベむズの公匏により、その手玙がスパムである確率が蚈算されたす。

-確率が特定のしきい倀80〜90を超える堎合、メッセヌゞは陀倖され、自動的にスパムフォルダヌに移動したす。



[匏]単語Xは、スパムずしおマヌクされたメッセヌゞに95で、Yは

60



メッセヌゞがスパムである確率PSPAM= PX* PY/PX* PY-1-PX*1-PY = 0.95 * 0.6 /0.95 * 0.6 + 0.05 * 0.4= 0.57 /0.57 +

0.02= 0.966。



単語Xは、スパムずしおマヌクされたメッセヌゞに50で、Yは

60



メッセヌゞがスパムである確率PSPAM= PX* PY/PX* PY-1-PX*1-PY = 0.5 * 0.6 /0.5 * 0.6 + 0.5 * 0.4= 0.3 /0.3 +

0.2= 0.6





ベむズの匏に加えお、 カむバドラット分垃も䜿甚されたす。 それは

分垃、それは攟電セグメントにのみ䟝存するずいう点でのみ良い

定矩の領域、および均䞀からの偏差だけでなく、

あらゆる皮類の分垃。 これは私には明確ではありたせん。明確な説明を聞くのは玠晎らしいこずです。



隠れマルコフモデル 、より耇雑な方法に基づく方法

数孊的な装眮。 怜玢のヘルパヌメ゜ッドずしお䜿甚

「ほが」類䌌のテキスト。 残念ながら、それは䞡刃の剣です-を陀いお

認識タスクはテキスト生成にうたく察応したす。 スパムメッセヌゞに加えお、生成されたメッセヌゞは、たずえばラむブログで積極的に䜿甚されたす。



統蚈的手法の有効性は、入力内容に倧きく䟝存したす。 たずえば、単玔なアプロヌチでは、スペヌスたたは改行で区切られたすべおの単語がアルゎリズムに転送され、すべおのスペヌスがアンダヌスコアに眮き換えられた堎合、残酷に分割されたす。 たたは、「バむアグラ」、電話番号、「戊争ず平和」の3ペヌゞのテキストを小さな掻字で曞きたす。



テキストを郚分に「カット」するこず「トヌクン」ず呌ばれたすはさたざたな方法で行うこずができたすが、共通する郚分が1぀ありたす。テキストは単語の組み合わせである郚分に「カット」されたす。 たずえば、OSBOrthogonal Sparse Bigramアルゎリズムは「あなたは未来のむンタヌネットです」ずいうフレヌズをカットしたす。

-あなたはオンラむンです*

-あなた*未来の

-*未来のむンタヌネット。

分類子の比范に぀いおは、 www.esi.uem.es / 〜jmgomez / papers / sigir07.pdfで少し読むこずができたす。 たた、テキストを分類するタスクに専念するプロゞェクトに぀いお孊ぶこずも圹立ちたす-CRM114-crm114.sourceforge.net/wiki/doku.php?id=documents



次は





欠点を取り陀くために、すべおの方法を最倧限に掻甚する必芁がありたす。 ぀たり、たずえば、予防接皮ず自動ろ過を組み合わせたす。



分類問題自䜓の芳点から、2぀の垂盎軞に沿っお開発を区別できたす。 䞀方で、これはハヌドりェアベヌスず蚈算の高速化の改善であり、これにより、既存のフィルタヌのセットにすばやく文字を枡し、それに応じお応答できるようになりたす。

䞀方、これはアルゎリズム自䜓の開発です。 たずえば、OSB分類噚を含む通垞のベむゞアンフィルタヌは、フィルタヌの効率を数倍向䞊させたす。



おわりに





スパムは機胜するため、根絶できたせん。 そしお圌は働いおいるので、これは新しい方法の発明を奚励しおいたす。 特効薬はありたせん。 しかし、バランスは䞀方向たたは他の方向に倉動したす。 私たちはただ圌をサポヌトする必芁がありたす...



All Articles