サむトの解析-ロシアでは䞀般的に合法ですか

定矩の1぀によれば、解析は情報の解析です。 むンタヌネットプロゞェクトの情報を収集および凊理する特定のタスクに関䞎しおいない人にずっお、これは䜕の意味もありたせん。 そしお、たさにその定矩は、䞀般的な甚語でのみ、数億人の人々ず数千䞇のロボット仮想的ではあるが珟実的ではないが䞖界䞭で毎分行う膚倧な量の仕事を瀺しおいたす。 しかし、このタスクは人にずっお䞀般的なこずです-オンラむンでチケットの䟡栌を比范し、店舗のサむトで適切な電子機噚を遞択するこず...家に最も近いスヌパヌマヌケットの䟿利なモバむルアプリケヌションで䟡栌ずプロモヌションを芋お、私たちは誰もパヌサヌず呌ぶこずさえ考えたせん。

画像



それにも関わらず、ビゞネス解析は存圚し、機胜し、そしおもちろん、倫理的、法的、技術的、財政的など、倚くの考慮レベルで掻発な議論の察象ずなっおいたす。



この蚘事は明確な意芋を衚明せず、アドバむスも秘密も明かしたせん-ここでは、構文解析に関する特定の蚘事に関する最も興味深いコメントの䟋ずしお、いく぀かの意芋のみを怜蚎したす5䞇ビュヌず400以䞊のコメントHabréでは、 Webプロゞェクトの解析の経隓。 蚀い換えれば、私たちは倚くの時間を費やし、最も興味深い読者のコメントをたずめお分類しようずしたした...いわば䞖俗的な知恵:)



したがっお、解析に぀いお



「技術の問題。」 幻想的なプロキシずその堎所。



解析自䜓の考えが自然であるように「隣人」で䜕が起こっおいるかを芋るのは垞に興味深いです、その実装の基本的な方法は同じくらい簡単です。 知りたい堎合は、尋ねたすが、倧きなデヌタ配列の実際の倀商品の䟡栌、その説明、泚文可胜なボリュヌム、ホットディスカりントなどを知りたい堎合は、頻繁に「尋ねる」必芁がありたす。 このデヌタを手動で収集しようずするこずは誰にも起こり埗ないこずは明らかですおそらく最も人道的な方法ではないむンスピレヌションを受けた南囜の勀勉な子䟛たちの倧芏暡なチヌムを陀きたす。そのため、額にシンプルで効果的な゜リュヌションが䜿甚されおいたす。ボットを収集し、関心のある指暙のタヌゲットサむトを「タップ」し、䟿利な圢匏で「メモ垳」に回答を泚意深く曞き留め、収集したデヌタを分析しお、繰り返したす。



ここに、読者ず私たちからの「構文解析手法」ぞのアプロヌチをいく぀か瀺したす。



  1. 「Selenium farm-and go」Selenium / SplinterのようなBeautifulSoupのような゜リュヌションを備えたヘッドレスブラりザを意味したす。 読者によるず、圌はRRC / MRCのポリシヌ掚奚小売䟡栌に違反しないように、売り手サむト圌女は茞入業者を監芖するために、ドッカヌ矀に小さなサむトを劻に曞きたした。 著者によるず、すべおが安定しお動䜜し、構文解析の経枈は収束したす-「すべおのコストはそれぞれ3ドルで4ノヌドです」。 確かに、誇りに思っおいる著者は、解析で玄1,000の補品ず数十のサむトしか持っおいたせん。
  2. 「私たちはChromiumを起動したしたが、すべお問題ありたせん。4〜5秒で1぀の補品を取埗できたす...」 1人の管理者がサヌバヌの急激な負荷を喜んでいないこずは明らかです。 このサむトはもちろん、この目的のために興味のあるすべおの人に情報を提䟛するために必芁ですが、「あなたはたくさんいたすが、私は䞀人です」、したがっお、特に興味を持っおいる人は無芖されたす。 問題はありたせん。Chromiumが助けになりたす-ブラりザが「問い合わせのみ」モヌドでサむトをノックしおいる堎合は、順番に埅たずに実行できたす。 実際、解析タスクの䞀般的な配列では、htmlペヌゞの解析はケヌスの90で行われ、「特に難しいケヌス」同じYandex.Marketがcaptchaを芁求するなど、サむトが積極的に保護されおいる堎合で凊理されたす。
  3. 「LTEルヌタヌ/モデムからの玔粋なDIYプロキシ。」 怜玢゚ンゞンの解析に適したクリヌンプロキシを蚭定するための非垞に有効な方法がありたす。3G/ 4Gモデムファヌムたたはランダムなダヌティプロキシの代わりに癜いプロキシを賌入するこずです。 このような産業解析に䜿甚されるプログラミング蚀語は1日あたり300サむトそしお正解は.Net:)です。 実際、むンタヌネットにはオヌプンプロキシリストを備えたサむトがたくさんあり、その50が非垞に機胜しおいたす。これらのサむトからプロキシリストを解析するこずは、他のサむトを解析できるようにそれほど難しくありたせん。
  4. セレンを支持する別のケヌス「私は自分で構文解析を行いたすしかし、RuNetでは構文解析を行いたせんが、愛甚のupwork.comで泚文をキャッチしたす。 比率はわずかに異なりたすが、75〜25前埌です。しかし、党䜓的に、もしそれが怠lazであるか難しい堎合、誰もただセレンをかわしおいたせん:)しかし、私が協力しなければならなかった数癟のサむトのうち、タヌゲットデヌタを取埗するための画像。 通垞、htmlにデヌタがない堎合、それらは垞に䜕らかのjsonに取り蟌たれたす実際、以䞋の䟋を既に瀺しおいたす。
  5. 「Python Tamers。」 たた別の読者の事䟋「以前の研究では、prisma.fiやverkkokauppa.comから3〜5個の補品たで、さたざたなサむズの1日180以䞊のサむトでPython / Scrapy / Splashを䜿甚したした。 昚幎末に、Ubuntu Serverを搭茉したHetznerhttps://www.hetzner.com/dedicated-rootserver/ax60-ssdからこのようなサヌバヌをレンタルしたした。 ほずんどのコンピュヌティングリ゜ヌスはただアむドル状態です。
  6. 「WebDriverがすべおです。」 可胜な限り信頌性の高い䞀般的な自動化解析が既に行われおいる堎合に埓事QAタスク。 優れたワヌクステヌション、1ダヌスたたは2ブラりザヌの䞊列-出力は非垞に邪悪で高速な脱穀機です。


ホバリングする「玳士のセット」-4台の仮想マシン、無制限のトラフィック、それぞれに4぀のプロセッサ、8 GBのメモリ、Windows Server ...これたでのずころ、条件付きで50サむトの新しいバッチごずに十分-あなた自身の仮想マシンが必芁です。 しかし、それはサむト自䜓に倧きく䟝存しおいたす。 Visual StudioにはSystem.Netもあり、実際にはWindowsにむンストヌルされおいるInternet Explorerを䜿甚したす。 それも動䜜したす。


「解析から自分の心を守る方法は たさか、ずにかくクロヌルしたす ''



ビゞネスのアむデアを分析し、私たちのビゞネスに぀いお話すこずは、垞に私たちに投げかけられたす。



  1. 倚くのSEOサヌビスず同様に、Yandex解析を発行したす。 「これに察するより倚くの需芁、より倚くのお金がありたす。 確かに、圌らは基本的にSEO分析システム党䜓を販売したす。「しかし、配信を解析したせんでした-質問したせんでした。100件のリク゚ストの盎埌にキャプチャがありたす。きれいなプロキシが必芁です。それらを取埗するのは難しいか、高䟡です...それ自䜓、倧きなプレヌダヌは持ちやすいずは蚀えず、読者はこれを私たちず共有したすGoogleずYandexは解析したせん。 経隓によるず、Yandex、Google、および同様の倧䌁業は、デヌタセンタヌサブネットを持぀特定のベヌスを持っおいたす結局、プロキシデヌタベヌスが曎新され、䞻芁なプレヌダヌはそれらをサブスクラむブしお犁止したす。 したがっお、デヌタセンタヌに発行されたIPアドレスで発生したプロキシネットワヌクは、CAPTCHAおよびその他の奇抜な問題の発行を完党に犁止されおいたす。 結果ずしお、ボットネットの所有者からのプロキシの賌入ず同様の「ダヌト」を䌎う違法なオプションのみが存圚したす。この堎合、実際のナヌザヌIPがありたす。 たずえそうであっおも、そのような䌁業では、あなたが远跡できるサむトたずえば、ヒットカりントでしばらく「クロヌル」枈みの「決枈枈み」Cookieが必芁です。 しかし、圌らはどのようにパヌサヌず睡眠゚リアのNATを区別するのでしょうか 条件付き100のリク゚ストはたったくありたせん。
  2. 解析からの保護「偉倧で恐ろしい」こずを考慮から取り陀き、私たちは「単なる人間」に焊点を合わせたす。 構文解析に携わっおいる人がいる堎合、これを行わないようにしようずする人がいるに違いありたせん。 生きおいる人々ず遊ぶこずはより興味深いです。ラむバル関係の芁玠が珟れ、それぞれの偎が互いに盞手をだたそうずしたす。 そしお、誰もただ情報を手動で収集する぀もりはないので、圌らはボットを生きおいる人に最も䌌たものにし、実際のナヌザヌからのリク゚ストに応答し続けながらこれらのボットをより効率的に認識できる人を挔じたす-サむトはビゞネスを支揎するように蚭蚈されおいたす、これに反発されたす。 そしお、ビゞネス効率のタスクのフレヌムワヌク内にずどたり、リ゜ヌスの合理的な配分ず、実際にはそれに察する解析ず察抗策の手段の収益性を考慮せざるを埗たせん。



    • 構文解析「孊生」を陀くから身を守るこずはできたせんが、それに費やすためのしきい倀時間ずお金の䞡方を増やすこずはできたす。 その結果、私たちが保護するデヌタサむトのいく぀かのセクションは、解析するのではなく、賌入したのず同じように既補のデヌタベヌスを賌入する方が簡単です。 パヌサヌのIPアドレスのテヌブルはネットワヌク䞊にあり、入り口でこのリストにキャプチャを衚瀺するこずは問題ではありたせん。 同様に、mail.ruのようにidずクラスを生成するこずも問題ではなく、倧きな費甚を必芁ずしたせん。 Googleの新しいキャプチャは、通垞、ロボットがそうであるかどうかを非垞に正確に刀断したす。 疑いがある堎合は、ナヌザヌを切り取っおキャプチャを芁求するのは簡単です。 最埌に、ボットを捕たえたハニヌポットの逌をキャンセルした人はいたせん。 たあ、叀兞的な、テキスト内の文字を眮き換える、マスクを䜜るなど
    • そしお、ここで私たちは自分自身に反察したすおそらく、個々に、これはすべお助けにはなりたせんが、䞀緒になっおあなたの人生を非垞に耇雑にし、それが䞍䟿になりたす。 さらに、これらの手法はすべお倧きな費甚を必芁ずしたせん。 確かに、これらの手法はすべおコストがかかるため、本質的に保護はありたせん。 動的プロキシ、むンド人によるキャプチャを認識するサヌビス、および明確に定矩されたアクションアルゎリズムを備えたセレン。 達成できるこずはすべお-パヌサヌの開発にはさらに費甚がかかり、誰かを怖がらせるかもしれたせんが、タヌゲットサむトが「Horns and Hooves」のロヌカルオフィスの1.5ペヌゞのカタログではない堎合、コストを䞊げるこずはほずんどありたせん。
    • 防埡するずきは、垞に実際の蚪問者の兞型的な行動モデルに加えお、「癜い」ボットYandex、Googleなどを適切に識別するシステムを䜿甚したす。 そしお、実際の蚪問者に適応するためには、䞀連の暙準遷移マップを知る必芁がありたす。 そしお、構文解析では䞍十分な単玔なプロキシプヌル。 システムは100を保護したせんが、タスクを解決したす-統蚈を衚瀺するこずにより、サむト党䜓がスキャンされたタむミングを把握できたす。 パヌサヌたたは怜玢゚ンゞンがこれを行いたす。 ただし、怜玢゚ンゞンはrobots.txtに応答したすが、パヌサヌは応答したせん。


「ああ、すごい。 すべおの人が賢明にすべおをすれば... 10倍の倱業者がいるず思いたす。 あなたの幎霢に十分です。」


「私は環境に䜏んでいたすか はい、でも無駄です」



  1. 問題の怜蚎の道埳的および倫理的な面には、解析の技術的および法的偎面の䞡方に関連する重芁なポむントがありたす。 robots.txtファむルは、その簡朔さず名前の象城であり、読者ず私たちがさたざたな方法で解釈しおいたす。



    • ボットの「ドラむバヌ」ずしおのあなたの掻動は、蚪問したサむトのrobots.txtをたどるのずたったく同じくらい「倫理的」です。 「補品ペヌゞが閉じない」などの仮定に基づいおいるのではなく、芁求されたURLに蚱可マスクず犁止マスクを文字通り抌し付けたす。 robots.txtが芋぀からない-あなたの郜合で解釈しおください。 存圚したすが、あなたはそれに違反したす-間違いなく、あなたは悪意を持っおサむトを䜿甚しおいたす。 もちろん、robots.txtには法の効力はありたせんが、実際に「焌く」のであれば、それが間違いなく匁護士を通過するずいう事実ではありたせん。」
    • ロボットず亀枉するこずは䞍可胜であるずいう事実にもかかわらず、店舗では「写真は犁止されおいたす」ずいうハングサむンがあり、これは違法であるため、人よりも簡単な堎合がありたす。 そしお非倫理的。 「たさにそのような䌝統。 robots.txtはテクニックです。 それは倫理に関するものではありたせん。 解析したくないこずを瀺したい堎合は、account.habr.com / info / agreementのようなセクションを䜜成したす。 そのような制限が合法かどうかはわかりたせんが、少なくずも自分の垌望を人間の蚀語で衚珟するたたはrobots.txtに蚀及するこずで、倫理に぀いお話すこずができたす。「私たちの匁護士は反論したす。」
    • 解析ず情報のさらなる䜿甚に぀いお同時に考えたす。 「Robots.txtは解析に぀いおではなく、さらなる怜玢怜玢結果などに関するものです。 デヌタを誰にも受け取らないようにするには、デヌタを芋るこずができる人の茪を制限する必芁がありたす。 窓にカヌテンがない堎合は、裞にしないでください。 窓やandいずころを芋るのは意図的かもしれたせんが、カヌテンがなければ䜕を䞻匵したすか」
    • 倫理の解析は䞭立です。 取埗した情報を䜿甚するこずは非倫理的かもしれたせん。 䞀般に、玔粋に倫理的な芳点からすれば、誰もが個人情報や特別な情報ではなく、法埋で保護されおいない公開情報を受け取る暩利を持っおいたす。 䟡栌は確かな公開情報です。 説明も。 説明は著䜜暩の察象ずなる堎合があり、蚱可なく投皿するこずはできたせん。 ただし、サむトを解析しお自分の公開サむトを䜜成しおも、䟡栌のダむナミクスや競合他瀟の比范を反映する堎合でも、倫理に違反するこずはありたせん。 それは瀟䌚的に有甚な情報を提䟛するため、倫理的です。」
  2. 「手で収集するこずは可胜ですが、ロボットで解析するこずはできたせん。」デュヌデリゞェンスずスキルを備えた「悪」は正圓化できたす。 「私はずっず前に構文解析に埓事しおいたしたが、垞に非垞に合法的か぀道埳的に正しい構文解析を行うように頌たれたした。 数回、仲介者は卞売業者の解析商品の販売を芁求し、卞売業者自身は気にしたせんでしたが、APIの開発に投資したせんでしたたたは技術的な理由でできたせんでした。 か぀お䞭囜の店の仲介者が統合を芁求したしたが、そこでは䞭囜の店のAPIがめちゃくちゃで制限されおいたため、解析によっお郚分的に情報を受け取る必芁がありたした。 サむトずフォヌラムの䜜成者ず所有者が、デヌタベヌスを「クランプ」した無料サむトから移行したいず思ったずき。 圌はたた、文孊コンテストのサむトずそのフォヌラムを統合し、新しいストヌリヌを远加するず、トピックがフォヌラムに自動的に衚瀺されるようにしたした技術的な理由により、他の方法ではできたせんでした。


「匁護士は電話したの 芋積もりを解析できたせん "



暩力の源泉を決定する際にどちらを遞択するかに関係なく、お金か真実か-お金がどこから芋぀けられるかは、真実を芋぀けるこずがたすたす難しくなっおいるこずは明らかです。 この蚘事の範囲を超えお、法埋自䜓ずその代衚者を含むすべおのものを取埗する可胜性に぀いお議論するために、コメントで提起されたいく぀かの法的偎面を怜蚎したす。



  1. 「のぞきから盗難たでが1぀のステップです。」 犁止されおいないものがすべお蚱可されおいおも、読者は「鍵穎を芗くのは少なくずもugいです。クラむアントがスパヌシャルを自分のものずしお攟っおおけば、これは盎接の窃盗です。」 もちろん、ビゞネスでは誰もがこれを行うこずは明らかです。 しかし、たずもな瀟䌚では、これに぀いお沈黙を保぀のが今でも慣習です。」しかし、誰かのために構文解析し、圌ら自身のように構文解析されたものを配るこずは、2぀の倧きな違いです」あなたは柔らかさず寒さを混同したす。 解析サヌビスを提䟛しおいたす。 しかし、メヌカヌなど、たずえば歊噚を殺したこずを非難できるのずたったく同じです。 私たちはビゞネスをしおいたすが、ビゞネスには1぀のルヌルがありたす。それは合法かそうでないかです。 私のポむントは...もし顧客が私たちのずころに来お、デヌタを埗るために倚くのお金を払おうずするなら、それは本圓に悪いこずです...」
  2. 「メディアサむトの申請曞を䜜成したした-苊情の原因になっおいたす。」 Forbesサむト、解析、Google Playでのアプリケヌション-䜕が問題になる可胜性がありたすか 「ある時、私はフォヌブスのりェブサむトに応募するこずにしたした。 サむトから蚘事を受け取るために-ペヌゞを解析したした。 すべおを自動モヌドで構成し、Android甚のアプリケヌションを䜜成したした。 アプリケヌションを垂堎に投皿したした。 1幎埌、匁護士が私に連絡し、私が著䜜暩を䟵害しおいるため、アプリケヌションの削陀を芁求したした。 私は䞻匵したせんでした。 Forbes自䜓が、サむトからの独自の蚘事のアプリケヌションを持っおいないのは残念です。 サむトのみがありたす。 そしお、圌らのサむトは遅く、長い​​間ロヌドされ、広告でハングしおいたした...」
  3. 「私のデヌタベヌスは保護されおいる私の仕事です」 著䜜暩は、数十䞇の既存の議論に加えお数十ペヌゞの議論に専念できる別の抂念ですが、蚀うたでもなく、それも間違っおいたす。 読者はコンセプトを発衚したした「誰かが商品のデヌタベヌスを䜜成したした。 情報の怜玢、この情報の䜓系化、デヌタベヌスぞのデヌタの配眮に倚くのリ゜ヌスを費やしたした。 競合他瀟のリク゚ストに応じお、このベヌスを解析し、同じ競合他瀟に金銭的に提䟛したす。 倫理的な問題はないず思いたすか 法の支配に぀いおは、ロシア連邊ではどのようになっおいるのかわかりたせんが、りクラむナでは、デヌタベヌスが著䜜暩の察象になる堎合がありたす。



    ただし、サヌビスたたは補品を䜿甚する責任は、誰が/どのような目的で取埗するかにありたす。 デヌタ収集サヌビスを提䟛したす。 そしお、このサヌビスのために私たちはお金を求めたす。 デヌタを自分で販売するこずはありたせん。 ずころで、私はすべおのクラむアントに、たずえば説明を䜿甚するず法埋に違反する可胜性があるず譊告しおいたす。」
  4. 「正匏に、あなたは正しいですが、私はあなたに関する蚘事を芋぀けたした」ロシア連邊刑法第146条は、著䜜暩䟵害を「犯眪」ずしお分類するこずを蚱可する違反の範囲のみを説明しおいたす。 暩利自䜓は民法に蚘茉されおおり、「サむトがダりンするかどうか」ずいう問題が問題なく生じるように、行為が「犯眪」、定期的な解析ずしお分類できる範囲です。 しかし、偎面は重芁です。



    • そこで、「倧きなサむズ」は、解析されるペヌゞの数ではなく、金銭にありたす。 お金の構文解析およびその芏則性を著䜜暩䟵害ずしおどのように評䟡したすか そしお、そのような堎合に通垞どのように行われ、映画のコピヌごずに䜕十䞇ドルの眰金が発生する可胜性がありたすか 「損倱利益」は、察応する係数で蚈算されたす。 いく぀かの契玄から蚈算するこずができたす-あなたから合法的に、そしおここで「ダンス」から同じ情報を賌入するのにどれくらい費甚がかかりたすか。 ただし、初心者の堎合は、最初に販売する必芁がありたすパブリックドメむンに投皿しないでください。 リスクはありたすが、条件付きConsultant-Plusの商甚ラむセンスの費甚を知っおいたすか 十数の基本法則を超えお登るず、すぐにその非垞に商甚版を賌入する申し出に出くわすでしょう。
    • 私たちの話は間違いなく刑事事件ではありたせん眰金ず損害を混同しないでください。フヌリガンでビヌル1本を砎りたした。損害は30ルヌブル、眰金は最倧1000ルヌブルで、民事蚎蚟で少なくずも1兆ドルの「利益の損倱」を蚎えたすが、もはや眰金ではありたせん。 あなたは䟡栌をたったく売りたせん、専門家は䜕を曞きたすか 具䜓的には、「良い匁護士が問題なく匕き寄せる」のではありたせん。


芁玄 「-構文解析は著䜜暩䟵害ずどのように等しくなりたしたか -なし。 違反は、私たちに構文解析を呜什し、あなたのサむトにコンテンツをダンプするこずです。 サむトを眮くこずは別の蚘事です。」



Maxim Kulgin、 xmldatafeed.com



All Articles