サむト解析に関する真実、たたは「すべおのオンラむンストアがそれを行う」

この蚘事では、サむトの解析ずその䞻なニュアンスに぀いお最も簡単に説明しようずしたす。 私の䌚瀟は3幎以䞊サむトを解析しおおり、毎日玄300のサむトを解析しおいたす。 私は通垞、これに぀いお゜ヌシャルネットワヌクで公然ず曞きたすさらに、ロシアの最倧芏暡の店舗の解析結果を無料で公開しおいたす。これにより、ナヌザヌからの激しい議論や䞍承認が生じたす。 コメントを読んだ埌、PMを調べお、投皿の䞋のコメントで私たちを非難した同じ人々からの協力の申し出でメッセヌゞを読むのは面癜いです:)蚘事党䜓は、最もよく寄せられる質問ず正盎な回答技術資料ではなく、マヌケティング資料の圢匏になりたす



1.解析ずは䜕ですか



定矩䞊、解析ずは、非構造化情報、その倉換、および構造化圢匏での出力の自動化されたコレクションです。 かなり無害ではありたせんか しかし、瀟䌚はこれを10代のマスタヌベヌションずしお非垞に奇劙に扱っおいたす-倚くの人がそれをしたした:)が、誰もそれに぀いお公に話したせん。 さらに、解析はしばしば眉をひそめられ、やや恥ずかしいず芋なされたす。 理由は、ほずんど同様の堎合ず同様に、間違った認識にありたす。



秘密をお䌝えしたす。誰もが解析に携わっおいたす...少なくずも、垂堎のすべおの䞻芁なプレヌダヌ。 数幎前、Vedomostiの蚘事の1぀で、M-video、Svyaznoy、Citylinkの代衚者は、FASの関心に応えおこれに぀いお公然ず話したした こちらを参照。



2.解析の目的は䜕ですか



たず、解析の目的は、䟡栌の「むンテリゞェンス」、品揃え分析、および商品圚庫の远跡です。 「誰が、䜕を、どれだけ、どのような量で売れたすか」解析が答えるべき䞻な質問はありたすか より詳现には、競合他瀟の範囲たたは同じYandex.Marketを解析しお、最初の3぀の質問に答えたす。



商品の流通には倚少耇雑です。 ただし、Wildberries、Lamoda、Leroy Merlinなどの䌁業は、日々の販売泚文たたは補品の残高に関する情報を公然ず提䟛しおおり、これに基づいお販売の䞀般的なアむデアを圢成するこずは難しくありたせんこれらのデヌタが歪んでいるずいう意芋をよく耳にしたす意図的に-たぶん、そうではないかもしれたせん。 今日、明日、翌日など、1か月間の圚庫の量を確認したす。スケゞュヌルは既に準備ができおおり、䜍眮ごずの数量の倉化のダむナミクスが䜜成されおいたす実際の商品の売り䞊げ。 ダむナミクスが高いほど、売䞊高は倧きくなりたす。



画像



サむトLeroy Merlinの残党を毎日分析するこずにより、商品の売り䞊げを調べる可胜性のある方法。



もちろん、ポむント間の商品の移動を参照できたす。 しかし、合蚈するず、䟋えばモスクワを䟋にずるず、その数はあたり倉わらず、地域間での商品の実質的な移動を信じるこずは困難です。



状況は販売量ず同様です。 もちろん、倚く/少数の圢で情報を公開しおいる䌚瀟もありたすが、これでもあなたは働くこずができ、ベストセラヌのポゞションは簡単に远跡できたす。 特に、安いポゞションを切り捚おお、最も䟡倀のあるものだけに集䞭する堎合。 少なくずもこのような分析を行いたした-興味深いこずに刀明したした。



次に、コンテンツを取埗するために解析が䜿甚されたす。 ここでは、「グレヌの合法的な色合い」のスタむルの物語がすでに行われおいたす。 倚くの人は、構文解析はコンテンツの盗難であるずいう事実に取り぀かれおいたすが、これは完党にそうではありたせん。 解析は単なる自動化された情報の収集であり、それ以䞊のものではありたせん。 たずえば、特に透かしを含む写真の解析は、コンテンツの盗難や著䜜暩䟵害です。 そのため、圌らは通垞これを行いたせん私たちの仕事では、画像ぞのリンクを収集するこずだけに制限しおいたす...それ以倖の堎合は、写真の数を数えたり、補品のビデオの可甚性を远跡したり、リンクを提䟛したりするように䟝頌するこずもありたす。



コンテンツの収集に関しおは、補品の説明がある状況はより興味深いです。 最近、倧芏暡なオンラむン薬局の50サむトでデヌタを収集するように泚文を受けたした。 品揃えず䟡栌に関する情報に加えお、医療機噚の説明を「スパヌス化」するように求められたした。各パックに同封されおいるものは、いわゆるものです。 事実情報、すなわち 著䜜暩法に該圓する可胜性は䜎いです。 その結果、顧客は手動の指瀺セットではなく、指瀺テンプレヌトをわずかに調敎するだけで枈み、それでサむトのコンテンツの準備が敎いたす。 しかし、はい、公蚌人によっお認定され、特にコンテンツ泥棒の䞀皮のasずしお䜜られた薬の著者の説明があるかもしれたせん:)。



OZON.RUやLabyrinth.ruなどを䜿甚しお、曞籍の説明も収集するこずを怜蚎しおください。 ここでは、法的芳点から状況はそれほど単玔ではありたせん。 䞀方で、そのような説明の䜿甚は、特に各補品カヌドの説明が公蚌されおいる堎合、著䜜暩を䟵害する可胜性がありたす私は匷く疑いたす-それは認定されおいない可胜性がありたす、䟋倖は圌らが裁刀所を通しおコンテンツ泥棒をドラッグしたい小さなリ゜ヌスです。 いずれにせよ、この状況では、この説明の独自性を蚌明するために倚くの汗をかかなければなりたせん。 䞀郚のクラむアントはさらに先ぞ進みたす。同矩語を接続し、垞識を維持しながら「オンザフラむ」で説明の単語を倉曎したす良いか悪いか。



構文解析の別のアプリケヌションは非垞に独創的です-「自己解析」。 ここではいく぀かの目暙を远求しおいたす。 そもそも、サむトのコンテンツで䜕が起こっおいるかを远跡しおいたす。リンク切れ、説明の欠萜、商品の耇補、むラストの欠劂などです。 パヌサヌの䜜業の30分-これで、すべおのカテゎリずデヌタを含む完成したテヌブルができたした。 䟿利に 「自己解析」を䜿甚しお、サむトの残高ず倉庫の残高を比范するこずもできたすサむトぞのアップロヌドの倱敗を远跡する顧客もいたす。 私たちの仕事で遭遇した「自己解析」のもう1぀のアプリケヌションは、YandexマヌケットにアップロヌドするためのWebサむトからのデヌタの構造化です。 手動で行うよりも、これを行う方が簡単でした。



広告は、たずえばCyan-e、Avitoなどでも解析されたす。 ここでの目暙は、䞍動産業者やツアヌオペレヌタヌぞの拠点の再販、およびあからさたな電話スパム、リタヌゲティングなどです。 Avitoの堎合、これは特に明癜です。 ナヌザヌの携垯電話を含むテヌブルがすぐにコンパむルされたすAvitoはナヌザヌの携垯電話を保護のために眮き換え、画像ずしお公開するずいう事実にもかかわらず、着信通話からどこにでもアクセスするこずはできたせん。



3.「芁玄の内容は」たたはHH.RUの解析



最近、Headhunterの解析芁求が関連するようになりたした。 確かに、最初は人々に「ヘッドハンタヌベヌス」を販売するように求められたす。 しかし、圌らがすでに私たちに䜕の基盀も持っおいないこずを理解しおいるなら、私たちは圌らのプロファむルでの解析に぀いお話し始めたす「パスワヌド付き」。 これは構文解析の特異な方向であり、率盎に蚀っお、それは私たちにずっおあたり面癜くないですが、それに぀いお話す䟡倀はありたす。



繊现さは䜕ですか クラむアントは自分のアカりントぞのアクセスを提䟛し、デヌタを収集するタスクを自分のニヌズに合わせお蚭定したす。 ぀たり 圌はすでにHHデヌタベヌスぞのアクセスに察しお支払いを行っおおり、私たちずの契玄に眲名しお、圌の利益のために、そしお圌のアカりントの䞋で情報を自動的に収集するタスクを蚭定したす。 HHが異垞なアクティビティを怜出するず、アカりントはブロックされたす。 そのため、デヌタ収集における人間の掻動を可胜な限りシミュレヌトしようずしたす。



HH私が知る限り、APIの実隓に「成功」​​しお倱敗したが地域ごずにタブレットのデヌタを提䟛販売した堎合、たずえばモスクワで珟圚働いおいるすべおのマヌケティングディレクタヌの連絡先は、誰も私たちのずころに来なかったでしょう。 その間、人々は「ペン」でこれをしなければなりたせん、圌らは私たちのずころに来たす。 結局のずころ、このようなテヌブルがある堎合、コヌルドコヌルずいう広告スパムに関䞎する方がはるかに䟿利です。



繰り返したすが、HHデヌタベヌスはありたせん。各クラむアントのニヌズ、アカりント、責任に応じおデヌタを収集するだけです。 たた、提䟛契玄の違反は、解析者によるサむトの䜿甚ずは関係ありたせん。 私たちずの契玄に眲名するこずにより、クラむアントは玄450人の意思決定者の実行連絡先を受け取り、それをサヌバヌ䞊に眮いおから、圌の営業郚門がそれをどうするかを決定したす。 ええ、そのような基盀があれば、「スパム」になりたす。 冗談です:)



個人的には、パスワヌドを解析する芋蟌みはないず思いたす。 オヌプンリ゜ヌスの解析は別の問題です。 すべおを蚭定しお絶えず解析したら、収集したすべおのデヌタぞのアクセスを再販したす。 これはより有望です。



4.解析は合法ですか



ロシアの法埋には構文解析を犁止する蚘事はありたせん。 ハッキング、DDOS、著䜜暩で保護されたコンテンツの盗難は犁止されおおり、解析は1぀でも他でもなく、3番目でもないため、犁止されおいたせん。



䞀郚の人々は構文解析をDDOS攻撃ず認識し、それを疑いたす。 ただし、これらは完党に異なるものであり、逆に解析するずきは、タヌゲットサむトの読み蟌みを可胜な限り少なくし、ビゞネスに害を及がさないようにしたす。 健康的な寄生の堎合のように、私たちはビゞネスに「ひづめを萜ずす」こずを望みたせん。そうでなければ、「寄生する」こずは䜕もありたせん。



通垞、圌らはロシアのトップ300から500サむトから、倧芏暡なサむトを解析するように求めたす。 このようなサむトでは、通垞、トラフィックは1か月あたり数癟䞇であり、さらに倚い可胜性がありたす。 このような背景に察しお、1秒間に1぀たたは2぀の補品を解析するこずはほずんど目に芋えたせんより頻繁に解析するのは意味がありたせん。補品あたり1〜2秒が倧芏暡サむトに最適な速床です。 したがっお、アクションにDDOS攻撃のヒントはありたせん。 たれに、たずえば、1日あたりBERU.RUサむト党䜓を曎新するように䟝頌されるこずはほずんどありたせん。率盎に蚀っお、やり過ぎであり、サむトの負荷が高すぎたす。通垞、3〜4日かかりたす。



解析は、サむト䞊で自分の目で芋るこずができ、手にコピヌできるもののコレクションにすぎないこずを思い出させおください。 したがっお、すでに収集された情報を持぀アクション、぀たり 顧客自身の行動。 それはただ、人が長い間、ゆっくりず゚ラヌでこれを行い、パヌサヌが-玠早く、間違いを犯さないこずです。 AliExpressたたはWildberiesからデヌタを収集する堎合はどうすればよいですか そのようなタスクは単に人間の力を超えおおり、構文解析が唯䞀の方法です。



確かに、圌らは最近、州の組織のりェブサむトを解析するように頌みたした-私が間違っおいなければ、裁刀所。 そこでは、すべおの情報が公開されおいたすが、念のため拒吊したした。 :)



5.「なぜ私たちを解析するのか、私たちは顧客なのか」、たたは解析ず䟡栌監芖の違いは䜕ですか



䟡栌監芖は、解析の最も䞀般的な分野の1぀です。 しかし、圌にずっおそれほど単玔ではありたせん。この堎合、私たちは仕事をするだけでなく、クラむアント自身も仕事をしなければなりたせん。



䟡栌監芖を泚文する際、競合他瀟だけでなく顧客も解析するこずをすぐに譊告したす。 これは、商品ず䟡栌で同様のテヌブルを取埗するために必芁であり、自動的に曎新できたす。 ただし、このようなデヌタだけでは、盞互接続されるたで䟡倀がありたせんいわゆる商品の䞀臎。 異なるサむトの䞀郚のポゞションを自動的に盞関させるこずができたすが、残念ながら、珟時点では「機械」ぱラヌなしで保蚌されるほど良くなく、人よりも優れおいる人はいたせんたずえば、地域の非垞勀埓業員でリモヌトで䜜業するなどしたす。



誰もがサむトにバヌコヌドを衚瀺した堎合、それは玠晎らしいこずであり、すべおの「バンドル」を自動的に行うこずができたす。 しかし、残念ながら、これはそうではありたせん。たた、䌁業が違えば補品名も異なりたす。



そのような䜜業を1回行う必芁があり、その埌、必芁に応じお定期的に再確認し、小さな調敎を行うのは良いこずです。 リンクがある堎合は、そのようなテヌブルをすでに自動的に曎新できたす。 さらに、通垞、人々はすべおの䟡栌を監芖する必芁はありたせん。条件付きで3〜5千のポゞションがトップにあり、些现なこずは興味がありたせん。 たた、この地域のオペレヌタヌは、月に玄10,000ルヌブルでそのような䜜業を簡単に行うこずができたす。



私の意芋では、このケヌスで最も成功した正しいケヌスは、競合他瀟の結果の䟡栌衚を盎接1C-kuたたは他のERPシステムにアップロヌドするこずです。そこで、すでに比范を実行できたす。 そのため、䟡栌監芖は、アナリストの日垞業務で最も簡単に実装できたす。 そしお、分析がなければ、誰もそのような解析を必芁ずしたせん。



6.解析から身を守るには



たさか。 そしお、解析から身を守る䟡倀はありたすか したせん 動䜜する100の保護はただありたせんより正確には、私たちはただ䌚っおいたせん。したがっお、私は自分自身を守ろうずするこずにはあたり意味がありたせん。 解析に察する最善の保護は、完成したテヌブルをサむトに配眮しお曞き蟌むこずです。ここから取埗し、数日ごずに曎新したす。 人々がこれをすれば、私達はパンを持っおいないでしょう。



ずころで、圌らは最近、倧芏暡ネットワヌクのITディレクタヌに電話をかけたした-解析に察する保護をテストしたかったのです。 なぜそうしなかったのか、圌に盎接尋ねたした。 技術の専門家ずしお、圌は構文解析に察する保護は保存せず、アマチュアを怖がらせるだけであるこずを完党に理解しおいたす。 しかし、解析でお金を皌ぐ䌁業は、この方向の研究掻動に非垞に䜙裕がありたす-長く苊しい時間のために新しい保護を理解し、最終的にそれを回避するために...



原則ずしお、誰もが同じ皮類の保護を䜿甚し、そのような研究は耇数回圹立぀でしょう。 そのため、マヌケティング郚門にはこれに察する準備ができおいないこずがわかりたした「なぜ競合他瀟の生掻を単玔化するのですか」 公平に蚀うず、「孊生」がpythonを孊習し、「動く」ものすべおを急䞊昇させるこずで十分に圹立぀こずは泚目に倀したす。



ずころで、YandexずGoogleの䞡方が解析に取り組んでいたす。圌らはサむトにアクセスしおむンデックスを䜜成し、情報を収集したす。 誰もが明らかな理由でYandexずGoogleがサむトのむンデックスを䜜成するこずを望んでおり、誰も解析されたくない:)



7.「ここを無料で芋た...」たたはフラむトの話



テスト解析の興味深い順序でアプロヌチされるず。 同瀟は航空刞を扱っおおり、最も人気のあるいく぀かの目的地の競合他瀟の䟡栌に関心がありたした。 タスクは簡単ではありたせんでした、なぜなら フラむトの代替ず比范をいじらなければなりたせんでした。 同じフラむトの「Onetwotrip」、「Aviasales」、「Skyscanner」の䟡栌がわずかに異なっおいるこずが興味深いこずがわかりたしたスプレッドは玄5〜7です。



このプロゞェクトは私にずっお非垞に興味深く思えたので、゜ヌシャルネットワヌクに投皿したした。 驚いたこずに、このポストでの議論は非垞に積極的で、その理由がすぐにはわかりたせんでした。 それからロシアのチケット販売のマヌケットリヌダヌの䌚瀟の䞀぀のれネラルディレクタヌが私に手玙を曞いお、状況は䞀掃されたした。 そのような䌁業のチケット䟡栌のリク゚ストは支払われるこずが刀明したした。 圌らは囜際的な有料サヌビスから情報を取埗したす。 そしお、寄生負荷に加えお、解析もそれらにずっお経枈的です。



いずれにせよ、これらのサヌビスのチケットを個人的に探しおいる堎合、誰も支払いを芁求したせん。たた、䞀般の人々はさたざたなオプションを゜ヌトしながら倚くのリク゚ストを行いたす...䞀般的に、そのようなビゞネス䞊のゞレンマがありたす:)



8.「シェフパヌサヌのレシピ」。 たたはどのように䜜業したすか



解析のすべおの偎面をよりよく理解するには、「むンナヌキッチン」のベヌルを開く䟡倀があるず思いたす。



それはすべお泚文から始たりたす。 顧客が自分で連絡するこずもあれば、電話するこずもありたす。 これは、䟡栌を監芖する泚文で特によくわかりたす。 この堎合、競合他瀟だけでなく顧客自身も解析する必芁がありたす。 したがっお、私たちは時々、䜕らかの方法で解析する人に電話をかけ、それに぀いお公然ず話し、サヌビスを提䟛したす-仕事はすでに私たちによっお行われおいたす。 最初は非垞に吊定的な反応がありたすが、2、3日経぀ず感情が静たり、顧客自身が電話をかけたす。 ただ誰を解析しおいたすか」



蚪問したリ゜ヌスの非垞に倚くの所有者ず解析するず、感情が発生したす。 鍵穎を芗くのに䌌おいるため、最初は吊定的です。 それから興味に発展し、そしお必芁性の認識に発展したす。 ビゞネスマンは賢い人です。 感情が無になり、冷酷な蚈算が残っおいるずき、疑問が垞に生じたす。「それずも、どこかで未発達だったのかもしれたせんが、これも必芁ですか」



これらの感情のおかげで、私たちは非垞に積極的に成長し、発展しおいたす。 珟時点では、1日に玄300サむトを解析しおいたす。 通垞、私たちは8〜15個のサむトを泚文し、各サむトは個別に接続する必芁があるためリ゜ヌスに玄4〜5時間かかりたす、接続の耇雑さに応じお1぀を解析するのに1か月あたり5〜9,000ルヌブルの費甚がかかりたす。 難点は、䞀郚が保護されおいるこずです。 栌闘は、特定の寄生負荷のように構文解析ではなく、利益をもたらさないが、時々あなたはいじくり回さなければならない。



いずれにせよ、商品の䟡栌が写真ずしおサむトに公開されおいる堎合でも、すべおがパリッシュされおいたす:)解析に手を詊したい人のために、Stolichki Pharmacyのりェブサむトず䟡栌蚭定を詊しおみるこずをお勧めしたす。



画像



Stolichki薬局チェヌンのオンラむンストア-䟡栌は内郚フォントで曞かれおおり、それらを解析するための解決策の1぀は画像の圢成ず認識です。 少なくずもこれは行いたす。



収集されたデヌタはクラむアントに送信されたす。 通垞、それらを独自のクラりドに配眮し、垞に曎新し、クラむアントにAPIアクセスを提䟛したす。 突然䜕かデヌタに問題が生じた堎合3〜4か月に1回皋床は、たれに発生し、すぐに私たちに電話をかけお曞き蟌み、できるだけ早く問題を解決しようずしたす。 このような障害は、新しい保護たたはブロックがむンストヌルされたずきに発生し、それぞれ調査ずプロキシを䜿甚しお解決されたす。 別のケヌスでは、サむト䞊で䜕かが倉曎されるず、ボットはそれがどこにあるかを理解しなくなり、プログラマヌはそれを再構成する必芁がありたす。 しかし、すべおが解決され、顧客は通垞、そのような問題を理解しお凊理したす。



私たちの堎合、顧客の身元は䞀床も明らかにされおいないこずに泚意しおください-私たちはこれに非垞に敏感であり、秘密保持契玄の条項をキャンセルした人はいたせん。 解析には非難できるものはありたせんが、倚くは恥ずかしがり屋です。



芁玄するず、成長䞭のビゞネス、広範囲にわたる商品の取匕、たたは急速に倉化する環境での仕事特定のカテゎリのクリ゚むタヌ、履歎曞、およびむンタヌネット䞊の他の「掲瀺板」のコンテンツに察するスタッフの雇甚や特定のサヌビスの提䟛などたたは埌で顧客たたはタヌゲットずしお解析に遭遇したす。



PSこの蚘事が気に入ったら、技術的な偎面-保護をバむパスする方法、䜿甚する容量、曞き蟌む内容spoiler .netなどに぀いお曞きたす。



Maxim Kulgin、 xmldatafeed.com



All Articles