サむトでの怜玢は、サむトでの怜玢だけではありたせん

すべおのサむトにスタンドアロンの怜玢モゞュヌルが必芁なわけではありたせん。 サむトに5぀のペヌゞがある堎合-怜玢は䞍芁です。 サむトが月に1回曎新されるか、すべおの曎新が衚玙に反映される堎合、GoogleたたはYandexからサむトで倖郚怜玢を実行できたす。 ただし、䞀郚のタスクは倖郚怜玢では解決できたせん。 この蚘事では、組み蟌みの怜玢モゞュヌルが実行できる機胜に぀いお説明したす。 たた、これらの機胜の䞀郚は怜玢プロセスに盎接関係しおいたせん。



Yandexがどのように知らないか



倧芏暡な怜玢゚ンゞンは、関連性、怜玢スパムの蚈算、圢態およびその他のランキングの分野で長幎の経隓を掻甚する機䌚を提䟛したす。 しかし、倖郚の怜玢゚ンゞンがその「倖芳」のために察凊できないタスクがありたす。



むンスタント再むンデックス


サむトに蚘事を远加したした-それはすでにむンデックスにすぐにあり、怜玢に利甚可胜です。 あなたはわいせ぀なコメントを削陀したした-そしお誰もそれを芋぀けたせん。 サむトにグロヌバル怜玢゚ンゞンを䜿甚した怜玢フォヌムがある堎合は、数週間にわたっおむンデックスの再䜜成を埅぀必芁がありたす。 組み蟌みの怜玢モゞュヌルを䜿甚しお、「远加」、「倉曎」、たたは「削陀」のむベントによっおサむトフラグメントのむンデックスを再䜜成できる堎合、アカりントは数分たたは数秒になりたす。







同矩語


補品の名前は、ロシア語で「netcat」、「netcat」、「netket」ず曞かれおいるこずがよくありたす。 Yandexには、そのような芁求に察しおNetCatが曞き蟌たれおいるペヌゞを衚瀺する必芁があるこずはありたせん芁求 "netcat"を陀き、Yandexはそれを認識したした。 「CMS-CMS、Tsmska、Siems」などのケヌスに぀いお䜕ず蚀えたすか。 たた、組み蟌み怜玢に同様の同矩語を明瀺的に蚭定できたす。







関連性蚈算のためのタグの重み管理


「Yandexの」テキストを曞くこずは、人々のためにテキストを曞くこずず基本的な違いがありたす。 最初のケヌスでは、䜕よりもサむト䞊のペヌゞを衚瀺するために、「このトピックに関する」100䞇ペヌゞのうちYandexが必芁です。 第二に-すでにサむトに来た人がすぐに圌が必芁ずするペヌゞを芋぀けお、私たちの補品を賌入するように。 したがっお、私たちのりェブサむトで「ピンクの象」を探しおいる人は、理想的に怜蚌されたデヌタフレヌズの量を含む長い蚘事ではなく、いく぀かの写真ず賌入ボタンのあるペヌゞを衚瀺する必芁がありたす。 内郚怜玢゚ンゞンのタグの重みずWebペヌゞの個々のブロックをたずえば、クラス属性によっお蚭定できるため、「リク゚ストを入力-賌入」プロセスがナヌザヌから最小限の時間で枈むようにコンテンツを準備できたす。







むンデックスペヌゞの犁止の柔軟な蚭定


robots.txtファむルにDisallowステヌトメントを蚘述できたす。これにより、倖郚怜玢゚ンゞンがサむトの特定の郚分をむンデックスに登録するこずを防止できたす。 怜玢゚ンゞンに䟵入する個人情報を含む倏のスキャンダルが瀺しおいるように、これは垞に圹立぀ずは限りたせん。 ただし、これを考慮しない堎合でも、蚱可されない構文は非垞に原始的であり、犁止された領域を正芏衚珟で指定する方がはるかに適切です。 䟋ペヌゞsloniki.htmlAction = addは、管理者が察応するペヌゞにコンテンツを远加するこずを目的ずしおおり、芋出し「Pink Elephants」ず承認フォヌムのみがある堎合でも、むンデックスに入る可胜性がありたす。 しかし、なぜ怜玢結果を散らかすのでしょうか



入力時のク゚リオプションの自動䞀臎


リク゚ストを入力するずきにYandexたたはGoogleが衚瀺するドロップダりンリストは誰もが知っおいたす。 しかし、このヒントは最も人気のあるク゚リのリストにすぎたせん。 ただし、内郚怜玢では、䞀般的なク゚リだけでなく、入力ク゚リに適合するペヌゞタむトル぀たり、ドキュメントの名前も読み蟌むこずができたす。 「ピンク」の入力を開始するず、このフラグメントが含たれるタむトルタグのコンテンツのリストが衚瀺されたす。 必芁な「ピンク゚レファント」をクリックするず、怜玢結果ではなく、探しおいるペヌゞがすぐに衚瀺されたす。







柔軟な再玢匕付けスケゞュヌル


私たちのサむトが倧きい堎合、その完党な再むンデックス付けには倚くの時間ずリ゜ヌスがかかりたす。 しかし、「フォヌラム」セクションのむンデックスを1時間ごずに、「ニュヌス」を毎日、そしお「䌚瀟に぀いお」のむンデックスをたったく䜜成し盎す必芁がない堎合は、そうするのがよいでしょう。 内郚怜玢では、セクションごずに異なるスケゞュヌルを蚭定できたす。 もちろん、サむトマップではchangefreq属性を䜿甚しおむンデックスの再䜜成の頻床を制埡できたすが、YandexずGoogleがアクションの指瀺ずしお私たちの望みを認識するこずはほずんどありたせん。







そしおたた

...怜玢だけでなく



ビゞネス怜玢モゞュヌルは、その盎接的な責任だけでなく、他の瀟䌚的に有甚なタスクも実行できたす。 以䞋に䟋を瀺したす。



sitemap.xmlの自動ビルド


ロヌカル怜玢ロボットでない堎合、倖郚怜玢゚ンゞンのサむトペヌゞの完党なリストを䜜成するのに最も泚意を払うのは誰ですか 同時に、サむト構造のレベルで、セクションごずに異なるchangefreqおよびpriorityパラメヌタヌを蚭定できたす。







壊れたリンクを怜玢する


存圚しないペヌゞぞの内郚リンクを怜玢するには、少なくずも2぀の方法がありたす。 1぀は、誰かがそのようなペヌゞにアクセスするたびに、ペヌゞずリファラヌのアドレスを含むレタヌを送信するたたはサむトデヌタベヌスにメッセヌゞを远加する404゚ラヌハンドラヌを蚘述するこずです。 2番目は、これを怜玢ロボットに任せるこずです。 これは明らかにより正しい方法です。



ク゚リ統蚈収集


怜玢゚ンゞンがク゚リずその結果に関する統蚈を収集する堎合、このデヌタは非垞に圹立ちたす。 たず、ナヌザヌが䜕も芋぀けられないク゚リを確認し、察応するペヌゞを远加したす。 次に、よく芋られるタむプミスを確認した埌、同矩語の蟞曞に远加できたす。 第䞉に、ペヌゞが頻繁に怜玢される堎合、怜玢なしで芋぀けるこずは困難です。 メニュヌに远加する䟡倀があるかもしれたせん。 たあなど。







ずころで、別の項目は、特定の登録ナヌザヌのリク゚ストに関する統蚈です。 私はあなたに圌らに埓うこずを勧めるずは思わないでください:)



「長老」に遅れないでください



これらの機胜はすべお、怜玢が本圓に䟿利で、必芁なものを探しおいお、簡単で䜿いやすい堎合にのみ有効です。 したがっお、圓瀟の怜玢モゞュヌルは、倧芏暡な怜玢゚ンゞンが行うこずを実行できる必芁がありたす。 圌らず同じように。 たあ、たたはほが同じ。



完党な圢態


倚くのロヌカルのワヌドフォヌム怜玢゚ンゞンは、停滞したす。 この甚語は、語根を芋぀けようずしお単語の終わりを砎棄するこずを意味し、その結果、単語が圢成されたす。 「ピンク」ずいう単語を取り、ステミングを適甚し、「バラ」を取埗し、この「ルヌト」で始たるすべおの単語を単語圢匏ず芋なしたす。 したがっお、「ピンク」のリク゚ストに応じお「ピンク」、「ピンク」などが芋぀かりたすが、ステミングはあたりにも倚くの゚ラヌを䞎えるため、たずえば、孀立した動詞「go-go-go」には適しおいたせん。 圢態蟞曞は、単語圢匏の最も正確な怜玢を提䟛したす。 家庭甚たたはビゞネス甚のテキストの堎合、それらはそれほど倧きくありたせんNetCatはaot.ruからの無料の蟞曞を䜿甚し 、ロシア語ず英語の蟞曞を合わせお15メガバむトしか䜿甚したせん。 。







ちなみに、この機䌚を利甚しお、phpMorphy 圢態分析ラむブラリの䜜成者に感謝したす。



ファむティングタむプミス


タむプミスに察凊するには、2぀の方法がありたす。 最初の方法は、Yandexず同様に最も類䌌した単語を芋぀けるこずであり、2番目の方法は、ファゞヌ怜玢を䜿甚するこずです。







ただし、キヌボヌドレむアりトの修正は非垞に簡単です。



゚キゟチックなケヌス



次の機胜は、゚キゟチックな性質や耇雑すぎるため、怜玢モゞュヌルには含めたせんでしたが、堎合によっおは圹に立぀かもしれたせん。



RTL蚀語ず象圢文字


ペヌロッパ蚀語ロシア語を含むには、巊から右巊から右、LTRに曞く方向がありたす。 しかし、アラビア語のスクリプトは逆の方向に曞かれおいたす。 あなたのプロゞェクトがこの蚀語の聎衆を察象にしおいる堎合、曞くたたは既補のステマヌを接続する準備をしおください。 通垞、象圢文字は別のケヌスであるため、単䞀のステマヌではできたせん。



制限区域を怜玢


むンタヌネットプロゞェクトでの暩利の差別化のシステムは、かなり偏執的なものも含めお異なりたすこれに぀いおは、別の蚘事を曞きたいず思いたす。 耇雑なオプションの䟋公開システム。 ゞャヌナリストは、蚘事を远加する暩利を持っおいる堎合がありたす特定のセクションでそしお、線集者によっお調敎されるたで、その修正。 線集者は、察象のフレヌムワヌク内のすべおの資料を衚瀺、修正、有効化/無効化する暩利を有したす。 線集長は、商業郚門の承認なしに泚文された蚘事を調敎する暩利がありたせん。 暩利差別の偏執的なシステムの芳点から、理想的な怜玢モゞュヌルはプロゞェクトに投皿されたすべおのコンテンツのむンデックスを䜜成し、怜玢䞭にナヌザヌの暩利をチェックし、ナヌザヌがアクセスできる資料のみを衚瀺したす。 同時に、ドキュメントステヌタスによるフィルタリングが可胜になりたす。



ペヌゞトピックを自動的に怜出する


テキストのむンデックス付きペヌゞを分析するこずにより、ある皋床の゚ラヌを含む䞻題を特定するこずが可胜です。 このような機胜の有甚な効果玠材の自動カタログ化ずタグクラりドの構築、コミュニティたたはその個々のメンバヌの関心の分析UGCプロゞェクトの堎合、関連玠材のリストの構築「参照」ブロックを参照したしたか ほずんどの堎合、このような分析はコンテキスト広告を察象ずするために䜿甚されたす。



これには、怜玢結果のキャッシュ、画像怜玢、フォヌムたたはajaxぞの入力によっお生成されたペヌゞのむンデックス䜜成、重耇ペヌゞの怜玢も含たれたす。



この蚘事を曞いおいる過皋で、怜玢゚ンゞンの別の興味深いアプリケヌションが思い浮かびたした。 たずえば、集合的なブログやメディアに適しおいたす。 さたざたな著者のテキストを分析するこずで、さたざたなパラメヌタヌに埓っお評䟡を構築できたす。 最初に頭に浮かぶのは、語圙です。 さらに、著者の評䟡-コレリック感嘆笊を他の人よりも頻繁に䜿甚する、長い掚論の愛奜家疑問笊が奜き、寄生虫などによる Habraadministrationが䌌たようなこずをするこずをお勧めしたすか :)確かに、私はただそのようなおもちゃの商業的正圓化を考え出しおいない。



怜玢を曞くず...



...最初に質問に答える必芁がありたす。必芁か、既存の゜リュヌションを䜿甚する䟡倀があるか Yandex.Server 、 Sphinxなど。独自の怜玢゚ンゞンの䞻な利点は、サむトで䜿甚される他のCMSモゞュヌルずの緊密な統合の可胜性です。 管理パネルに管理むンタヌフェむスを埋め蟌むだけでなく、暩限の差別化、構造、ナヌザヌなどの管理システムずの統合に぀いおも説明したすこれに぀いおは既に曞いおいたす。



テクノロゞヌに関しおは、十分な柔軟性ず匷力なプラットフォヌムがありたす。 デフォルトのNetCat怜玢゚ンゞンはZend_Search_Luceneを䜿甚したす 。 この゜リュヌションには、たずえば、速床が比范的䜎いずいう欠点がありたす。 私たちの堎合、これはNetCatのサむトが远加のコンポヌネントをむンストヌルするこずなく暙準のUNIXホスティングで動䜜し、Zend_Search_LuceneがPHP以倖を必芁ずしないずいう事実によっお正圓化されたす。 公平には、モゞュヌルを拡匵可胜にしたこずに泚意しおください。぀たり、蟞曞だけでなく゜フトりェアコンポヌネントも眮き換えるこずができたすプロゞェクトが十分に倧きく、サヌバヌが専甚である堎合、情報の保存ず取埗、むンデックス䜜成、および基本的なフォヌム倉換を担圓するコンポヌネントを眮き換えるこずができたすなど。たずえば、同じSphinxたたはSolr および必芁に応じおYandex.XML を䜿甚したす。



ナニバヌサルCMSではなく、特定の倧芏暡プロゞェクトを開発しおいる堎合、最適なプラットフォヌムを遞択しお蚭定するこずは問題ではありたせん。 その機胜を可胜な限り効率的に䜿甚する方法を理解するこずは、はるかに重芁です。



この蚘事のスクリヌンショットはすべお、 圓瀟のりェブサむトずその管理システムで䜜成されたした。



All Articles