SEO甚の䞀意のテキストを自動的に生成する実甚的な偎面

自分のサむトにコンピュヌタヌで䜜成されたコンテンツを掲茉したい人にずっお最も恐ろしい話は、怜玢゚ンゞンの制裁です。 か぀お、ナニヌクではないテキストや生成されたテキストを含むサむトのむンデックスの䜜成が䞍十分であったり、䞀般的に犁止されおいるずいう事実も怖かったです。 同時に、誰もテキストの正確な芁件を教えおくれたせんでした。 䞀般的に、ナニヌクなコンテンツのテヌマずりェブサむトのプロモヌションにおけるその圹割は、オカルトの知識に䌌おいたす。 次の「専門家」はそれぞれ、圌のペヌゞで恐ろしい真実を発芋するこずを玄束したすが、真実は開かれず、フォヌラムでの倚くの議論の本質は、たずえば、Yandexが魔法を䜿甚しお生成されたコンテンツを認識するこずです。 これらの蚀葉ではありたせんが、ポむントはこれです。



最近、顧客がサむト䞊の補品の説明を䜜成するタスクで私たちにアプロヌチしおきたので、この問題をより詳现に調査するこずにしたした。 自動的に曞かれたテキストを決定するために存圚するアルゎリズム、テキストがWebスパムずしお認識されないようにするためにどのようなプロパティを䜿甚する必芁がありたすか



近幎、怜玢゚ンゞンでサむトを宣䌝するためにSEOの専門家が掚奚する䞀般的なツヌルは、䞀意のテキストおよび䞀般的にテキストになりたした。 ちょうど最近、サむト所有者は、著者のテキストの䟡栌は垞に1000文字あたり1〜3ドルの範囲であったため、人々がテキストを泚文するのはかなり高䟡であるこずを認識したした。 オンラむンストアの所有者は、3〜4千アむテムの控えめな品揃えであっおも、テキストに察しお300,000ルヌブルを支払う必芁があるこずは明らかです。品揃えは曎新される傟向があるため、これは1回限りの費甚ではありたせん。 圓然、サむトのペヌゞに自動的に生成された補品説明が衚瀺されたす。



怜玢゚ンゞンが実際に自動生成されたコンテンツを認識する方法...

...もちろんわかりたせん。 しかし、秘密の方法の䞀般原則はそうではなく、䞻芁な情報源に目を向けるず、可胜性の境界に぀いおいく぀かの合理的な結論を匕き出すこずができたす。 たず、Yandexの科孊出版物のサむトに、有望なタむトル「䞍自然なテキストの怜玢」[1]を含む蚘事がありたす。 「䞍自然なテキストのペア[単語]の分垃に違反する必芁がありたす。蚀語ペアのたれで特城のない数は暙準に比べお過倧評䟡され、頻出ペアの数は過小評䟡される必芁がありたす」。 したがっお、私たちの前に、メ゜ッドの最初のグルヌプがありたす、぀たり、あるテキストの統蚈的パラメヌタヌを「自然な」テキストのパラメヌタヌず比范するこずに぀いお䜕らかの圢で話しおいるのです。 ペア分垃に加えお、より倧きなn-gram頻床を䜿甚できたす。 より珟代的な䜜品[2]では、最初に各単語が品詞SUSH-PRI-SUSH-GLAGによっお決定される堎合、n-gramの頻床は単語自䜓ではなく品詞の頻床で䜿甚され、次に受信したn-gramの頻床が蚈算されたす。 。



元のテンプレヌトは人間によっお䜜成されたため、自然な特性を持っおいるため、テンプレヌトテキスト内の商品のパラメヌタヌを眮き換えるこずによっお生成される最も原始的な説明は、このフィルタヌを回避したす。 もちろん、テンプレヌトが出産ずケヌスの察応に䞀臎し、「10,399ルヌブルの掗濯機を賌入する」などのように動䜜しない堎合に限りたす。



ニュヌラルネットワヌク蚀語モデルなどの最新の蚀語モデルに基づくゞェネレヌタヌも、このフィルタヌを回避する可胜性が非垞に高いです。䞀般的なルヌルでは「ある蚀語モデルによっお生成されたテキストをキャッチするには、より高床な蚀語モデルを䜿甚する必芁がありたす」 より良い蚀語モデルは䞍足しおいる可胜性があり、膚倧な蚈算コストが必芁になるため、むンタヌネット䞊の自動テキストを決定するためにそれを䜿甚するこずは単玔に非合理的です



しかし、盎接適甚された蚀語モデルに基づいたゞェネレヌタヌは、意味のないテキストを生成したす。 たずえば、そのような「絊湯噚の信頌性」アリストンは「ボむラヌの評䟡を勝ち取りたした」。



オンラむンストアの所有者は通垞、絊湯噚でボむラヌの評䟡を獲埗するこずを望たないため、単玔な定型文が奜たれたす。 しかし、朜圚的な困難もありたす。



テンプレヌトテキストは、単䞀のコピヌで䜿甚できる限り、自然ず区別できたせん。 䌝播されるず、これらはマシンテキストを決定するためのメ゜ッドの2番目のクラスの䞻題になりたす。 この方法の本質は、特定の補品のパラメヌタヌが挿入される郚分を陀いお、テンプレヌトに基づいお曞かれたすべおのテキストが互いに類䌌しおいるこずです。 それは、英囜文孊で「ほが二重」ず呌ばれるものであるこずが刀明したした-ほが耇補。 怜玢゚ンゞンは、シングルのよく知られた方法ずその高床なオプションを䜿甚しお、それらを決定できたす[3]。 远加のシノニマむザヌを䜿甚するず、考えられない蚀語構成芁玠の数が増え、アルゎリズムの最初のグルヌプでテキストが認識可胜になりたす[1]。 さらに、シノニマむザヌ専甚のアルゎリズムがありたす-蟞曞に同矩語が存圚するすべおの単語をテキストから削陀し、残りの単語のテキストを比范したす[4]。



したがっお、機械で生成されたテキストの認識アルゎリズムは、䞀方ではかなり耇雑ですが、魔法やスヌパヌむンテリゞェンスは含たれおいたせん。 必芁に応じお、テキストテスト甚に耇補するこずができたすが、これには時間がかかりたすが、䞀般的には難しくありたせん。



哲孊の隠れ家

私たちは、マシンのテキストを悪ず芋なし、むンタヌネットを詰たらせ、ナヌザヌを欺く぀もりの人々がいるずいう事実に盎面しおいたす。 しかし、特定の補品をパラメヌタヌで説明する意味のあるテキストを参照するこずはほずんど正圓ではないず考えおいたす。 結局のずころ、これらのテキストには、補品に関する正しい情報が事実䞊含たれおいたす。 そのようなテキストをペヌゞに配眮するこずにより、そのコンテンツを怜玢゚ンゞンに指定するため、これは怜玢゚ンゞンや賌入者にずっおのデマではありたせん。



緎習機械テキストはどれくらい良いですか

䞊蚘を考慮しお、我々はテキストを生成するためのハむブリッドな方法に決めた。 その䞭で、最初にテキストの基本フレヌムが手動で定矩された文法を䜿甚しお生成されたす 詳现に぀いおは、前の蚘事を参照しおください 。次に、ニュヌラルネットワヌクアナラむザヌが䞊郚で䜿甚され、意味を倱うこずなく特定の単語のクラスを挿入たたは削陀できる堎所を特定するようにトレヌニングされたす。 もちろん、生成文法を手動で䜜成する必芁があるため、゜リュヌションのコストは増加したすが、それでもコピヌラむタヌのテキストを泚文するよりも桁違いに小さいたたです。 今、品質の面で。

読みやすさ 



「 Grohe Allureのミキサヌは、新しいAllureコレクションの19386000をシンクし、わずか5800ルヌブルしかかかりたせん。 フラッシュマりントにより、䜿いやすさが向䞊し、もちろん蚭眮も容易になりたす。 GROHE SilkMoveシステムにより、非垞に簡単にレバヌを動かすこずができたす。 StarLightテクノロゞヌによっお生成された特別なコヌティングは耐久性を生み出し、長幎にわたっお補品の良奜な倖芳を維持したす。 2぀の取り付け穎を䜿甚した垂盎取り付けは非垞に䟿利であり、問​​題は生じたせん。 ここでの流出量は220 mmです。 オフセットサむズを倧きくするず、補品の䜿甚がはるかに簡単になりたす。 補品党䜓の総重量は1.955 kgです。 このモデルの最小圧力は1 barです。 電気に接続する必芁はありたせん。 Grohe Allure 19386000ミキサヌを賌入する䞻な理由は、長幎にわたっお実蚌された送料無料で信頌性が高く、有名なドむツブランドの品質です 。



もちろん、これは玠晎らしい文孊䜜品ではありたせんが、明らかな欠陥はありたせん。 テキストが自動的に生成されるず刀断するこずは、人間にずっおも困難です。

䞀意性

aグロヌバルな䞀意性。 グロヌバルな䞀意性の本質は、発行時にむンタヌネット䞊で利甚可胜な他のすべおのテキストに察しおテキストが䞀意であるこずです。



グロヌバルな䞀意性をテストするために、よく知られおいるtext.ruサヌビスを䜿甚したした客芳性を目的ずしお、この蚘事ではアルゎリズムのデヌタではなく、サヌドパヌティのサヌビスからの分析結果を瀺したす。







ご芧のずおり、グロヌバルな䞀意性に問題はありたせん。 サヌビスはスペルに文句を蚀いたすが、゚ラヌを考慮するず、「Allure」、「StarLight」、およびサヌビスが知らない他の特定の甚語の䜿甚に関連しおいたす。 泚これは、お客様のりェブサむトにテキストを投皿する前のデヌタです。 今、もちろん、これらのテキストはそこにありたす。



bロヌカルの䞀意性。 すでに述べたように、あたりにも類䌌したテキストは、怜玢゚ンゞンによっお互いに重耇しおいるず芋なされる可胜性がありたす。 これを行うために、backlinkmanager Webサむトでホストされおいるサヌビスを䜿甚したしたシングルアルゎリズムを䜿甚した他の比范でも同様の結果が埗られたす







䞀臎するパラメヌタヌを持぀非垞に類䌌したモデルに関する2぀のテキストは5しか類䌌しおおらず、その類䌌性は䞻に補品名「Grohe Alira sink mixer」の蚀及によるものです。 同じ䞀連の補品パラメヌタを異なる方法で蚘述する方法は倚くないため、これは良い結果であるず考えたす。



怜玢゚ンゞンのむンデックス䜜成

機械で生成されたテキストのむンデックスは、サむトreviewdot.ruの䟋で以前に確認されたした。 このサむトのペヌゞには固有のコンテンツはありたせん。 したがっお、最初はこのサむトはYandexむンデックスに登録するこずを望みたせんでした10䞇ペヌゞを超えるペヌゞのうち、玄1300ペヌゞがむンデックスに登録されおいたした。 テンプレヌトテキストを最初に投皿しむンデックス内のペヌゞ数が5000に増加、次に䞊蚘のようなより耇雑な生成アルゎリズムを䜿甚しお、これず懞呜に戊いたした。 珟圚、Yandexむンデックスには玄70,000ペヌゞがありたす。 状況に正確に圱響したもの-Yandexアルゎリズムの努力たたは倉曎は、私たちには知られおいたせん。 それにもかかわらず、事実は残りたす-自動生成されたテキストを含むペヌゞは、怜玢゚ンゞンのむンデックスに正垞に分類されたす。 SEOスペシャリストのすべおの懞念にもかかわらず、このサむトが怜玢゚ンゞンの制裁の察象にならなかったずいうモンスタヌは珟れたせんでしたが 、これには理論的な理由がありたした。







さらに、むンデックスにはペヌゞだけでなく、特定の自動生成されたテキストもありたす。これらは、怜玢行にこれらのテキストの断片を入力するこずで確認できたす。





そのため、少なくずも、マシン生成コンテンツを䜿甚しお、特定のリク゚ストに関連するペヌゞを䜜成できたす。



もちろん、無意味なテキストを投皿したのではなく、ナヌザヌにずっお有甚な情報を含むテキストを投皿したこずに泚意しおくださいreviewdotは、異なるサむトに残された補品のレビュヌを分析し、マヌクされた長所ず短所の簡単な抂芁をナヌザヌに提䟛したす。



たた、ペヌゞでナヌザヌが費やした時間ずテキストを比范した結果、ナヌザヌがペヌゞで費やした時間などのパラメヌタヌにテキストがプラスの圱響を䞎えるこずがわかりたした。 どうやらこれの理由は、必芁な情報を含むペヌゞに䞀貫性のあるテキストが衚瀺された堎合、そのテキストの読み取りを開始し、テキストの読み取りに時間がかかるためです。



結論の芳察

珟圚たでに、テキストは顧客に匕き枡され、りェブサむト オンラむン配管店g-online.ru に投皿されおいたす。垌望する人は、テキストに慣れるこずもできたす。 これたでのずころ、生成されたテキストは「自然な」テキストず非垞に䌌たものにするこずができ、ビゞネスぞの正しいアプロヌチでサむトに悪圱響を䞎えないず結論付けるこずができたす。 生成されたテキストは、サむトペヌゞのむンデックス䜜成を改善し、特定のク゚リに関連するペヌゞを䜜成したす。 ゞェネレヌタをプログラムしお、指定されたキヌワヌドたたはフレヌズを正確に指定されたテキストサむズの割合で指定するこずができたす。



文孊

1. E.A. グレチニコフ、G.G。 A.A.グセフ クスタレフ、AM レむゎロツキヌ。 䞍自然なテキストの怜玢//第11回党ロシア科孊䌚議「デゞタルラむブラリ高床な方法ず技術、電子コレクション」の議事録-RCDL'2009、ペトロザノォヌツク、ロシア、2009幎。

2. Aharoni、Roee、Moshe Koppel、およびYoav Goldberg。 機械翻蚳されたテキストの自動怜出および翻蚳品質の掚定//蚈算蚀語孊協䌚短線論文の第52回幎次䌚議の議事録、289〜295ペヌゞ、米囜メリヌランド州ボルチモア、2014幎6月23〜25日。

3. GS Manku、A。Jain、およびA. Das Sarma。 Webクロヌルのほが重耇を怜出したす。 2007幎5月の第16回WWW䌚議の議事録

4. Zhang、Qing、David Y. Wang、およびGeoffrey M. Voelker。 「DspinWeb䞊で自動的にスピンされたコンテンツの怜出。」NDSS、2014幎。



All Articles