翻蚳の難しさロシアの科孊蚘事で英語から盗䜜を芋぀ける方法

HabrのAnti-Plagiarism瀟の䌁業ブログの最初の蚘事で、譲枡可胜なロヌンアルゎリズムの怜玢がどのように機胜するかに぀いお話すこずにしたした。 数幎前に、ロシア語のテキストで英語の翻蚳されたテキストず借甚されたテキストを怜出するツヌルを䜜成するずいうアむデアが生たれたした。 同時に、このツヌルが数十億のテキストの゜ヌスデヌタベヌスで動䜜し、反パラギアリズムの通垞のピヌク負荷1分あたり200〜300テキストに耐えるこずが重芁です。



」



運甚の12幎間で、反パラギアリズムサヌビスは同じ蚀語内の借甚を怜出したした。 ぀たり、ナヌザヌが怜蚌のためにロシア語のテキストをアップロヌドした堎合、ロシア語を話す゜ヌスで怜玢し、英語の堎合は英語を話すなどで怜玢したした。この蚘事では、翻蚳された盗䜜を怜出するために開発したアルゎリズムに぀いお説明したす。翻蚳された盗䜜の事䟋は、ロシア語の科孊蚘事に基づいおこの゜リュヌションをテストするこずで芋぀かりたした。



すべおの「i」にドットを付けたす。この蚘事では、他人のテキストの䜿甚に関連する盗䜜の兆候にのみ焊点を圓おたす。 他の人の発明、アむデア、思考の盗難に関連するすべおのものは、蚘事の範囲倖になりたす。 この䜿甚が合法、正しい、たたは倫理的であるこずがわからない堎合は、「テキスト借甚」たたは「テキスト借甚」ず蚀いたす。 「盗䜜」ずいう蚀葉を䜿甚するのは、他人のテキストを自分のものずしお停装しようずする詊みが明癜であり、疑いの䜙地がない堎合のみです。



この蚘事はRita_KuznetsovaずOleg_Bakhteevず共同で䜜成したした 。 ピノキオずピノキオの画像は、倖囜の情報源から盗䜜を怜玢する問題の優れた実䟋ずしお圹立぀ず刀断したした。 A.N.トルストむがCarlo Collodiのアむデアを盗甚したず非難するこずは決しおない。



はじめに、「通垞の反麻薬䞻矩」の仕組みに぀いお簡単に説明したす。 私たちは、いわゆる 「Shinglesアルゎリズム」。これにより、膚倧なドキュメントのコレクションから借甚をすばやく芋぀けるこずができたす。 このアルゎリズムは、文曞のテキストを特定の長さの単䞀の重耇する単語の小さなシヌケンスに分割するこずに基づいおいたす。 䞀般的に䜿甚される垯状疱疹は4〜6語長です。 各シングルに぀いお、 ハッシュ関数の倀が蚈算されたす。 怜玢むンデックスは、察応する垯状疱疹が出䌚った文曞の識別子を瀺すハッシュ関数倀の゜ヌトされたリストずしお圢成されたす。



チェック察象のドキュメントも垯状疱疹に分割されたす。 次に、むンデックスによっお、チェック察象のドキュメントず䞀臎する最倧数のドキュメントがありたす。

このアルゎリズムは、英語ずロシア語の䞡方で借入の怜玢に成功したした。 鉄片の怜玢アルゎリズムを䜿甚するず、借甚したフラグメントをすばやく芋぀けるこずができたすが、完党にコピヌされたテキストだけでなく、わずかな倉曎のある借甚も怜玢できたす。 あいたいなテキストの重耇を怜出する問題ずその解決方法の詳现に぀いおは、たずえば、 Yu。ZelenkovずI. Segalovichの蚘事を参照しおください 。



怜玢システムの開発により、「ほが重耇」が䞍十分になりたした。 倚くの著者は、ドキュメントの独創性の割合をすばやく増やす必芁がありたした。たたは、別の蚀い方をするず、珟圚のアルゎリズムを䜕らかの方法で「欺いお」、独創性の割合を高める必芁がありたした。 圓然、頭に浮かぶ最も効果的な方法は、他の蚀葉でテキストを曞き換えるこず、぀たり、蚀い換えるこずです。 ただし、この方法の䞻な欠点は、実装に時間がかかりすぎるこずです。 したがっお、よりシンプルなものが必芁ですが、結果をもたらすこずが保蚌されおいたす。



ここで、倖囜の情報源からの借甚が思い浮かびたす。 最新の技術の急速な成長ず機械翻蚳の成功により、オリゞナルの䜜品を手に入れるこずが可胜になりたす。すぐに芋るず、独立しお曞かれおいるように芋えたすただし、泚意深く読んで機械翻蚳゚ラヌを探しおいない堎合は修正が簡単です。



最近たで、この皮の盗䜜を怜出できるのは、仕事のテヌマに関する広範な知識が必芁でした。 この皮のロヌンを怜出する自動ツヌルは存圚したせんでした。 これは、蚘事「ルヌタヌアクセスポむントず冗長性の兞型的な統䞀のためのアルゎリズム」のケヌスでよく説明されおいたす。 実際、Rooterは、自動生成された蚘事「RooterA Methodology for the Typical Unification of Access Points and Redundancy」の翻蚳です。 この刀䟋は、特に高等認蚌委員䌚のリストからのゞャヌナルの構造ずロシア科孊党䜓の問題を説明するために人為的に䜜成されたした。



残念ながら、翻蚳された䜜品は「通垞の反薬物䞻矩」によっおは発芋されなかったでしょう。たず、ロシア語のコレクションに埓っお怜玢が実行され、次に、そのような借甚を怜玢するために別のアルゎリズムが必芁です。











䞀般的なアルゎリズムスキヌム



明らかに、テキストが翻蚳によっお借甚されおいる堎合、それは䞻に英語の蚘事からのものです。 そしお、これはいく぀かの理由で起こりたす





これに基づいお、英語からロシア語ぞの借甚を芋぀けるための゜リュヌションを開発するこずにしたした。 その結果、次のような䞀般的なアルゎリズムスキヌムが埗られたした。



  1. ロシア語のチェック文曞が入り口に到着したす。
  2. 機械はロシア語のテキストを英語に翻蚳したす。
  3. 玢匕付きの英語ドキュメントのコレクションにより、借入元の候補を怜玢したす。
  4. 芋぀かった各候補は、チェックされおいるドキュメントの英語版ず比范されたす-借りたフラグメントの境界の定矩。
  5. フラグメントの境界線は、ドキュメントのロシア語版に転送されたす。 プロセスの最埌に、怜蚌レポヌトが生成されたす。


最初のステップ。 機械翻蚳ずそのあいたいさ



チェック察象のドキュメントが衚瀺された埌に解決する必芁がある最初のタスクは、テキストの英語ぞの翻蚳です。 サヌドパヌティのツヌルに䟝存しないために、オヌプンアクセスの既補のアルゎリズム゜リュヌションを䜿甚しお、自分でトレヌニングするこずにしたした。 これを行うには、パブリックドメむンにある䞀察の蚀語「英語-ロシア語」の䞊列テキスト本文を収集し、たた、バむリンガルサむトのWebペヌゞを分析しお、そのようなケヌスを独自に組み立おる必芁がありたした。 もちろん、私たちがトレヌニングした翻蚳者の品質は、䞻芁な゜リュヌションより劣っおいたすが、結局のずころ、私たちからの高品質の翻蚳を必芁ずする人はいたせん。 その結果、玄2,000䞇組の科孊的提案を収集するこずができたした。 このようなサンプルは、私たちの前の課題を解決するのに適しおいたした。



機械翻蚳機を実装した埌、最初の困難に盎面したした-翻蚳は垞にあいたいです。 たったく同じ意味を異なる単語で衚珟するこずができ、文の構造や単語の順序が倉わる堎合がありたす。 たた、翻蚳は自動的に行われるため、機械翻蚳゚ラヌもここに重ねられたす。



このあいたいさを説明するために、arxiv.orgから出䌚った最初のプレプリントを取りたした。







たた、英語の知識が豊富な2人の同僚ず2぀の有名な機械翻蚳サヌビスに翻蚳するこずを提案する小さなテキストを遞択したした。







結果を分析した埌、私たちは非垞に驚きたした。 以䞋に、フラグメントの䞀般的な意味は残っおいたすが、翻蚳がどのように異なるかを確認できたす。







アルゎリズムの最初のステップでロシア語から英語に自動的に翻蚳したテキストは、以前は英語からロシア語に翻蚳できるず想定しおいたす。 圓然、最初の翻蚳がどのように行われたかはわかりたせん。 ただし、これを知っおいたずしおも、゜ヌステキストを正確に取埗できる可胜性はほずんどありたせん。



ここでは、「ノむズの倚いチャネルモデル 」の数孊モデルずの類䌌点を描くこずができたす。 英語の特定のテキストが「ノむズのあるチャネル」を通過し、ロシア語のテキストになり、さらに別の「ノむズのあるチャネル」圓然、別のチャネルを通過しお出力されたずしたすオリゞナルずは異なる英語のテキスト。 このような二重の「ノむズ」を課すこずは、タスクの䞻な問題の1぀です。







ステップ2 完党䞀臎から「意味のある」怜玢たで



翻蚳されたテキストであっおも、䜕癟䞇ものドキュメントからなる゜ヌスのコレクションを怜玢し、埓来のシングルズアルゎリズムを䜿甚しお十分な完党性、正確性、および怜玢速床を確保しながら、その䞭の借甚を正しく芋぀けるこずは䞍可胜であるこずが明らかになりたした。



そしお、ここで、単語の䞀臎に基づく叀い怜玢方匏から脱华するこずにしたした。 借甚を怜出するための別のアルゎリズムが絶察に必芁でした。これは、䞀方で「意味のある」テキストの断片に䞀臎し、他方で、垯状疱疹アルゎリズムず同じくらい高速でした。



しかし、テキストに「二重」の機械翻蚳を䞎えるノむズをどうすればよいでしょうか 以䞋の䟋のように、異なる翻蚳者によっお生成されたテキストは怜出されたすか







意味的に関連する単語ず同じ単語の単語圢匏が1぀のクラスタに分類されるように、英語の単語のクラスタリングを通じお「意味による」怜玢を提䟛するこずにしたした。 たずえば、「ビヌル」ずいう単語は、次の単語も含むクラスタヌに分類されたす。



[ビヌル、ビヌル、醞造、゚ヌル、醞造、醞造所、パむント、スタりト、ギネス、むパ、醞造、ラガヌ、゚ヌル、ビヌル、パむント、キャスク]



ここで、テキストを鉄片に分割する前に、これらの単語が属するクラスのラベルで単語を眮き換える必芁がありたす。 同時に、垯状疱疹は重耇しお構築されるため、クラスタリングアルゎリズムに固有の特定の䞍正確さを無芖できたす。



クラスタリングの゚ラヌにも関わらず、候補文曞の怜玢は十分な完党性で実行されたす-ほんの数枚の鉄片ず䞀臎するだけで十分に高速で実行できたす。



ステップ3 すべおの候補者のうち、最も䟡倀のあるものが勝぀べきです。



そのため、譲枡可胜な借入の有無に関する候補文曞が芋぀かりたした。各候補のテキストずチェックされたテキストを「有意矩に」比范し始めるこずができたす。 ここでは、垯状疱疹はもはや圹に立ちたせん-このツヌルはこの問題を解決するには䞍正確すぎたす。 このアむデアの実装を詊みたす各テキストを非垞に倧きな次元の空間内のポむントに関連付けたすが、意味が近いテキストの断片は、この空間内の近くにあるポむントで衚されるようにしたすある距離関数で近くなるようにしたす 



ニュヌラルネットワヌクを䜿甚しおテキストの断片のポむントたたはもう少し科孊的に-ベクトルのコンポヌネントの座暙を蚈算し、評䟡者によっおマヌクアップされたデヌタを䜿甚しおこのネットワヌクをトレヌニングしたす。 この䜜業における評䟡者の圹割は、トレヌニングセットを䜜成するこずです。぀たり、テキストの断片のいく぀かのペアに぀いお、意味が近いかどうかを瀺すこずです。 圓然、マヌクアップされたフラグメントを収集できるほど、トレヌニングされたネットワヌクの動䜜は向䞊したす。



すべおの䜜業における重芁なタスクは、適切なアヌキテクチャを遞択し、ニュヌラルネットワヌクをトレヌニングするこずです。 私たちのネットワヌクは、任意の長さのテキストフラグメントを、倧きいが固定された次元のベクトルにマップする必芁がありたす。 同時に、各単語のコンテキストずテキストフラグメントの構文䞊の特城を考慮する必芁がありたす。 シヌケンスに関連する問題テキストだけでなく、生物孊などを解決するために、再垰ず呌ばれるネットワヌクのクラス党䜓がありたす。 このネットワヌクの䞻なアむデアは、このシヌケンスの各芁玠に関する情報を繰り返し远加するこずにより、シヌケンスベクトルを取埗するこずです。 実際には、このようなモデルには倚くの欠点がありたす。トレヌニングが難しく、シヌケンスの最初の芁玠から取埗した情報をすぐに「忘れる」。 したがっお、このモデルに基づいお、これらの欠点を修正するより倚くの䟿利なネットワヌクアヌキテクチャが提案されおいたす。 このアルゎリズムでは、 GRUアヌキテクチャを䜿甚したす。 このアヌキテクチャにより、シヌケンスの次の芁玠から取埗する情報量ず、ネットワヌクが「忘れる」こずができる情報量を制埡できたす。



ネットワヌクがさたざたなタむプの翻蚳でうたく機胜するように、手動翻蚳ず機械翻蚳の䞡方の䟋を䜿甚しおトレヌニングしたした。 ネットワヌクは繰り返しトレヌニングされたした。 各反埩の埌、私たちは圌女が最も間違えたフラグメントに぀いお研究したした。 たた、このようなフラグメントネットワヌクをトレヌニング甚に提䟛したした。



興味深いこずに、 word2vecなどの既補のニュヌラルネットワヌクラむブラリを䜿甚しおも成功したせんでした。 これらの結果をベヌスレベルの掚定倀ずしお䜜業に䜿甚したしたが、それより䞋に䞋がるこずは䞍可胜でした。



もう1぀重芁な点、぀たり、ドットで衚瀺されるテキストの断片のサむズに泚目する䟡倀がありたす。 たずえば、党文を操䜜し、それらを単䞀のオブゞェクトずしお提瀺するこずを劚げるものはありたせん。 ただし、この堎合、意味が完党に䞀臎するテキストのみが閉じたす。 テキストの䞀郚のみが借甚されおいる堎合、ニュヌラルネットワヌクはそれらを遠くに配眮し、䜕も芋぀かりたせん。 議論の䜙地はありたせんが、良い遞択肢はオファヌを䜿甚するこずです。 私たちがやめるこずにしたのはその䞊でした。



兞型的な堎合に実行する必芁がある文の比范の数を掚定しおみたしょう。 チェック察象のドキュメントず候補ドキュメントにそれぞれ100の提案が含たれおいるずしたす。これは、平均的な科孊蚘事のサむズに察応しおいたす。 次に、各候補の比范には10,000回の比范が必芁です。 候補者が100人しかない堎合実際には数䞇人の候補者が数癟䞇のむンデックスから䞊昇する堎合がありたす、1぀のドキュメントで借入を怜玢するには100䞇の距離比范が必芁になりたす。 たた、チェックされたドキュメントのフロヌは1分あたり300を超えるこずがよくありたす。 さらに、各距離の蚈算自䜓も簡単な操䜜ではありたせん。



すべおの文ずすべおの文を比范しないために、 LSHハッシュに基づいお朜圚的に近いベクトルの予備遞択を䜿甚したす。 このアルゎリズムの䞻なアむデアは次のずおりです。各ベクトルに特定の行列を乗算したす。その埌、乗算結果のどのコンポヌネントがれロより倧きい倀を持ち、どのコンポヌネントが小さいかを芚えおいたす。 各ベクトルに関するこのようなレコヌドは、興味深い特性を持぀バむナリコヌドずしお衚すこずができたす。近いベクトルは同様のバむナリコヌドを持っおいたす。 したがっお、アルゎリズムパラメヌタヌを正しく遞択するこずで、必芁なベクトルのペアワむズ比范の数を、蚱容時間内に実行できる少数に枛らしたす。



ステップ4 「報告に違反しないために...」



アルゎリズムの結果を衚瀺したす-ナヌザヌがドキュメントをロヌドするず、譲枡可胜な借入のコレクションに察しおチェックを遞択できたす。 チェックの結果はアカりントに衚瀺されたす







実践チェック-予期しない結果



これで、アルゎリズムの準備が敎い、モデルサンプルでトレヌニングされたした。 実際に面癜いものを芋぀けるこずができたすか



科孊蚘事eLibrary.ruの最倧の電子ラむブラリで譲枡可胜な借入を怜玢するこずにしたした。その基瀎は、ロシア科孊匕甚指数RSCIに含たれる科孊蚘事です。 合蚈で、ロシア語で玄250䞇件の科孊論文をチェックしたした。



怜玢゚リアずしお、elibrary.ruファンド、オヌプンアクセスマガゞンサむト、arxiv.org、および英語版りィキペディアからの英語アヌカむブ蚘事のコレクションにむンデックスを付けたした。 戊闘実隓の合蚈゜ヌスデヌタベヌスは1,000䞇テキストに達したした。 奇劙に思えるかもしれたせんが、1,000䞇件の蚘事は非垞に小さなベヌスです。 英語の科孊テキストの数は少なくずも数十億ず掚定されおいたす。 この実隓では、朜圚的な借入の゜ヌスが1未満であるずいうベヌスを䜿甚しお、100件の怜出されたケヌスでさえも成功するず考えたした。



その結果、倧量の譲枡可胜な借入金を含む2䞇件以䞊の蚘事が芋぀かりたした。 特定された事䟋を詳现に怜蚌するために専門家を招埅したした。 その結果、8,000件匱の蚘事をチェックするこずができたした。 サンプルのこの郚分の分析結果を衚に瀺したす。



操䜜の皮類 数量
借りる 2627
譲枡可胜な借入

英語から翻蚳され、オリゞナルずしお発行されたテキスト

921
「その逆」の借入-ロシア語から英語ぞ発行日により決定 1706
法的借入 2355
バむリンガル蚘事

2぀の蚀語で同じ著者の䜜品

788
法埋の匕甚

法埋の文蚀の䜿甚
1567
自己匕甚

圌自身の英語の著䜜の著者による翻蚳された匕甚
660
誀怜知

誀った倉換たたはニュヌラルネットワヌク゚ラヌのため
507
その他

チェックされた蚘事は英語の断片を含んでいた、たたはどのカテゎリヌに垰属するのも難しい

1540
合蚈 7689


結果の䞀郚は法的借入に関連しおいたす。 これらは同じ著者による翻蚳䜜品たたは共著であり、結果の䞀郚は、原則ずしお、ロシア語に翻蚳された同じ法埋の同じフレヌズの正しい操䜜です。 しかし、結果の倧郚分は䞍正確な譲枡可胜借入です。



分析に基づいお、たずえば、借入の割合の分垃に関しお、いく぀かの興味深い結論を出すこずができたす。







小さなフラグメントが最も頻繁に借甚されおいるこずがわかりたすが、グラフや衚など、完党か぀完党に借甚された䜜品がありたす。







以䞋のヒストグラムから、最近発行された蚘事から借りるこずを奜むこずは明らかです。ただし、゜ヌスが1957幎などの日付の䜜品もありたす。



蚘事の知識の領域を含め、eLibrary.ruが提䟛するメタデヌタを䜿甚したした。 この情報を䜿甚しお、ロシア語の科孊分野で最も頻繁に借甚しおいるのは、英語からの翻蚳によっお刀断できたす。







結果の正確性を怜蚌する最も明癜な方法は、チェックされた゜ヌスず゜ヌスの䞡方のテキストを䞊べお比范するこずです。







䞊蚘はarxiv.orgを䜿甚した英語の䜜品です。以䞋はロシア語の䜜品で、グラフず結果を含む完党か぀完党な翻蚳です。 察応するブロックは赀でマヌクされおいたす。 たた、著者がさらに進んだこずも泚目に倀したす。元の蚘事の残りの郚分も翻蚳し、「圌らの」蚘事をいく぀か公開したした。 著者はオリゞナルを参照しないこずに決めたした。 譲枡可胜な借入のすべおの芋぀かった事䟋に関する情報は、関連蚘事を発行した科孊雑誌の線集者に提出されたした。



したがっお、結果は私たちを喜ばせるこずができたしたが、喜ばせたせん-反マラリア䞻矩システムは、譲枡可胜な借入を怜出するための新しいモゞュヌルを受け取りたした。



あなた自身の心で䜜成しおください



All Articles