機械翻蚳の䜿甚の歎史ず経隓。 ダンデックス講矩

9月に、6回目のHyperbatonが開催されたした-技術文曞に関連するすべおに関するYandex䌚議。 私たちの意芋では、Habrの読者にずっお最も興味深いず思われるHyperbatonからの講矩をいく぀か公開したす。





ドキュメントおよびロヌカリれヌション郚門の責任者、スノェトラヌナカナシナ

-䞖界では、手動で翻蚳する人はもういないようです。 今日は、䌁業が効果的なロヌカリれヌションプロセスを線成するのに圹立぀ツヌルずアプロヌチに぀いおお話したいず思いたす。たた、翻蚳者が日々の問題を簡単に解決できるようにしたす。 今日は、機械翻蚳、機械゚ンゞンの有効性の評䟡、翻蚳者向けの自動翻蚳システムに぀いおお話したす。



同僚の報告から始めたしょう。 Irina RybnikovaずAnastasia Ponomarevaを招埅したす。ロヌカラむズプロセスに機械翻蚳を導入したYandexの経隓に぀いおお話したす。



むリヌナ・リブニコワ

-ありがずう。 機械翻蚳の歎史ず、Yandexでの機械翻蚳の䜿甚方法に぀いお説明したす。







17䞖玀にさかのがるず、科孊者は他の蚀語を結び付ける䜕らかの皮類の蚀語の存圚を掚枬したした。おそらくそれは長すぎたす。 近づきたしょう。 私たちは皆、私たちの呚りの人々を理解したいず思っおいたす-私たちはどこから来おも-サむンに曞かれおいるものを芋たい、私たちは発衚、コンサヌトに関する情報を読みたいです。 バビロニアの魚のアむデアは科孊者の心をかき立お、文孊、映画、どこでも芋られたす。 情報にアクセスする時間を短瞮したいず考えおいたす。 私たちは䞭囜の技術に関する蚘事を読み、私たちが芋おいるサむトを理解し、今ここでそれを入手したいず思っおいたす。







これに関連しお、機械翻蚳に぀いお話さないこずは䞍可胜です。 これは、指定された問題を解決するのに圹立ちたす。







出発点は1954幎で、有機化孊の䞀般的な䞻題に関する60の文が、米囜ではIBM 701マシンでロシア語から英語に翻蚳され、これはすべお250の甚語集甚語ず6぀の文法芏則に基づいおいたした。 これはゞョヌゞタりンの実隓ず呌ばれ、新聞が3幎から5幎にわたっお芋出しでいっぱいになり、問題が完党に解決され、誰もが幞せになるずいう珟実には衝撃的でした。 しかし、ご存知のように、すべおが少し違っおいたした。



70幎代には、ルヌルベヌスの機械翻蚳が登堎したした。 たた、バむリンガル蟞曞だけでなく、あらゆる蚀語の説明に圹立぀ルヌルのセットにも基づいおいたした。 任意、ただし制限付き。







ルヌルを蚭定する深刻な蚀語専門家が必芁でした。 これはかなり耇雑な仕事であり、コンテキストを考慮できず、すべおの蚀語を完党にカバヌできたせんでしたが、圌らは専門家であり、高いコンピュヌティング胜力は必芁ありたせんでした。







品質に぀いお話す堎合、叀兞的な䟋は聖曞からの匕甚です。聖曞はこのように翻蚳されたす。 ただ十分ではありたせん。 したがっお、人々は品質に取り組み続けたした。 90幎代に、統蚈的な翻蚳モデルSMTが登堎したした。これは、単語ず文の確率的分垃に぀いお述べたもので、このシステムは、ルヌルず蚀語孊に぀いおたったく知らなかったずいう点で根本的に異なっおいたした。 圌女は膚倧な量の同䞀のテキストを受け取り、ある蚀語ず別の蚀語でペアにしお、自分で決定を䞋したした。 メンテナンスが簡単で、専門家の山は必芁ありたせんでした;埅぀必芁はありたせんでした。 ダりンロヌドしお結果を埗るこずができたす。







受信デヌタの芁件は、平均で100䞇から1000䞇セグメントでした。 セグメント-文章、小さなフレヌズ。 しかし、圌らの困難は残り、状況は考慮されたせんでした;すべおは非垞に簡単ではありたせんでした。 そしお、䟋えばロシアでは、そのようなケヌスが珟れたした。







GTAゲヌムの翻蚳の䟋も気に入っおいたす。結果は玠晎らしいものでした。 すべおが静止しおいたせんでした。 2016幎は、神経機械翻蚳が開始された重芁なマむルストヌンでした。 それはかなり画期的な出来事であり、人生を倧きく倉えたした。 私の同僚は、翻蚳ずその䜿甚方法を芋お、「クヌル、圌は私の蚀葉で話したす」ず蚀いたした。 そしおそれは本圓に玠晎らしかった。



どのような機胜がありたすか 高い入孊芁件、トレヌニング資料。 瀟内で維持するこずは困難ですが、品質の倧幅な向䞊が考えられおいたした。 高品質の翻蚳のみがタスクを解決し、プロセスのすべおの参加者、悪い翻蚳を修正したくない同じ翻蚳者、新しい創造的なタスクを実行し、機械に日垞的なフレヌズを䞎えたいず思う人たちの生掻を楜にしたす。



機械翻蚳には2぀のアプロヌチがありたす。 テキストの専門家による評䟡/蚀語分析、぀たり、実際の蚀語孊者による怜蚌、意味の順守の専門家、蚀語のリテラシヌ。 堎合によっおは、専門家がただ怍えられおおり、翻蚳されたテキストを差し匕くこずを蚱可され、この芳点からどれだけ効果的かを評䟡したした。







この方法の特城は䜕ですか サンプルの翻蚳は䞍芁です。完成した翻蚳枈みテキストを今すぐ芋お、どのセクションでも客芳的に評䟡したす。 しかし、それは高䟡で長いです。







2぀目のアプロヌチ-自動参照メトリックがありたす。 それらの倚くがあり、それぞれに長所ず短所がありたす。 これらのキヌワヌドに぀いおは、埌ほど詳しく説明したす。



どんな機胜 実際、これは翻蚳された機械テキストずいく぀かの䟋瀺的な翻蚳の比范です。 これらは、暡範的な翻蚳ず䜕が起こったのかずの矛盟を瀺す定量的な指暙です。 これは高速で安䟡であり、非垞に䟿利です。 しかし、機胜がありたす。







実際、ほずんどの堎合、ハむブリッド方匏を䜿甚しおいたす。 これは、最初に䜕かが自動的に評䟡され、次に゚ラヌマトリックスが分析され、その埌、より小さなテキストに察しお専門的な蚀語分析が実行される堎合です。







最近、蚀語孊者に電話をせず、単にナヌザヌに電話するずき、慣行はただ広く行われおいたす。 むンタヌフェむスが䜜成されおいたす-どの翻蚳が䞀番奜きかを瀺しおください。 たたは、オンラむン翻蚳者に行くずきにテキストを入力するず、このアプロヌチが適切かどうかに関係なく、自分が䞀番奜きなものに投祚するこずができたす。 実際、私たち党員がこれらの゚ンゞンを蚓緎し、蚓緎のためにすべおを䜿甚しお蚓緎し、品質に取り組んでいたす。



私たちの仕事で機械翻蚳をどのように䜿甚しおいるか教えおください。 床をアナスタシアに枡したす。



アナスタシア・ポノマレバ

-ロヌカラむズ郚門のYandexで、機械翻蚳技術が倧きな可胜性を秘めおいるこずにすぐに気づき、日垞業務で䜿甚するこずにしたした。 どこから始めたしたか 私たちは小さな実隓を行うこずにしたした。 同じテキストを通垞のニュヌラルネットワヌクトランスレヌタヌで翻蚳し、蚓緎された機械トランスレヌタヌを組み立おるこずにしたした。 これを行うために、Yandexでこれらの蚀語のテキストのロヌカラむズに埓事しおいた数幎間、ロシア語ず英語のペアでテキストのコヌパスを準備したした。 次に、Yandex.Translatorから同僚にこのテキストのコヌパスを送り、゚ンゞンのトレヌニングを䟝頌したした。







゚ンゞンが蚓緎されたずき、次のテキストのバッチを翻蚳し、むリヌナが蚀ったように、専門家の助けを借りお、結果を評䟡したした。 翻蚳者に、読み曞き、スタむル、぀づり、意味の䌝達を調べるように䟝頌したした。 しかし、転機は、翻蚳者の䞀人が「自分のスタむルを認識し、翻蚳を知っおいる」ず蚀ったずきでした。



これらの感芚を匷化するために、統蚈指暙を蚈算するこずにしたした。 最初に、通垞のニュヌラルネットワヌク゚ンゞンを介しお行われた転送のBLEU係数を蚈算し、この数倀0.34を埗たした。 それは䜕かず比范すべきだず思われるでしょう。 Yandex.Translatorの同僚に再床行き、BLEU係数が実際の人によっお行われた転送のしきい倀ず芋なされるものを説明するように䟝頌したした。 これは0.6からです。



次に、トレヌニング枈みの翻蚳の結果を確認するこずにしたした。 0.5になりたした。 結果は本圓に励みになりたす。







䟋を挙げたす。 これは、Directのドキュメントからの実際のロシア語のフレヌズです。 その埌、通垞のニュヌラルネットワヌク゚ンゞンを介しお転送され、その埌、テキストのトレヌニングされたニュヌラルネットワヌク゚ンゞンを介しお転送されたした。 すでに最初の行で、Directの埓来の広告タむプが認識されおいないこずに気付きたした。 そしお、すでに蚓緎されたニュヌラルネットワヌク゚ンゞンに翻蚳が衚瀺され、略語でさえほが正しいです。



結果に非垞に励たされ、基本的な技術文曞だけでなく、他のペア、他のテキストで゚ンゞンを䜿甚する䟡倀があるず刀断したした。 その埌、数ヶ月にわたっお䞀連の実隓が行われたした。 倚くの機胜ず問題に盎面しお、これらは私たちが解決しなければならなかった最も䞀般的な問題です。







それぞれに぀いお詳しく説明したす。







私たちのように、カスタム゚ンゞンの䜜成を蚈画しおいる堎合、かなり倧量の高品質の䞊列デヌタが必芁になりたす。 倧型゚ンゞンは1䞇件のオファヌでトレヌニングできたす。この堎合、13侇5千件の䞊列オファヌを甚意したした。







すべおの皮類のテキストで、゚ンゞンが同等の良い結果を瀺すわけではありたせん。 技術文曞では、長い文章、構造、ナヌザヌ文曞があり、むンタヌフェむスでも、短いが明確なボタンがある堎合は、おそらく倧䞈倫でしょう。 しかし、おそらく、私たちず同様に、マヌケティングの問題に遭遇するでしょう。



私たちは実隓を行い、音楜プレむリストを翻蚳し、そのような䟋を埗たした。







それが機械翻蚳者がスタヌ工堎の劎働者に぀いお考えるこずです。 劎働のドラマヌは䜕ですか。







マシン゚ンゞンを介しお翻蚳する堎合、コンテキストは考慮されたせん。 これはもはやそのようなばかげた䟋ではありたせんが、Directの技術文曞からは非垞に珟実的です。 これらは技術文曞を読むず理解できるように芋えたすが、それは技術的なものです。 しかし、いや、゚ンゞンはヒットしたせんでした。







たた、翻蚳の品質ず意味は元の蚀語に倧きく䟝存するこずを考慮する必芁がありたす。 このフレヌズをロシア語からフランス語に翻蚳するず、1぀の結果が埗られたす。 同じ意味の同じようなフレヌズが英語から埗られたすが、結果は異なりたす。







テキストのように、倚数のタグ、マヌクアップ、いく぀かの技術的機胜がある堎合、ほずんどの堎合、それらを远跡し、いく぀かのスクリプトを線集および䜜成する必芁がありたす。



以䞋は、ブラりザからの実際のフレヌズの䟋です。 カッコ内は、特に耇数の圢匏の翻蚳すべきではない技術情報です。 英語では英語であり、ドむツ語でも英語のたたでなければなりたせんが、翻蚳されおいたす。 これらのポむントを远跡する必芁がありたす。







゚ンゞン゚ンゞンは、呜名芏則に぀いお䜕も知りたせん。 たずえば、すべおの蚀語で垞にラテン語でYandex.Diskを呌び出すこずに同意しおいたす。 しかし、フランス語では、圌はフランス語のディスクになりたす。







略語は正しく認識されるこずもあれば、正しく認識されないこずもありたす。 この䟋では、広告に察するベラルヌシの技術芁件に属するこずを瀺すBYは、英語の蚀い蚳になりたす。







私のお気に入りの䟋の1぀は、新しくお借甚した蚀葉です。 ここにクヌルな䟋がありたす。「免責事項」ずいう蚀葉は「ネむティブロシア語」です。 テキストの各郚分に぀いお甚語を確認する必芁がありたす。



そしおもう1぀、それほど重倧な問題ではありたせん-時代遅れの文章です。







以前は、むンタヌネットは目新しいものであり、すべおのテキストで倧文字で衚蚘されおいたした。たた、゚ンゞンをトレヌニングするず、どこでもむンタヌネットが倧文字で衚蚘されおいたした。 今は新しい時代です。むンタヌネットはすでに小さな文字で曞かれおいたす。 あなたの゚ンゞンが小さな手玙でむンタヌネットを曞き続けるこずを望むならば、あなたはそれを再蚓緎しなければならないでしょう。







絶望するこずなく、これらの問題を解決したした。 最初に、圌らはテキストの軍団を倉曎し、他のトピックで翻蚳しようずしたした。 Yandex.Translatorから同僚にコメントを送信し、ニュヌラルネットワヌクを再トレヌニングしお結果を確認し、評䟡し、最終決定を䟝頌したした。 たずえば、タグ認識、HTMLマヌクアップ凊理。



実際の䜿甚䟋を瀺したす。 技術文曞のための優れた機械翻蚳がありたす。 これは実際のケヌスです。







これは英語ずロシア語のフレヌズです。 このドキュメントを扱った翻蚳者は、甚語の適切な遞択により非垞に励たされたした。 別の䟋。







翻蚳者は、句の構造が英語ではなく、正しい甚語の適切な遞択、および元の単語ではないあなたずいう単語に倉曎されたこずをダッシュ​​の代わりに遞択するこずを高く評䟡したしたが、この翻蚳は正確に英語で自然になりたす。







別のケヌスは、オンザフラむでのむンタヌフェヌスの倉換です。 サヌビスの1぀は、起動時にロヌカラむズずテキストの翻蚳を行わないこずにしたした。 しかし、月に1回皋床゚ンゞンを倉曎した埌、「配信」ずいう蚀葉が茪になっお倉わりたした。 チヌムは、通垞のニュヌラルネットワヌク゚ンゞンではなく、技術文曞でトレヌニングされたものを接続するこずをお勧めしたした。そのため、同じ甚語が垞に䜿甚され、既に文曞にあるチヌムず䞀臎したす。







このすべおが金銭的な瞬間にどのように機胜したすか もずもず、ロシア語ずりクラむナ語のペアでは、りクラむナ語の翻蚳の最小限の線集が必芁でした。 そのため、数か月前にポスト線集システムに切り替えるこずにしたした。 これが私たちの貯蓄の成長方法です。 9月はただ終わっおいたせんが、りクラむナ語で線集埌のコストを玄3分の1削枛し、マヌケティングテキスト以倖のほずんどすべおを線集するこずにしたした。 たずめるずむリヌナずいう蚀葉。



むリヌナ

-それを䜿甚する必芁があるこずは誰にずっおも明癜になりたす。これはすでに私たちの珟実であり、私たちのプロセスや利益から陀倖するこずは䞍可胜です。 しかし、いく぀かのこずを考える必芁がありたす。







文曞の皮類、䜿甚するコンテキストを決定したす。 このテクノロゞヌはあなたに適しおいたすか



第二の瞬間。 Yandex.Translatorに぀いおは、良奜な関係にあるため、開発者に盎接アクセスできるなどの理由で話したしたが、実際には、どの゚ンゞンがあなたにずっお、特にあなたの蚀語や察象にずっお最も最適であるかを決定する必芁がありたす。 次のレポヌトはこのトピックに圓おられたす。 ただ困難があり、゚ンゞンの開発者が協力しお問題を解決しおいるこずを芚悟しおください。しかし、今のずころ圌らはただ䌚っおいたす。







将来、私たちを埅っおいるものを理解したいず思いたす。 しかし実際には、これはそれ以䞊ではなく、珟圚の時間であり、ここで今起こっおいるこずです。 むしろ甚語やテキストのカスタマむズが必芁です。これが珟圚公開されおいたす。 珟圚、誰もがあなたが䌚瀟に入らないように、特定の゚ンゞンの開発者に同意しないように、これを最適化する方法に取り組んでいたす。 APIの公開オヌプン゚ンゞンで受信できたす。



カスタマむズはテキストだけでなく、甚語でもあり、独自のニヌズに合わせお甚語を構成したす。 これは重芁なポむントです。 2番目のトピックは、むンタラクティブな翻蚳です。 翻蚳者がテキストを翻蚳するずき、この技術により、゜ヌス蚀語である゜ヌステキストを考慮しお、次の単語を予枬するこずができたす。 このオヌゞェは、䜜業を倧幅に促進できたす。



今では本圓に高䟡です。 誰もがより少ない量のテキストでより小さな゚ンゞンを効果的に教える方法を考えおいたす。 これはどこでも起こり、どこでも実行されたす。 このトピックは非垞に興味深いず思いたすし、それからさらに興味深いものになるでしょう。



興味のある蚘事をいく぀か集めたした。 よろしくお願いしたす



-2぀のモデルは1぀よりも優れおいたす。 Yandex.Translatorの経隓

-Yandexが人工知胜技術を䜿甚しおWebペヌゞを翻蚳した方法

- 機械翻蚳。 冷戊からディプラヌニングたで



All Articles