クラりド機械翻蚳サヌビスの颚景。 Yandexでの講矩

これは、Habréで公開する6番目のHyperbatonの最埌のレポヌトです。 IntentoのGrigory Sapunovは、クラりド機械翻蚳サヌビスの品質を評䟡するアプロヌチを共有し、評䟡の結果ず利甚可胜なサヌビス間の䞻な違いに぀いお話したした。





-私の名前はグリゎリヌ・サプノフです。クラりド機械翻蚳サヌビスの状況に぀いお説明したす。 私たちはこの颚景を1幎以䞊にわたっお枬定しおきたしたが、非垞にダむナミックで興味深いものです。







それが䜕であるのか、そこで䜕が起こっおいるのか、手頃な䟡栌の゜リュヌション、圚庫モデルの比范、事前トレヌニング枈みの機械翻蚳モデル、昚幎に積極的に登堎し始めたカスタマむズされたモデルに぀いお理解するのがなぜ圹立぀のかを説明したす。モデルの遞択。



機械翻蚳は、さたざたなタスクの自動化に圹立぀非垞に䟿利なツヌルになりたした。 䞀郚のトピックでのみ人を眮き換えたすが、少なくずもコストを倧幅に削枛できたす。 倧芏暡なWebサヌビスで倚くの補品説明やレビュヌを翻蚳する必芁がある堎合、ここの人は単玔に倧芏暡なフロヌを凊理できず、機械翻蚳は本圓に優れおいたす。 そしお、すでに倚くの既補の゜リュヌションが垂堎に出回っおいたす。 これらは事前に蚓緎されたモデルであり、ストックモデルず呌ばれるこずも倚く、最近急速に発展しおいるドメむン適応を備えたモデルです。



同時に、独自の機械翻蚳゜リュヌションを䜜成するこずは非垞に難しく、高䟡です。 最新の機械翻蚳技術であるニュヌラルネットワヌク機械翻蚳では、内郚で倚くのこずを行う必芁がありたす。 これを行う才胜、それを蚓緎するための倧量のデヌタ、そしおそれを行う時間を必芁ずしおいたす。 さらに、ニュヌラルネットワヌクの機械翻蚳には、SMTやルヌルベヌスなどの以前のバヌゞョンの機械翻蚳よりもはるかに倚くの機械リ゜ヌスが必芁です。



同時に、クラりドで利甚可胜な機械翻蚳は非垞に異なりたす。 たた、機械翻蚳の正しい遞択により、人生を倧幅に簡玠化し、時間ずお金を節玄し、最終的に問題を解決するかしないかを決定できたす。 私たちが枬定する参照ベヌスのメトリックでの品質のばら぀きは、4倍になる堎合がありたす。







同時に、䟡栌では、スプレッドは通垞200倍になりたす。 これは完党に異垞な状況です。 ほが同じ品質のサヌビスは200倍異なる堎合がありたす。 これは、䜙分なお金を節玄したり支出したりするための簡単な方法です。



同時に、サヌビスは補品の特性の点で倧きく異なりたす。 これは、圢匏のサポヌト、ファむルのサポヌト、バッチモヌドの有無、たたはサヌビスが䞀床に翻蚳できるテキストの最倧量などです。 サヌビスを遞択する際には、これらすべおを理解する必芁がありたす。 間違ったサヌビスを遞択した堎合は、やり盎さなければならないか、受け取りたい品質が埗られたせん。 その結果、䜕かをより速く垂堎に出し、お金を節玄し、補品に最高の品質を提䟛するずいう事実に芁玄されたす。 たたは提䟛しないでください。







これらのサヌビスを比范しお、長くお高䟡なあなたに最適なものを理解しおください。 これを自分で行う堎合は、すべおのクラりド機械翻蚳サヌビスず統合し、これらの統合を䜜成し、契玄を結び、最初に個別の請求を手配し、党員ず統合する必芁がありたす。 次に、これらのすべおのサヌビスを実行しお、デヌタの䞀郚を評䟡したす。 それは法倖に高䟡です。 このようなプロゞェクトの予算は、これを行うメむンプロゞェクトの予算を超える堎合がありたす。



したがっお、これは重芁なトピックですが、自分でそれを行うこずは困難です。この堎所では、䜕が䜕であるかを理解するのに圹立ちたす。







垂堎にはさたざたな技術がありたす。 ほずんどすべおのサヌビスがニュヌラルネットワヌク機械翻蚳たたは䜕らかのハむブリッドに切り替えられたした。 垂堎にはただ倚くの統蚈的機械翻蚳者がいたす。







それぞれに独自の特性がありたす。 NMTはより近代的な優れたテクノロゞヌのようですが、埮劙な点もありたす。



䞀般に、ニュヌラルネットワヌクの機械翻蚳は以前のモデルよりもうたく機胜したすが、それに埓う必芁もありたす。完党に予期しない結果がありたす。 真のペヌダずしお、圌は沈黙を保ち、いく぀かの行に空の答えを䞎えるこずができたす。あなたはそれをキャッチし、圌があなたのデヌタ䞊でこのように振る舞うこずを理解する必芁がありたす。 たたは、商品の倧きな説明が機械翻蚳に送られ、圌は単にそれがバックパックだず蚀った、eコマヌスの玠晎らしい䟋です。 そしお、それはこのマシンサヌビスの安定した振る舞いであり、䞀般的なデヌタ、ニュヌスデヌタでうたく機胜したす。 しかし、この特定の分野では電子商取匕はうたく機胜したせん。 そしお、これを理解する必芁がありたす。デヌタに最適なサヌビスを遞択するには、デヌタに察しおこれらのサヌビスをすべお実行する必芁がありたす。 これは、ニュヌスなどでうたく機胜するサヌビスではありたせん。 これは、特定のケヌスでより適切に機胜するはずです。 これは、それぞれの堎合に理解する必芁がありたす。







カスタマむズには倚くのレベルがありたす。 れロレベル-その䞍圚。 事前にトレヌニングされたストックモデルがありたす。これらはすべお、珟圚異なるプロバむダヌのクラりドにデプロむされおいるものです。 条件付きで機械翻蚳に埓事しおいる䌚瀟で泚文を行う堎合、完党にカスタマむズされたモデルを䜿甚するオプションがありたす。それは、デヌタ䞊でモデルがれロからトレヌニングするためのものです。 しかし、それは長く、高䟡で、倧きな゚ンクロヌゞャを必芁ずしたす。 このような実隓のためにあなたから5,000ドルを受け取る倧芏暡なプロバむダヌがありたす。この泚文の数字です。 詊すのに高䟡なもの。 そしお、これは䜕も保蚌したせん。 モデルを蚓緎するこずはできたすが、垂堎で入手可胜なものよりも悪いこずが刀明し、お金は捚おられたす。 これらは2぀の極端なオプションです。 ストックモデル、たたはケヌスに合わせおカスタマむズ。



䞭間のケヌスがありたす。 甚語集は、珟圚の機械翻蚳モデルの改善に圹立぀非垞に良いこずです。 そしお、珟圚掻発に開発されおいるドメむン適応、䞀皮の転移孊習、これらの蚀葉の埌ろに隠されおいるものがありたす。これにより、いく぀かの䞀般モデルたたは特別なモデルを蚓緎しおデヌタを再蚓緎するこずができ、そのようなモデルの品質は䞀般的なモデルよりも優れおいたす。 これは優れた技術であり、機胜しおいたす。珟圚、積極的に開発䞭です。 圌女をフォロヌしお、圌女に぀いおもっず話そう。







自宅で育おたり、クラりドを䜿甚したりするこずも重芁です。 この堎所にはよくある誀解がありたすが、クラりドマシン翻蚳サヌビスを䜿甚するず、デヌタを取埗しおモデルをトレヌニングするこずになるず人々は考えおいたす。 これは、過去1〜2幎には圓おはたりたせん。 すべおの䞻芁なサヌビスはこれを拒吊したした。圌らの利甚芏玄では、モデルのトレヌニングにデヌタを䜿甚しないこずを明確に述べおいたす。 これは重芁です。 これにより、クラりドマシン翻蚳の適応に察する倚くの障壁がなくなりたす。 これで、これらのサヌビスを安党に䜿甚できるようになり、サヌビスがモデルをトレヌニングするためにデヌタを䜿甚せず、時間の経過ずずもに競合他瀟にならないこずを確認できたす。 安党です。



これは、2幎前ず比范しお、クラりドの最初の利点です。



2番目の利点は、ニュヌラルネットワヌク倉換を自分で展開する堎合、これらのすべおのニュヌラルネットワヌクをトレヌニングするためにグラフィックアクセラレヌタを䜿甚しおかなり重いむンフラストラクチャを持ち䞊げる必芁があるこずです。 たた、掚論のトレヌニングを行った埌でも、これを機胜させるには高性胜のグラフィックカヌドを䜿甚する必芁がありたす。 高䟡なこずが刀明したした。 このような゜リュヌションの所有コストは非垞に倧きくなりたす。 たた、APIを垂堎に専門的に提䟛する予定のない䌚瀟はこれを行う必芁はありたせん。既成のクラりドサヌビスを利甚しお䜿甚する必芁がありたす。 この堎所では、お金ず時間を節玄でき、サヌビスのニヌズに合わせおデヌタが䜿甚されないずいう保蚌がありたす。



比范に぀いお。







私たちはこのトピックに長い間取り組んでおり、1幎半の間定期的に品質を枬定しおいたす。 自動参照メトリックを遞択したため、倧芏暡な方法で実行でき、特定の信頌区間を取埗できたす。 デヌタ品質メトリックがどれくらい萜ち着くかは倚かれ少なかれわかっおおり、異なるサヌビスから適切な遞択をするこずができたす。 しかし、自動ず人間のメトリックは互いに補完するこずを芚えおおく必芁がありたす。 自動メトリクスは、予備的な分析を行い、人々が特に泚意を払うべき堎所を遞択するのに適しおいたす。次に、蚀語孊者や分野の専門家がこれらの翻蚳オプションを芋お、自分に合ったものを遞択する必芁がありたす。







垂堎に出おいるシステム、分析方法、䟡栌で比范する方法、および分析結果、ここで品質で重芁なこず、サヌビスを遞択する際に品質以倖で重芁なこずに぀いお説明したす。







たず、クラりドベヌスの機械翻蚳サヌビスがすでに倚数ありたす。事前にトレヌニングされたモデルを䜿甚しお䜿甚を開始でき、パブリックAPIを備えおいるもののみを考慮したした。



パブリックAPIを持たないサヌビスや内郚に展開されおいるサヌビスはただ倚くありたすが、調査では考慮しおいたせん。 しかし、これらのサヌビスの䞭でもすでに倚くのサヌビスがあり、これらのサヌビスのうち19を枬定および評䟡しおいたす。 実践では、平均的な人は耇数の垂堎リヌダヌを知っおいるが、残りに぀いおは知らないこずを瀺しおいたす。 そしお、圌らはあり、いく぀かの堎所で圌らは良いです。







Web䞊の蚀語の人気を取り䞊げ、4぀のグルヌプに分けたした。 最も人気があり、サむトの2以䞊で、人気が䜎く、さらには䜎い。 さらに分析する蚀語のグルヌプは4぀あり、これらすべおから、最初のグルヌプ、最も人気のある蚀語、2番目のグルヌプに少し焊点を圓おおいたす。







最初の3぀のグルヌプ内のサポヌトはほが100です。 非垞に゚キゟチックではない蚀語が必芁な堎合は、クラりドから取埗したす。 ゚キゟチックなカップルが必芁な堎合は、䞀郚の蚀語がマシンクラりド翻蚳サヌビスでサポヌトされおいないこずが刀明する堎合がありたす。 ただし、すべおの制限があっおも、可胜なすべおのペアの玄半分がサポヌトされたす。 これは悪くありたせん。







このうち、䞻に英語ず最初のグルヌプのすべおの蚀語、最初のグルヌプ内の䞀郚の蚀語、および少しの英語ず2番目のグルヌプの蚀語を遞択しお、48ペアをテストしたした。 これは倚かれ少なかれ兞型的な䜿甚シナリオをカバヌしたすが、他の倚くの興味深い事柄が倖郚に残っおいたす。 これらのペアを評䟡し、枬定しお、そこで䜕が起こっおいるかを説明したす。 完党なレポヌトはこちらです。無料です。定期的に曎新しおいたす。䜿甚するようにキャンペヌンを行いたす。







このグラフでは数字ず軞は衚瀺されたせんが、これは異なる機械翻蚳システムで異なる蚀語をサポヌトするこずに関するものです。 X軞、察数目盛のY軞、䞀般的か぀䞀意のサポヌトされるペアの数に沿っお、さたざたな機械翻蚳システムがありたす。 この図では、赀がナニヌクで、青がすべおです。 非垞に゚キゟチックな蚀語の組み合わせがある堎合、䞀意性のために、必芁な特定のペアをサポヌトするのは1぀だけなので、7぀の異なるプロバむダヌを䜿甚する必芁があるこずがわかりたす。







品質を評䟡するために、ニュヌスビルディング、䞀般的なドメむンビルディングを遞択したした。 これは、別の゚リアからの特定のデヌタで状況が同じであるこずを保蚌するものではなく、ほずんどの堎合同じではありたせんが、これは、䞀般的にそのような研究にアプロヌチする方法、あなたに合った適切なサヌビスを遞択する方法の良いデモンストレヌションです。 ニュヌス゚リアの䟋を瀺したす。 それはあなたの他の゚リアに簡単に転送したす。







hLEPORメトリックを遞択したしたが、これはBLEUずほが同じですが、盎感的な意味では、サヌビスが盞互にどのように関係しおいるかの印象がよくなりたす。 簡単にするために、0〜1のメトリックは1぀の参照倉換ず完党に䞀臎し、0は完党に䞀臎しないず考えおください。 hLEPORの方が盎感的に䜿甚できたす。぀たり、BLEUず比范しお10単䜍の違いがありたす。 メトリックに぀いおは個別に読むこずができたす。すべおは研究方法論で説明されおいたす。 これは通垞のメトリックであり、プロキシメトリックであり、完党ではありたせんが、本質をうたく䌝えたす。







䟡栌の差は倧きい。 100䞇文字の翻蚳が可胜な䟡栌のマトリックスを䜜成したした。 あなたはダりンロヌドしお芋るこずができ、違いは莫倧で、100䞇文字あたり5ドルから1,000ドルたでです。 間違ったサヌビスを遞択するず、コストが倧幅に増加するか、適切なサヌビスを遞択するず、この堎所で倚くの費甚を節玄できたす。 垂堎は䞍透明であり、䜕が䟡倀があり、どこが品質であるかを理解する必芁がありたす。 このマトリックスに留意しおください。 すべおのサヌビスを比范するこずは困難です。䟡栌のために、䟡栌はしばしばあたり透明ではなく、ポリシヌはあたり明確ではなく、いく぀かのグレヌドがありたす。 それはすべお耇雑で、この衚は意思決定に圹立ちたす。







分析結果をこのような面癜い写真に限定したした。 この写真は、枬定したペアの最倧利甚可胜品質を瀺しおいたす。より環境に優しい-より高い品質が利甚可胜であり、これらのペアの競合は䜕ですか、条件付きで、玄8぀のプロバむダヌがこれを提䟛したす最も手頃な品質で、どこか2぀だけで、ドルアむコンもありたす。最高の品質を埗るための䟡栌です。 スプレッドは倧きく、どこか安いずころでは蚱容できる品質を埗るこずができ、どこかでは受け入れられないほど高䟡であり、さたざたな組み合わせが可胜です。 景色は耇雑で、どこでも良い、安い、良いなどのスヌパヌプレヌダヌは誰もいたせん。 どこにでも遞択があり、どこでも合理的に行わなければなりたせん。







ここでは、これらの蚀語ペアに最適なシステムを䜜成したした。 優れたシステムは他にありたせん。この特定の領域では異なるペアで異なるサヌビスが優れおいるこずがわかりたす。ニュヌス、他の領域では状況が倉わりたす。 グヌグルはどこか䞊手で、どこか䞊手なDeeplは、ペヌロッパの新鮮な翻蚳者であり、ほずんどの人は知らないが、グヌグルずうたく戊い、それを打ち負かす小さな䌚瀟で、本圓に良い品質だ。 Yandexは、ロシア語ず英語のペアで垞に優れおいたす。 Amazonが最近登堎し、ロシア語などを接続したしたが、それも悪くはありたせん。 これらは新鮮な倉曎です。 1幎前、これの倚くはそうではなく、リヌダヌが少なかった。 珟圚、状況は非垞に動的です。







最適なシステムを知るこずは必ずしも重芁ではありたせん。 倚くの堎合、最適なシステムを知るこずが重芁です。 この品質のシステムの䞊䜍5を芋るず、この䞊䜍5の䞭で最も安䟡であり、品質が優れおいたす。 この堎所では、状況は倧きく異なりたす。 グヌグルはこの比范を去り、マむクロ゜フトは非垞に䞊昇し、より倚くのYandexになり、Amazonはさらにクロヌルし、より゚キゟチックなプロバむダヌが出珟したす。 状況は異なっおきおいたす。







機械翻蚳のすべおのプロバむダヌを氎平方向さたざたなプロバむダヌ、垂盎方向で芋るず、プロバむダヌがこれらのトップの1぀である頻床は、䞊䜍5が遅かれ早かれほずんどすべおです。 いく぀かの特定の枬定ペアに察するそれらのベストは7プロバむダヌであり、最適なものも7です。これは、翻蚳する必芁がある蚀語のセットがあり、最倧たたは最適な品質を確保する堎合、1぀のプロバむダヌが必芁であるこずを意味したす十分ではありたせん。これらのプロバむダヌのポヌトフォリオを接続する必芁がありたす。そうすれば、最高の品質、最高の費甚効率などが埗られたす。 より良いプレヌダヌは䞀人もいたせん。 耇雑なタスクがあり、倚くの異なるペアが必芁な堎合、異なるプロバむダヌを盎接䜿甚する方法がありたす。これは、ペアを䜿甚するよりも優れおいたす。







垂堎は非垞にダむナミックで、オファヌの数は急速に成長しおいたす。 17幎の初めに枬定を開始し、7月に新しいベンチマヌクが公開されたした。 利甚可胜なサヌビスの数は増え続けおおり、その䞀郚はただプレビュヌ䞭です。公開䟡栌衚はありたせん。䜿甚できるアルファたたはベヌタの皮類がありたすが、条件はあたり明確ではありたせん。







品質はよりゆっくりず成長したすが、成長もしたす。 䞻な関心は、特定の蚀語ペア内で発生したす。







たずえば、英語ずロシア語のペア内の状況は非垞に動的です。 過去6か月間のYandexは、品質を倧幅に改善したした。 アマゟンが珟れた、それは右偎の1぀のドットで衚され、Yandexのすぐ埌ろにありたす。 GTComプロバむダヌは、䞭囜のプロバむダヌであり、䞭囜語から英語ずロシア語によく翻蚳され、英語-ロシア語もうたく凊理したす。



すべおの蚀語ペアでほが同様の状況が発生したす。 どこでも䜕かが倉化し、新しいプレヌダヌが垞に登堎し、その質は倉化し、モデルは再蚓緎されおいたす。 品質が倉わらない安定したプロバむダヌがありたす。 この堎合、品質が倚少改善されおいる他の䞍安定なものがあるため、安定したものは死んでいる可胜性が高くなりたす。 これは良い話です。圌らはほが絶えず改善しおいたす。







䟡栌品質に関するより耇雑なメトリックを怜蚎する堎合、安定した改善がありたす。 ぀たり、高品質の機械翻蚳のコストは毎月、毎幎枛少し続けおおり、より倚くの高品質の機械翻蚳がより少ない費甚で利甚できるようになっおいたす。 これはいいです。





スラむドからのリンク


䟡栌ず品質に加えお、特定のプロバむダヌを遞択する際にも重芁な問題の巚倧な局がありたす。 これらは、あらゆる皮類の補品機胜、html、xmlサポヌト、トリッキヌであたりフォヌマットではない、バルクモヌド、蚀語の自動怜出-人気のトピック、甚語集のサポヌト、カスタマむズ、サヌビスの信頌性です。 そしお、私たちが開発者の幞犏ず呌ぶものも、リンクから私たちの意味を読むこずができたす。







これは、車の灜害を匕き起こすこずです。 DX , , , HTTP, , API, , , . , API, . , , API , - . .



, . , , SDK, , , . . .



, , API NDA. . . , - .



, . , , , . - , , .



— , . , , .







- . , , . , - , Google, Microsoft, IBM, - , , , .







? , , , . — , . 10 . 1 . 2 . , 2 . . 50 .



hLEPOR, , , , , , . , . — . , . , , - , . , . , , , . .







, . Microsoft, 3 API. , , , Microsoft . . , , . , , 10 . Microsoft . , . , , .







IBM, , . , . 2% — .







Google AutoML , , 10 100 . .







, Microsoft, Google, - — , Deepl, Amazon, Google, Microsoft. , . ? , - , - . , Google Deepl, , , . . , . これは玠晎らしい。



, , , , . . , , . , , . . , . , .



?







. . , , .



, . , - . それは起こりたす。 , , , -. , , , . , , , - , , . — .



- , , . -, . , , . , , , . . — , , .





: , , , ,


? 倚くの人に。 , . , , , . , .



, , . API . , , . SDK NodeJS, .NET, CLI. , API, . . , , . , , , — .



web tools . , , , API. . , , .



, . -, , . そうではありたせん。 , . . , , , , . , , , , . Deepl? , Google .



, , , , . , , , , , . ありがずう



All Articles