Yandexの機械翻訳と自動辞書

各大規模製品には、人々が取り組んだ多くの複雑で興味深い技術が含まれており、多くの場合、生涯をかけてそれらを作成します。 また、 Yandexブラウザーでは、同僚の作業の多くが実装されていますが、これは非専門家には気付かれず、重要性が低いようです。 たとえば、ブラウザに統合されているYandexクラウドテクノロジーの1つは、独自の翻訳者です。



Yandex.Translation自体は数か月前にベータ版から抜け出しました。 自動辞書によって、他のいくつかの同様のサービスと区別されます。自動辞書の独自の技術は、Yandex言語学者とプログラマーのチームによって開発されました。 その開発中に、機械翻訳の最新の統計的アプローチと従来の言語ツールを組み合わせることができました。







機械翻訳の開発における重要なステップが自動辞書の出現であることを理解するために、20年前に異なる言語のフレーズの対応表が手動でコンパイルされた構文翻訳者が一般的だったことを思い出してください。 それらの作成プロセスは、最初の統計翻訳者が登場した1990年代後半にのみ変化し始めました。 翻訳モデルを教えるために並行テキストが使用され始めました。 同じものが異なる言語で書かれた文書は、例えば外交文書から抽出されました。 国連文書は、並行テキストの大きな基盤になりました。 しかし、そのような語彙で一般的な字句翻訳者を作成することはできませんでした。なぜなら、彼は非公式のテキストでさえも乾いた外交言語で翻訳したからです。



普遍的な翻訳モデルをトレーニングする問題の解決策は、検索エンジンのインデックスから抽出された並列ドキュメントを使用することでした。 そして、これらは元々いくつかの言語で作成された多言語サイトだけではありません。 たとえば、イベントに関するテキストを含むドキュメントがインターネットに登場しました。 彼にとって、特徴的な(対照的な)言葉で一種の「パスポート」を作成し、それを他の文書のパスポートと比較します。それらが一致する場合、これは同じものに関する異なる言語のテキストであると結論付けられます。 このプロセスは数十億のWebドキュメントを処理する必要があるため、かなりの計算リソースが必要です。



当然、そのようなテキストのすべての文が互いに連続した翻訳になるわけではありません。 単語とフレーズとすべての可能な翻訳との対応表を作成するには、特別な調整を行い、誤ってそこに到達したものを捨てる必要があります。 その結果、たとえば、20〜30個の英語の単語が各ロシア語の単語に対応することがわかりました。



上記のプロセス全体のほとんどは、統計的手法と確率論に基づいています。 自動翻訳者は、各翻訳の確率を知っており、それに基づいて、言語モデルに応じて数十、時には数百の選択肢から迅速に選択します。











翻訳の正確さとテキストのスタイルを考慮するために、翻訳オプションを人に見せるだけで、彼は文脈とスタイルで最も適切な単語を選択するようです。 しかし、これらはテキストの統計的な断片であり、それ自体は単純なユーザーにとって意味を持たない場合があります。 少なくとも、彼は1つの単語に対して何千もの選択肢を見ることができるので、それは決して彼を助けません。 特に、翻訳先の言語をよく知らない人は。



自動辞書は選択の問題を解決し、最適な翻訳のみを選択して、単純なユーザーが読める形式でそれらを表示します。 この目的のために、当社の専門家チームは複雑でリソース集約的な作業を実施しました。 最初に、自動辞書に単語の辞書形式を表示させました。 第二に、彼らは私たちに、人がそれから定式化できるフレーズのセット全体から真に安定したフレーズを識別することを教えました。



自動辞書のコンパイルには他にも困難があります。 たとえば、ユーザーがコンテキストなしで単語の翻訳を要求した場合、別の言語でバリアントをグループ化するには、そのすべての値を表示する必要があります。 そして、しばしば彼になじみのない言語で。 人が翻訳オプション間を移動できるようにするには、単語の主な意味をすべて表示するだけでなく、意味の意味に従ってグループ化する必要があります。



このために、同義語辞書が使用されます。同義語辞書は、翻訳モデルの構築プロセスで蓄積された統計データに基づいて構築されます。 Yandex.Translationには両方向の翻訳があるため、ある言語の異なる単語が別の言語の同じ単語に翻訳されることがよくあります。 これは、それらが同義語であることを示唆しています。 したがって、翻訳グループは自動的に形成され、各グループには独自の意味的な意味があります。



その結果、Yandex.Translationのユーザーは、より正確な翻訳を選択するために、通常の辞書の記事をさらに見る必要がなくなります。 自動辞書は彼に自動生成された記事を表示し、その中には単語の使用例さえあります。 さらに、インターネット上の単語の使用に関する統計に基づいて、自動辞書はより速く更新されます。 これらすべてのおかげで、Yandex機械翻訳を使用して行われた翻訳は、はるかに優れたものになります。



All Articles