TAUSについての少しの助け
TAUSは、2004年から翻訳の自動化に取り組んでいる評判の高い国際組織です。 そのメンバーには、私たちだけでなく、Google、eBay、Cisco、Intel、Adobe、Siemens、その他多くの企業も含まれます。 組織の創設者は、ほぼ生きている業界の伝説であるジャップ・ファン・デル・メール(写真)です。 TAUSの詳細については、 企業ブログまたは組織のウェブサイトをご覧ください 。
焦点を当てるレポートは、機械翻訳(MT)のトピック専用でした。 一般的に、多くの参加者が機械翻訳について話しました。 たとえば、その人気は衰えておらず、多くの一般ユーザーや企業が仕事でより積極的に使用し始めています-毎日約100 GBの情報がYandex.Translationを通過します。
私たちのイノベーションディレクターであるアントンボロノフは、機械翻訳の生産的かつプロフェッショナルな使用に必要なものについて話すことにしました。
すでに西側では自動化ツールの利点を評価することができ、多くの組織や言語サービスプロバイダーが注文の実際の作業でさまざまなテクノロジーを使用していることを既に書きました:辞書、用語集、翻訳メモリデータベース、クラウドソーシング、機械翻訳。 簡単です。業界の代表者は理解しています-世界中のコンテンツの量がほぼ毎年倍増しているという事実にもかかわらず、翻訳のペースは同じままです。 明らかに、生産性を高める必要があります。
実際には、以下の要件の少なくとも2つまたは3つのポイントが満たされている場合、機械翻訳を使用する必要があることが証明されています。
- 期限が短い大規模なプロジェクトがあります。
- いわゆる「見えにくい」コンテンツを翻訳する必要があります:技術文書、ユーザー生成コンテンツ、知識ベース。 これらは多数のユーザーを対象としていますが、原則として、ボリュームは非常に大きく、そのようなテキスト配列の各セクション(知識ベースなど)は少数のユーザーのみを注意深く読み取ります。
- ソースとして、明確な構造と高レベルの繰り返しを備えたテキストがあります。
- あなたのチームは、柔軟な品質要件を備えた複合生産プロセスをデバッグしました-プロジェクトごとに異なるレベルの品質が必要になる場合があります:一部のテキストは可能な限り正確に翻訳する必要があります。 そして、チームはそのような違いに翻訳プロセスを適応させる準備ができているはずです。 この場合、専門家は、従来のTEPモデルとは異なるポストエディット、クラウドソーシング、およびその他の操作に精通していると想定されます。
同時に、システムの機能を考慮する必要があります:MTから高品質の翻訳を実現するには、かなりの量の翻訳メモリデータベース、適切な機械翻訳エンジンの選択、プロジェクトのタイプへの調整、MTシステムの生産プロセスへの深い統合が必要です。 そうでなければ、奇跡は起こりません。
実際にはどのように見えますか? 多くの技術的な指示を特定のソフトウェアに翻訳する必要があると想像してください。 まず、このソフトウェアの以前の翻訳中にコンパイルされた、または同様のプロジェクトの後に残った翻訳メモリデータベースをストックする価値があります。 それから、適切な機械翻訳システムを決定するのは理にかなっています-おそらく過去のプロジェクトのいくつかでは、それらのいくつかは彼らのベストを示しました-そしてその構成を思い浮かべます:既存のデータベースと並列テキストをフィードします。 翻訳の過程で、機械の動作を監視する準備をしてください。何か問題が発生した場合に迅速に調整できるようにします。
私たちの実践では、次の生産プロセススキームがその有効性を証明しています。
- 用語から始めます-ソーステキストから用語を抽出し、すぐに翻訳します。これにより、作業が楽になります。
- 言語リソース-パラレルテキスト、翻訳メモリデータベースを忘れないでください。これらは、エンジンの調整と翻訳自体の両方にとって重要です。
- 各プロジェクトに適切な「エンジン」を選択してください-もちろん、このためには、使用されているすべてのMTシステムのパフォーマンスを常に監視する必要があります。
- 必要な品質レベルを満たす結果を使用して、機械翻訳システムをトレーニングします。
- ところで、品質について-翻訳の品質を常に監視します。結果が期待にどの程度対応しているか。
- 特定のセグメントの翻訳を改善するのに役立つものを修正します。メトリックと用語のコンプライアンスのチェックが役立ちます。
- すべてのパラメータを測定して、編集後の段階でテキストを完成させるのに必要な量を評価し、それに応じてプロセスを調整します。
- これらすべてを自動的に処理するプラットフォームを入手してください。
経験が示しているように、どの企業でも翻訳プロセスの自動化を最大限にするには、オンラインCATツールの世話をする必要があります。 用語管理モジュールとMTシステムを統合する必要があります。 また、柔軟な生産モデル(外出先で何かを変更する必要がある場合)、アーティストのリアルタイムのチームワーク、すべてのポストエディターアクションの自動記録(これによりボトルネックを見つけることができます)、および組み込みの品質管理を提供するのも理にかなっています。
私たちの場合、この完全な自動化サイクルはSmartCATに基づいていますが 、これについては以前に書いたものであり、積極的に開発を続けています。
また、機械翻訳エンジンのトレーニング方法についても少し触れました。 MTの結果からの期待に応えるためには、システムをセットアップするときに言語リソースを再利用することが重要です。 用語を取得し、その一貫性を追跡し、結果の用語集を「エンジン」に提供します。 翻訳済みのセグメントを取得して、編集後の段階を経て、MTシステムと共有します。ここでは、関連性が高いため、最後のオプションが重要です。
機械翻訳を使用するプロセス全体の品質管理は、不快な驚きを避けるのに役立ちます。 テキスト変更の履歴、費やされた時間、および自動品質管理の結果は、最終品質評価中に細心の注意を払う必要があるセグメントを選択するのに役立ちます。 一般に、何でも起こり得るので、MTを翻訳するときの品質管理プロセスの変更に備えてください。
計画について少し話しました。 事実、私たちは高性能で柔軟な品質レベル管理を求めて、さまざまな自動化システムと作業方法を長く積極的にテストしてきたため、プロセスに深く潜ることができました。 MTをより効率的に使用するために、用語の抽出、すでにロードされたデータベースで検索する際のヒント、特定の用語のコンテキストに関するデータを抽出するための統合モジュールが非常に不足していることが明らかになりました。 そして、もちろん、より多くの品質チェックとより多くの指標。 私たちはこれを製品と独自のプロセスに統合し続けています。
もちろん、言語技術は進化し続けています。 しかし、コンテンツの量はさらに急速に増加しており、既存のソリューションでは、プロの翻訳者がプロセスに参加する必要があります。 一般に、業界の近い将来は、人と機械の共同作業にあります。