SmartCAT:翻訳者向けのクラウドテクノロジー

翻訳者の仕事は興味深いです。さまざまな言語の多くの情報が常に翻訳者を通過します。 昨日、次の100ページの命令の翻訳が必要になることがよくありました。 同様のテキストがすでに以前に翻訳されている場合(以前のバージョンのマニュアルまたは他の技術文書)、タスクは少し簡単かもしれませんが、同時にコピーアンドペーストを行い、すべての変更が考慮されることを確認してから、別のレッスンがあります。 既存の翻訳を使用してその順序を保証するために、CATツールと呼ばれる特別なクラスのプログラムがあります。



CATは、コンピューター支援(支援)翻訳-「コンピューター支援翻訳」または「自動翻訳」の略です。 ただし、1つの言語でテキストを入力し、ボタンを押して翻訳を取得する場合、これらのテクノロジーを機械翻訳と同一視しないでください:自動翻訳はより広い概念であり、CATシステムの場合、人が作成した既存の翻訳が使用されます。



数日前、ABBYY Language Servicesは、翻訳プロセスを自動化する独自のプラットフォームであるSmartCATのクローズドテストを開始しました。 また、この投稿では、CATシステムで何ができるかについて少しお話します。



まず、CATツールには、標準的なフレーズや文章を含む類似のテキスト(技術用語、法律用語、医学用語、製​​品説明など)を含む翻訳者の作業を促進するさまざまな言語リソースが含まれています。 最も一般的なリソースの1つは、翻訳メモリデータベースです。これは、以前に翻訳されたテキストセグメント(フレーズと文)を含む翻訳メモリデータベースです。 これらは、パラレルテキストのペアに基づいて作成および更新されます。 別の重要なリソースは用語集です。用語集には、特定の企業が採用した(または特定のプロジェクトグループで承認された)用語と概念が含まれています。 さらに、SmartCATを使用すると、機械翻訳テクノロジーを使用できます。 外国人の翻訳者は、翻訳プロセスをスピードアップし、労働生産性を高めるのに役立つため、このリソースを長い間使用しています。 ロシアでは、誰もが機械翻訳に期待できることを理解しているわけではありませんが、この技術への関心が高まっています:今年、多くの業界会議(たとえば、 Loc KitTranslation Forum Russia )の参加者は、機械翻訳の導入と使用の機能を、過去数年のイベント。



上記のすべての言語リソースは、CATツールを使用する翻訳者の作業を簡素化します。 テキスト翻訳プロセス中に、SmartCATは既存の翻訳メモリデータベースおよび企業用語で接続された用語集からの置換を使用して、個々のセグメントに翻訳オプションを提供します。 翻訳者は次のことができます。





同時に、変更されたバージョンを既存の翻訳メモリデータベースに追加することもでき、プラットフォームは次回それを提供します。 さらに、SmartCATインターフェースの右側にある別のパネルに、選択したセグメントの機械翻訳の結果が表示されます。 ほとんどの場合、「最初から」翻訳するよりも、そのような「生の」素材を編集する方がはるかに簡単です-これは通常、ポストエディティングと呼ばれます:翻訳者または編集者は、完成したテキストをチェックし、元のテキストと比較し、目的の言語規範または必要な品質レベルにします。 これは、芸術作品、創造的なテキスト(スローガン、広告資料など)、個人的な通信、およびその他の類似のテキストでは機能しません。



CATツールはドキュメントのフォーマットを保持します。 翻訳者が、マルチレベルのリスト、スタイル、リンク、およびその他の設計要素を含む複雑な構造を持つドキュメントで作業しているとします。 SmartCATは、ソーステキストのレイアウトに関する情報を特別なタグに保存します。このタグは、翻訳作業中にそのまま残しておくことができ、翻訳されたテキストは元のテキストと同じように見えます。



ほとんどのCATツールはデスクトッププログラムです。1台のコンピューターにインストールされ、そのコンピューターでのみプログラムを使用できます。 別のコンピューターで翻訳する場合は、フローティングライセンスまたはその他のトリックが必要です。 SmartCATには、特定の利点を提供するシンプルなインターフェイスとクラウドアーキテクチャがあります。







このプラットフォームには、コンテンツ開発および作成システム、電子文書管理など、外部リソースに接続できる特別なTranslationConnectorモジュールがあります。 これにより、たとえばサイトやeコマースポータルの翻訳をワンクリックで取得できます。内部リソースのタスクは、そのソリューションを担当する翻訳者に転送され、システムで必要な変更を直接行い、完成したテキストを返します。 したがって、SmartCATユーザーは使い慣れたシステムのインターフェイスで翻訳を操作でき、企業は最も便利な方法で翻訳プロセスを構築および実行し、プラットフォームに基づいて特定のプロジェクトのソリューションを作成できます。 翻訳は、内部チーム(翻訳部門など)または外部チーム(翻訳会社)のいずれかによって実行できます。



翻訳者はPDFドキュメントや画像を操作しなければならないことがあり、これは大きな不便をもたらします。 そのようなファイルのテキストを変更することはできないので、翻訳する前にそれらを認識する必要があります-テキストデータを抽出します。 もちろん、時間と労力を気にしないのであれば、いつでもスキャンを印刷し、モニターの横に掛けて、テキストエディターで内容を再入力できます。 SmartCATは、ABBYY OCRテクノロジーとの統合により、このようなファイル形式での作業を大幅に簡素化します。必要なドキュメントをシステムにロードするだけで、翻訳用のテキストが自動的に抽出されます。 つまり、翻訳者はプログラムを離れる必要さえありません。



さらに、当社のCATツールは、特定のプロジェクトの翻訳者のパフォーマンスを測定できます。 3月に、同僚は翻訳自動化の問題に関するTAUS会議に参加しました。 イベントの参加者の大多数によると、機械翻訳後編集のプロジェクトでは、特定のセグメントのレベルで編集の時間と量を追跡する必要があります。 機械翻訳の作業だけでなく、翻訳プロセス全体を制御することが理にかなっていると判断し、SmartCATにオンラインプロジェクト監視システムを追加しました。 プラットフォームはリアルタイムでさまざまなメトリックとパフォーマンスインジケータを分析します。これにより、言語資料を使用して翻訳者、編集者、校正者の作業を最適化するための情報を取得できます。 さらに、そのようなデータは、特定のプロジェクトで自動化テクノロジーを使用するコストがどの程度正当化されるかを評価するのに役立ちます。



次に、SmartCATが光を見るために開発者が何をしたかについて少し話しましょう。 具体的には、1200行のコードを備えた小規模ながら強力なアプリケーションサーバーを作成しました。これはwin-serviceの.Netアセンブリローダーです。 コード、サードパーティのコンポーネント、またはその他の不快な驚きで突然エラーが発生した場合、安全にシャットダウンまたは再起動できます。 この場合、彼は再び立ち上がるために慎重に転倒を誓います。 この場合、プラグインアセンブリには、Web要求のフレームワークに収まらないビジネスプロセスの部分のハンドラーを持つNInjectモジュールが含まれます。 この部分はタスクの形式で表示され、キューに入れられます。 また、MongoDBおよびSQLのジョブキューを使用した高速でスケーラブルな作業のために、一般化されたパターンを開発しました。



さらに、当社の専門家は、WebAPI 5.0に美しく便利な属性ベースのルーティングを実装しました。 RAMまたはハードディスクのタスクハンドラーを制限しないために、外部ファイルプロバイダー(OCRサーバーなど)からのストリーミングデータをTranslationConnectorに追加し、その中でMongoDB GridFSへの同じ転送を追加しました。



また、構成ファイルを編成して、開発、テスト、および操作中にアプリケーションをより簡単に構成する方法を考案しました。 たとえば、これらのファイルの展開には、軍事サービスとデータベースのアカウンティング情報は含まれていません。これらは別のディレクトリから動的に接続されています。 サーバーの特定の役割とそのネットワーク接続に依存する設定もあります。 これにより、異なるサーバーに多数のハンドラーを含めることができます。



近い将来、開発者からの技術的な詳細と、これらの技術がSmartCATユーザーにもたらす利点について詳しく説明する予定です。 クラウドプラットフォーム自体はまだクローズドテストの段階にありますが、興味のある方は公式ウェブサイトでクラウドプラットフォームへの参加を申請できます。



デニス・フロロフ

ABBYY言語サービス



All Articles