テキスト認識技術がどのようにデータ漏洩と戦うのを助けるか

インタビューでは、デベロッパー製品部門が何をするのかとよく聞かれます。 ABBYY FineReader Engineについて簡単に説明しますが、多くの求職者はSDKが何であり、どのように使用できるかを直接知っており、私たちの物語を一般的な言葉として認識しています。



今日は、ABBYY FineReader Engineが実際の問題を解決するために実際の会社の実際の製品でどのように使用されているかの良い例です。 最近、ロシアの会社SECURITは、Zgateと呼ばれる製品を含むデータリーク検出(DLP)製品にFineReader Engineを統合しました。 これについてのプレスリリースがありましたので、技術面を注意深く見ていきます。



データの漏洩を特定するために、Zgateは作業中にユーザーが作成したメッセージ(メールメッセージ(ウェブメールサービス経由で送信されたものを含む)、ソーシャルネットワーク、フォーラム、ブログ、インターネットページャーのメッセージ)を分析します。 これを行うために、メールサーバーおよびプロキシサーバーと統合されているため、すべてのトラフィックを制御できます(通常、発信トラフィックのみを制御するのに十分です)。



疑わしいメッセージが検出されると(製品がメッセージに機密情報が含まれていると判断した)すぐに、その送信をブロックするか、人のチェックが終了するまで隔離するか、メッセージをすぐに転送してさらなる検証のために延期することができます。 メッセージフローが大きく、中断が必要ないか、会社にとって有害で​​ある可能性がある場合、Zgateを専用サーバーに配置し、すべてのトラフィックがこのサーバーに複製されるようにルーティングを構成できます-Zgateは完全に独立して動作し、メッセージ転送には影響しません。



疑わしいメッセージを検索する場合、管理者が指定したルールが使用されます。 検索は、正規表現や形態(「ロールバックサイズ」と「ロールバックサイズ」も同様に信頼できるはずです)の使用を含む辞書を使用して、または送信されたメッセージをサンプルドキュメントと比較することによって実行されます。 Google検索やその他の検索エンジンで。 テキスト分析方法には、ささいなことも含まれます。たとえば、製品は、同じスタイルの異なるアルファベットの文字(キリル文字と「ラテン」の「a」)または数字と文字の特定の組み合わせ(「w8ing」と「waiting」)を同等と見なすことができます。



これは非常に簡略化された説明です。製品管理者のマニュアルだけで約200ページかかります。製品を適切に実装するには、通常、適切なハードウェアを選択し、特定の顧客のニーズに応じてシステムを構成するために、サプライヤーの密接な関与が必要です たとえば、到着したメッセージを処理するのに十分なサーバーの数と容量を選択するには、通常のトラフィック量とそれを制御するための要件を考慮する必要があります。



Zgateは、独自に機能し続けることができる十分に理解された機能を備えた複雑なDLP製品です。 同時に、以前は、製品はデジタル形式のドキュメント(RTF、MS Word、テキストレイヤー付きPDFなど)のみを表示できましたが、すべてのドキュメントがこの形式で組織に存在するわけではありません。 文書は、グラフィック画像(スキャンおよび写真)またはテキストレイヤーのないPDFの形式にすることができ、そのような形式の文書の転送も制御する必要がある場合があります。



FR Engineを埋め込んだ後、Zgateはまったく同じシナリオで動作しますが、画像ファイルを表示および分析できるようになりました。 したがって、そのようなファイルを常にスキップする(無条件の信頼)か、常にブロックする(無条件の不信)必要がある場合、各ファイルについて情報に基づいた決定を行うことができます。



Zgateはメッセージからファイルを抽出し、認識のためにFRエンジンに渡します。認識されたテキストは、以前と同じ分析方法の入力に送信されます。 さまざまな言語のテキスト認識の高い精度のおかげで、Zgateの適用範囲は拡大しています。



SDKがなかった場合、Zgate開発者は自分で認識を行う必要があり、これはそれほど単純ではありません(当社は長年認識技術を開発および改善してきました)。 代わりに、SDKのライセンスを取得し、たとえば、C#でそのようなコードを簡単に書くことができます(SDKで提供される例に基づいて)。



 void processOneImage( FREngine.IEngine engine, string imageFilePath, string resultPath ) { FREngine.FRDocument document = engine.CreateFRDocument(); try { document.AddImageFile( imageFilePath, null, null ); document.Process( null, null, null ); document.Export( resultPath, FREngine.FileExportFormatEnum.FEF_Text, null ); } finally { document.Close(); // ,     - www.abbyy.ru/vacancy } }
      
      









そしてそれだけです-FR Engineは画像を開き、デフォルト設定で認識し、結果をテキストファイルにエクスポートします。 必要に応じて、目的の言語セットやその他のパラメーターを簡単に選択できます。 さまざまなサブシステムの数百万行のコードが内部で動作することは問題ではありません-画像を開き、認識し、エクスポートします。 FR Engineのユーザーには、製品のすべての機能を使用できるように考え抜かれたソフトウェアインターフェイスが提供されます。



製品の機能には、たとえば、約200の認識言語があり、その多くは辞書をサポートしており、幅広い画像形式を開くことができ、非常に高い認識精度を備えています。 製品の開発者はこれをすべて自分で行うことはできませんが、SDKの形式でライセンスを供与します。 FR Engineによって発行された認識結果を含むテキストファイルは、テキスト分析メソッドの入力に転送され、画像をどう処理するかを決定できます。



SECURIT Zgateは、FRエンジン統合の優れた例です。 そのため、製品の機能の一部はZgate開発者自身によって作成され、一部は当社によってライセンスされています。 これにより、誰もが彼が最もよく知っていることを行う機会が与えられます。



Linuxについて一言。 Zgateなどのソリューションは、1つのシステム(この場合はWindows)で動作することを許可できます。通常、実装コストはWindowsのライセンスのコストが問題にならないほど高いため、適切なオペレーティングシステムで適切なハードウェアを購入するだけです。 たとえば、数千人のユーザーがいる球状の企業では、通常、それぞれがクアッドコアプロセッサを備えたHP ProLiant DL160 G6 E5620レベルのサーバーのペアを処理するために、送信トラフィックの量は約20ギガバイトです。 Zgate開発者がLinuxに切り替えることにした場合、Linux用のFR Engineバージョンがあります。



ドミトリー・メッシェリャコフ、

開発者製品部



All Articles