独自のGoogle検索-ドキュメントスキャンにも対応

会社のサーバー上のドキュメントを全文検索のためにアクセス可能にし、機密を保持する方法は? 汚れたリネンを公共の場に出さずに、ドキュメントを会社のネットワーク内残さずに 、Google検索の機能を取得する方法は? 企業検索も急成長中のおいしいケーキです。



あまり知られていない小さな会社であるGoogleは、標準の19インチラック-Google検索アプライアンスにインストールするための美しい黄色のボックスの形でソリューションを提供しています。



スキームは次のとおりです。



同じ使い慣れた検索(それぞれ、従業員をトレーニングするための最小限の労力)とドキュメントは、会社のネットワークを離れることはありません。 重要な制限は、ファイルストレージ(たとえば、ドキュメントスキャン)内の画像ファイルは検索できないことです-GSAはそれらからテキストを抽出できません。 ヒューストン、問題があります。



この企業ブログでよくあるように、 キャプテンテキスト認識の光学的証拠を救い出します



Google検索アプライアンスは、サイトを個別にクロールできるだけでなく、いわゆるフィードも受け入れます (alas、適切なロシア語はまだ見つかりません)。



フィードは特別なXMLドキュメントです。 ペア(URL +テキスト)を含めることができます。 フィードは、外部プログラムによってGSAに送信されます。対応するポートへのHTTP POST要求のみです。 GSAはフィードを受け入れて解析し、「このドキュメントにはこのURLのテキストが含まれています」というインデックスに書き込みます。



さらに、ユーザーが適切な検索クエリを入力すると、検索結果にドキュメント(リンクと、強調表示された一致を含む抽出されたテキスト)が表示されます。 同じGoogle検索ですが、テキストは外部プログラムによって抽出され、「埋め込まれ」ます。



幸せは近いです。 テキスト認識には、通常どおりABBYY認識サーバーの 電気テープを使用します 。 ファイルストレージをバイパスし、認識のためにファイルを認識サーバーに転送し、認識結果からフィードを作成し、Google検索アプライアンスにフィードを転送できる個別のサービスが含まれています。



ストレージは何度もクロールできますが、変更されたファイルは再認識され、新しいフィードが送信され、削除されたファイルには特別なフィードが送信され、ファイルURLをインデックスから削除するように指示されます。 サービスは、認識サーバーと同じマシンで実行されます。



フィードメカニズムを使用すると、GSA自体から認識を完全に分離できます。 認識サーバーの優れたスケーラビリティにより、多数のドキュメントがある場合でも認識を非常に迅速に実行できます。 たとえば、インデックスに大きなアーカイブをすばやく含める場合、SMSインストールを使用して従業員のマシンに認識ステーションを配置し、週末または夜間のみにステーションが使用されるように製品を構成できます。



当然、同じ認識サーバーのインストールを組織の残りのビジネスプロセスに使用できます。



ここに、認識サーバーを使用するための別のシナリオがあります-急成長しているパイに到達するのを助けるためです。



ドミトリー・メッシェリャコフ

データ入力製品部門



All Articles