ネットワークボールとガベージダンプ内のドキュメントを検索する

ゴミ箱







私たちのほぼ全員が、誰もが嫌いな「ファイルウォッシュ」、つまり構造のない何千ものドキュメントを含むボールを抱えている会社で働いたことがあります。 そして、誰もが彼がこのゴミ捨て場で何かを見つける必要がある瞬間を確実に持っていました。 「そして先月、ヴァシリッチはこのレポートをボールに投げつけました、そこを見てください」-同僚から聞いたところ、同じヴァシリッチが「そして、どのフォルダーに?」という質問に答えました。 もちろん、彼は「ああ...覚えていない、一般的には自分で探してみて」と答えた。 そして、私たちは何時間も地獄に飛び込みました-大切な文書を見つけることを期待して、90年代の文書、猫の写真、ジョークやその他のスラグが混じった契約書をフォルダーでさまよいました。







確かに私たちの多くはこのボールに物事を整理しようとしました、「これで十分です、今私はそれを取ります、私はすべてをかき集めて棚に置きます」-私たちは皆に、瓦、をかき集めるのに何時間、何日、何週間も費やしました。 並行して、経理部門のVasilisa Semyonovna、またはVasilichは、逆アセンブルされたファイルをドキュメント、猫、ジョークなどで再び希釈し、通常の混乱をその場に戻しました。 そして、あなたがgaveめるまで続きました。 そして、ボールは通常のゴミに戻りました。







になる方法



すべてのユーザーにボールの順序を維持するように強制するという考えは失敗したため、代替アプローチを模索する必要があることを意味します。 最小限の労力で明らかな選択肢は、名前とメタデータだけでなく、ガベージ内のすべてのファイルのコンテンツでも検索できる検索エンジンです。







顧客のためにこの問題を解決する段階にあったとき、私たちはまず、オープンソースソリューションを優先して、ドキュメントの検索と管理に利用可能なシステムを調べました。 検索と研究の詳細に入ることなく、すぐに結果を宣言します:OCRを使用して、名前付きエンティティのタグ付けと強調表示を行う、ボールのインデックス作成と検索のための迅速、簡単、便利なソリューションは存在しませんでした。







次は? 解決策



したがって、多くの企業でこの問題を見て、独自の製品、もちろんオープンソースを作成することにしました。







その結果、ドキュメントを検索および構造化するためのシステムであるAmbarを取得しました。これにより、最終的にすべての要件( GitHub )が満たされました









Ambarを使用して、次の手順で問題の解決策を検討してみましょう。







  1. LinuxサーバーにAmbarをインストールします:DockerおよびUbuntu Server 16.04以降が必要です(

    英語のインストール手順
  2. SMBまたはFTPクローラーの構成( 英語の手順



    クローラー設定
  3. 統計ページでドキュメントのインデックス作成プロセスを見る
  4. タグやその他のグッズで検索を使用する



    検索する


まとめ



この短い記事では、企業の大規模ファイルダンプに伴う痛みと、この問題を解決するためのアプローチを共有しました。







ご清聴ありがとうございました!








All Articles