前の記事で、ボールとゴミ捨て場のデータを見つけるためのオープンソース製品について話しました。 それ以来、名前付きエンティティ、タグ、統計オンデマンド、フォルダー構造を追加することで、製品を改良し、検索を大幅に改善しました。 これらの改善により、検索からデータ分析に移行できます。この記事では、これらすべてをより詳細に検討します。
理論部
まず、理論的な部分、つまりタグと名前付きエンティティがAmbarでどのように機能するかについて説明します。
Ambarのタグは、ファイルレベルでの追加のメタ情報です。例を挙げます-スキャンが見つかりました。 過去1年間のレポートを作成して、もう失わないように、「レポート」タグを追加できます。 すべてのレポートにフラグが付けられた後、タグで検索することで簡単に見つけることができます。
生活を楽にするために、Ambarは内部ルール、ルールの例に従って自動的にタグ付けできます:
- ドキュメントのMIMEタイプが
image
場合、タグ「image」を配置しimage
- 文書に拡張子zip、rar、7zなどがある場合は、タグ「archive」を配置します。
要約すると、Ambarはタグの助けを借りて、次の検索クエリに答えることができます。すべてのレポートスキャン(クエリ: tags:image,
)。
Ambarの名前付きエンティティは、ドキュメントコンテンツレベルで機能します。たとえば、AmbarはIPアドレス、TIN、会社名、電話番号、自動車登録番号、URI識別子(リンク)、ドキュメントコンテンツの電子メールアドレスを検索できるようになりました。 メール。
名前付きエンティティは、テキスト内の特定の単語または複数の単語が特定のタイプのエンティティを定義することを決定できるようにするルールです。 たとえば、TINの場合、ルールの説明を次のように簡略化できます。チェックサムを計算するための特別なルールを満たす11桁または13桁。 名前付きエンティティが見つかったら、そのエンティティを通常の形式に戻すため、次の電話番号は同じエンティティになります:+7 999 111 22 33および8999111-22-33。
[表示]ボタンを使用して、ドキュメント内でAmbarが検出したエンティティを確認できます。 また、ドキュメント内で見つかった名前付きエンティティのタイプはすぐにタグとして追加されます。つまり、ドキュメントのコンテンツ内でIPアドレスが見つかった場合、ファイルは必ず「ip」タグを受け取ります。
要約すると、名前付きエンティティの助けを借りて、Ambarは次の検索クエリに答えることができます。IPアドレス192.168.1.1が見つかったすべてのファイルを表示します(クエリ: entitites:"192.168.1.1"
)。 (リクエスト: entitites:"123123123123" tags:ocr
)。 最後に、秘密をお伝えします。次のAmbarリリースでは、サードパーティのエンティティをプラグインとして追加する予定です。
理論から実践へ
これらのボールに何が保存されているかを理解するために、Ambarをすでに構成し、いくつかのファイルのインデックスを作成していると仮定します。 このビューから、見つかったファイルの数とサイズ、および見つかったファイルの種類(トレントや映画は逃げられない!)がすぐに明らかになります。
あなたのボールの30%が昨年の企業パーティーからの.avi
ファイルで占められていると思うとしたら、どのフォルダーにあるのかをどのようにして知るのでしょうか? リクエストsize>500M filename:*.avi
を入力しsize>500M filename:*.avi
とフォルダービューに移動します。 どのフォルダーでヒット数が最も多く、純粋な魂でそれらを削除します。
より複雑な例を考えてみましょう。従業員の電話番号を見つける必要があります。 " " tags:phone
リクエストを入力し" " tags:phone
し、「統計」タブに移動します。 大量のテーブルデータを使用するか、クエリを絞り込む場合、見つかった電話タイプの名前付きエンティティを選択し、詳細ビューに切り替えてドキュメントのテキストを表示します。
将来的には、Ambarの分析部分、つまりユーザータグのカスタムルールの作成、カスタムエンティティ(既に車のブランドを追加する要求がありました)、および見つかったエンティティ間の関係の視覚化を開発する予定です。
ご清聴ありがとうございました!