ABBYY Labs。 Q&Aプロジェクト:機会のデモンストレーション

過去のエピソードの要約:

ABBYY Labs? これは何ですか
学生研究室のアイデアは非常に単純です。専門家の指導の下で問題の解決に関与する学生チームを編成します。 MIPTでは、これは年次コース「イノベーションワークショップ」の一環として行われます。 このプロジェクトの目標は、学習プロセスの学生が、通常の教育プロセスで起こることよりも現実に近い問題を解決できるようにすることです。 そして、同時に適切な環境に「没入」させます。開発が行われる環境は、現実のIT企業です。

過去のプロジェクト
フォーミュラ認識

問題文: 画像 Student Labs ABBYY

問題の解決策: 画像 ABBYY Labs-新機能

進行中のプロジェクト
Androidアプリ

画像 ABBYY Labs:FromWordプロジェクト-Androidで単語を再生します

質疑応答システム

画像 ABBYY Labs。 Q&Aプロジェクト:始まり

+↓



プロジェクトの概要:

目的:自然言語で提示されたユーザーの質問に最も完全に答える、以前にダウンロードしたテキストの一部を見つけることができるようにします。

現在の状態:ペンに触れることができます!

将来:かすんでいます。 聴衆の反応と支払能力に依存します。

したがって:通り過ぎないでください!



カットの下、デモ例へのリンク、および一般的に、 最後の部分の論理的な続き。





動作原理
使用する予定のテキストは事前にダウンロードされます。 これらのテキストを処理した後、自然言語で質問をすることが可能になり、重要なことに、回答を受け取ることができます:)。 このビジネスにはAPIが既に用意されています。 人々は、このサービスが、フォーラム、医療および法律のディレクトリなど、多くのテキスト情報を持つサイトでの使用に適していると考えています。 新しい分野のアプリケーションを手際よく提供する場合、開発者は満足するだけです。



英語とロシア語について話す限り、言語の壁は問題ではありません(ロシア語のテキストについては英語で質問することができ、その逆も同様です)。 将来的には、言語メカニズムの「ネイティブ」なリストが増えていきます。



彼らはエンジンの組織について話すように非常に頼まれました。 私は彼らの説明の半分以下を理解しました(読んでください-何もありません)ので、私はそれをネタバレの下に置きました

恐ろしい言葉:省略記号、形態学的記述、ツリー、グラフ
  1. ワープロ

    • ComprenoからXMLとして解析テキストを受信しました
    • テキストの各文はツリーです(文が複雑な場合、通常はフォレストです)。 このようなツリーのノードは、文の中の単語(または、文に句学的単位がある場合は句)です。 さらに、各頂点には、与えられた単語の形態学的記述(つまり、ケース、番号、性別など)が格納されます。2つの接続されたツリーの頂点はフレーズです。
    • 一般的な場合、文は複数のツリー(たとえば、複雑な文の2つの部分)で構成されているため、文ごとに、文のツリーが中断されている情報を含まない純粋な技術単位が作成されます。 そして、彼らは、順番に、テキストのルートに中断されます。 したがって、任意のテキストに対して1つの解析ツリーが取得されます。
    • 次に、非木材リンク( 照応省略記号 )を追加します
  2. 同様のツリーが質問に対して作成されます。
  3. 次は検索です

    • テキストのすべての文を実行し、質問のすべてのノードをこの文のすべてのノードと比較します。 比較は、形態学的および意味論的な記述に基づいています。 このような比較により、同義語だけでなく、異なる言語からの類似した単語(類似した意味を持つ単語)も識別できます。 そして、比較の結果は、ペアのノードのコンテンツの類似度係数です。
    • 次に、照応接続が処理され、いくつかのペア(文のノード-質問のノード)に対して、係数が再計算されます。
    • 質問のすべてのノードは、提案のすべてのノードと再び比較されますが、現在は子に関してです。 結果として、ノードの各ペアは、構造的類似性の係数を受け取ります(これは、構造内のサブツリーの類似性を特徴付ける数です)。
    • 次の段階では、サブツリー全体がすでに比較されています。 サブツリーと単語を比較するプロセスを説明するのは難しいので、アナロジーを作成してみましょう(まったく適切ではありません)。 木である道路の2つのネットワークがあるとします。 各ネットワークでノードを選択し、同じ(または非常に似た)道路を歩くのが好きな双子をそこに配置します。 そして、実際に、私たちは彼らに歩いてもらい、全体の類似度を計算します。 最初にそれらを異なるノードのペアに配置すると、全体の類似性が最大になるペアを見つけることができます。 この数は、この文の重みとして記憶されます。
    • 答えとして、重みが最も高いオファーが選択されます。




その他の重要なこと
スピード。 超高速では動作しませんが、独自の理由があります。この経済はすべて、最も安価なインスタンス(テスト目的で無料)でAmazonクラウドに保持されます。 したがって、速度を非難しないでください!



応答検索の品質。

サイトを通じて、システムの意見で最も関連性の高い答えを見ることができます。 しかし、厳しい現実の中で起こるように、「コンピューター」の意見と人間の意見の中で最も関連性の高い答えが常に同じとは限りません。 したがって、関連性を考慮して、いくつかの可能な回答がAPIユーザーに返されます。サービス所有者はそれらを表示する方法を知っている方がよいでしょう。 ただし、「すべての回答を含むファイル」という語のすぐ下にあるリンクであるxmlの形式で表示できます。



改善の機会 。 既知のトピックを含む素材を検索する場合、それを考慮に入れるようにサービスを構成できます。これにより、検索の関連性が高まります。 既に述べたように、クラウドでより強力なインスタンスを提供することで速度を上げることもできます。



最も重要なこと 。 リンク、 ここにある

できた! 現時点では、3つのテキストのいずれかで回答を検索できます(habra効果を避けるために新しいテキストの読み込みは無効になっています)。



Habrユーザーの意見を知りたい:このサービスはどこで利用できますか? さて、評論家、評論家:)



UPD:ところで、 nafany121は招待なしで苦しみ、コメントに応答することさえできないことをここで思い出しました。 そして、彼は、ちなみに-このことの開発者の一人です。 まあ、あなたは私が言っていることを理解していますよね? ありがとう、 HeadMatters



All Articles