自然言語の機械理解の問題を解決する方法

画像



多くのプログラマーが、IT上のマシンと通信するためのある種の対話型プログラムを作成しようとしています。 自家製のボットなどを数えないでください。



さらに、ITの機械理解の問題を何らかの形でほぼ解決する膨大な数の商用プログラムがあります。 検索エンジン、いわゆる機械翻訳システム、調性分析システム、ヘルプシステム、および同じFAQなど、例は誰にでもよく知られています。これらはすべて、IT上の機械との通信の問題に対する満足のいく解決策にはほど遠いです。



その理由は肉眼で見ることができます-自然言語文を処理する近似的で表面的で単純化された方法が使用されます-言語の特定の構文構造の発生に関する統計データを使用してキーワードを検索します。 したがって、EYが複雑すぎて完全な機械の理解を実装できないことを暗示しているように、したがって、タスクを簡素化するアプローチを適用する必要があります。



問題に対する完全で妥協のないソリューションは何でしょうか? 明らかに、このために、機械は、人間が読む、聞く、話す、書く、考えるときに行うのと同じ仕事を自然言語で提供する必要があります。 この問題の現在のコンピュータープログラムとの違いは何ですか? 人は文のセマンティックコンテンツを操作し、同じアイデアをさまざまな方法で表現できることを理解しますが、完全に同等ではありません。 そのため、自然言語の文を処理するようにマシンに教える必要があります。これは、これらの文に含まれる思考、意味内容を抽出するような方法です。 機械は文字ではなく思考で動作する必要があります。



ここでは、2つの関連する質問が発生します。



-テキストからセマンティックコンテンツを抽出するメカニズムを構築する方法

-テキストのこのセマンティックコンテンツを正式に提示する方法



もちろん、ここでの主な問題は、問題の必要な初期形式化を提供するため、2番目です。 この問題の解決策は長い間知られています。 それらのいくつかを簡単に見てください。



1980年に戻りました。 ロシア語に翻訳されたR. Shenkの著書「Conceptual Processing of Information」が出版され、彼は大学院生と一緒に自然言語の機械理解をモデル化するために行った仕事について説明しました。 彼はNL文の意味内容の形式的な提示方法を開発し、彼の大学院生は3つの基本的な必要な機能をLISP言語のプログラムの形式で実装しました。



-セマンティック翻訳-対応する概念モデルでの自然言語の文から私たちへの変換。

-概念記憶-「人間」の精神的操作に対応する概念構造の操作。

-概念生成-概念構造を自然言語のテキストに変換します。



「ジョンはカエルを食べた」という文の概念的表現の例。



画像



シェンクのアプローチは、彼が開発した特別な言語を使用して、精神的な(概念的な)操作とオブジェクトを記述することに基づいています。 彼は自分のアプローチを概念依存(TKZ)の概念と呼んだ。



TKZの最初のアイデアを示すために、TKZに関する最小限の情報を提供します。 概念化は、思考が構築される概念レベルの基本単位です。 概念化は、次の要素から構築されます。



-ACTOR-ACTパフォーマーのコンセプト。

-ACT-オブジェクトに関連して実行されるアクション。

-OBJECT-アクションが実行される対象。

-RECIPIENT-ACTの結果としてのOBJECTの受信者。

-DIRECTION-ACTが向けられる場所。

-STATE-オブジェクトの状態。



アクション、オブジェクト、関係、状態-これらは、彼が作成した言語の主要な要素です(名前を思いつきませんでした)。

TKZの概念的なアクションの主な種類は次のとおりです。



-PROPEL、MOVE、INGEST、EXPEL、GRASP(人によって実行される物理的動作);

-PTRANS-「物理オブジェクトの移動」。

-ATRANS-「オブジェクトの抽象関係を変更する

-SPEAK-「音を立てる」。

-出席-「感覚器官を特定の刺激に向ける」。

-MTRANS-「情報を送信する(人の間または同じ人の中)」。

-MBUILD-「思考を組み合わせて作成します。」



ここでは、このテキストの目的ではないため、TKZ言語の説明や少なくとも紹介は行いません。 R. Shenkの本には、この言語の詳細な説明があります。



シェンクの理論は、人間の被験者の行動と思考を記述することを目的としており、これは非常に興味深く、パーソナリティモデリングに関連しています。 TKZに基づいて、機械との対話が人との対話と区別できない場合に、思考する個人の対話を保証するプログラムを作成することができます。



同時に、NLテキストを機械で理解するには、個人の精神プロセスの正確なモデリングが必ずしも必要ではありません。 概念グラフの理論は、テキストセマンティクスのモデリングに対するより実用的なアプローチの1つと考えることができます。 CGを詳細に説明し、アプリケーションの質問を検討する最初の著者はR. Sowaであり、その本「概念構造:心と機械の情報処理」はロシア語に翻訳されていません。



概念グラフは、対応する文のセマンティック接続を記述するバイナリ関係の接続ネットワークです。 このアプローチは、科学分野全体に変わり、さまざまな分野があり、多くの実験的開発が行われ、科学会議が開催されています。



KGには抽象的な概念と関係もありますが、概念化を説明するときは、直接表現されたセマンティックステートメントと概念オブジェクトのみが提供されるため、具体的な概念化ははるかに単純に見えます。



画像



KG理論の実用的な実装の1つは、国連開発研究所で作成および開発されたユニバーサルネットワーク言語であるUNLです。 UNLは、インターネットへの機械翻訳の問題を解決するように設計されています。既存の自然言語ごとに、翻訳者がUNLで作成され、UNLテキストから各EYへのジェネレーターが作成され、使用される言語に関係なく、人々がインターネット上で自由に通信できるようになります。 関連する規格で説明されている理解可能で明確な概念にもかかわらず、UNL言語は、機械翻訳の問題に対する解決策を提供する程度まで開発されていません。



Semantics Ricech Non-State Pension Fund(Kazan)で実施されているCONSTセマンティックプロセッサの作成作業は、機械の理解を必要とするすべての主要なタスクを解決するメカニズムに基づくインテリジェントアプリケーションを作成する便利なツールをプログラマに提供することにより、自然言語の機械理解の問題を解決します機械翻訳、知識ベース、機械との自然言語対話、ロボットとのコミュニケーションなど。



CONST言語は、KGの理論を実装するためのオプションの1つであり、EYテキストおよびEYダイアログの理解に関連するあらゆるタイプのインテリジェントシステムを構築するように設計されています。 セマンティックプロセッサの構造はMARGIEシステムに似ていますが、商用利用を目的としています。



画像



文学



1.シェンクR.概念的情報の処理、M .:エネルギー、1980、-360s。

2. Sowa John F. Conceptual Structures:情報処理in Mind and Machine、Addison-Wesley、Reading、Ma。

3. www.undlfoundation.org

4. N.イサノフ。 CONST-応用インテリジェントシステム、ヒューリスティックアルゴリズム、分散コンピューティングを作成するためのツール、Samara、2015、v.2 2号、69〜78ページ



All Articles