潜在意味解析および人工知能(LSAおよびAI)

私はこの投稿を数学的なもの(より正確には代数的なもの)ではなく哲学的な方法で書きたいと思います:それはひどい獣ではありません-LSAですが、「私たちの集合農場」はどのような利益をもたらしますか? AI



AIはパターン認識、音声認識、空間での運動機能の実装など、相互にばらばらのまたは弱く重複する多くの領域で構成されていることは誰にとっても秘密ではありません。しかしAIの主な目標の1つは、理解のプロセスだけでなく、新しい情報の生成:無料または創造的な思考。 この点で、システムを教えるための方法を開発することではなく、思考のプロセス、その実装の可能性を理解することよりも疑問が生じます。



LSAの作業に基づいて、記事の冒頭で既に述べたように、私は今やめません(次の投稿で計画します)が、今はWikipedia 、できれば英語( LSA )さえ参照します。 しかし、この方法の主なアイデアを言葉で説明しようとします。



正式に:

LSAは、用語ごとの文書の因子空間を削減することにより、用語(単語、nグラム)間の潜在的な(隠された)連想意味関係を識別するために使用されます。 用語は、単語とその組み合わせの両方、いわゆるとすることができます。 n-gram、ドキュメントあり-理想的には、テーマ的に同質なテキストのセット、または任意の断片、たとえば段落に分割された望ましい膨大なテキスト(数百万語のフォーム)。



「指の上」:

潜在意味解析の主な考え方は次のとおりです。単語ベクトル(ベクトル=文、段落、文書など)で構成される元の確率空間で、2つの異なるベクトルの2つの単語間に関係が観察されない場合、与えられたベクトル空間の代数的変換の後、この依存関係が現れ、この依存関係の値がこれらの2つの単語間の連想意味的結合の強さを決定します。



たとえば、異なるソースからの2つの単純なメッセージを考えてみましょう(わかりやすくするための例です)。



ブログと広告の語彙はあまり重複していないため、「 バッテリー 」と「 バッテリー 」という単語には異なる重みが付けられます。たとえば、1つ目は小さく、2つ目は大きくなります。 これらのメッセージは、名前「 XXX 」(強い基準)に基づいてのみ組み合わせることができますが、バッテリーに関する詳細(弱い基準と呼びましょう)は消えます。

ただし、LSAを実行すると、「 アキュムレーター 」と「 バッテリー 」の重みが等しくなり、これらのメッセージは弱い基準に基づいて組み合わせることができますが、基準は製品にとって最も重要です。

したがって、LSAは、スペルは異なるが意味が近い単語を「一緒に引き寄せる」。



問題は、なぜこれが必要なのか、そしてここで連想とセマンティックの接続とAIが必要なのでしょうか? 歴史に目を向けましょう。



プラトンの時代から人類の偉大な思想家によって提起された質問の1つは、世界を知る能力の問題です。 20世紀に、有名なアメリカの言語学者Noam Chomskyは、いわゆるプラトンの問題を定式化しました。個人の知識の量が、彼の日常の経験から学ぶことができる以上に大きいのはなぜですか。 言い換えれば、イベントの比較的小さな変動のシーケンスから取得された情報を、潜在的に無限の数の状況に正しく使用および適合させるにはどうすればよいのでしょうか?



たとえば、子供の語彙は1日平均で3〜8語増えます。 同時に、言語学者が言うように、象牙質は、それ自身の厳密に定義された指示対象、または人間の言葉で常にあるわけではありません-すべての言葉が実際に存在するものまたは実行されたアクション(例えば、抽象的な概念、情報価値のない負荷を運ぶ言葉など)と相関があるわけではありません。

問題は、子供が単語の各新しい意味と他の意味との関係をどのように決定するか、新しい「意味」(表示)がなぜ形成され、どのように相互に関連するのか?



「セマンティック」メカニズムの動作は、概念的に分類またはクラスタリングのプロセスと比較できます。 このアプローチでは、初期概念またはプライマリクラスタ、それらの境界、および数を決定するという問題が発生します。



LSA、その変種(PLSA、GLSA)および類似のもの(LDA-悪名高い潜在的なディリクレの位置)を使用すると、単語間の連想と意味の関係をモデル化することができます。単語間のつながりの全体的なシステム。



つまり、私たちの脳内の言葉は概念に基づいて分類されるのではなく(棚クラスター上にあるのではなく)、それらの間の複雑なつながりのシステムを形成し、これらのつながりは多くの理由に応じて動的に変化する可能性があります:コンテキスト、感情、外界に関する知識、など。LSAなどのアルゴリズムは、「理解」の最も単純な要素をシミュレートする機会を与えてくれます。 しかし、彼らは脳がLSAの原理で機能することを証明する方法に私に反対するでしょう。 ほとんどの場合、これは必要ないためです。飛行機も飛行しますが、翼を振ることはありません。 LSAは、実用的な目的(インテリジェントシステム)と人間の認知機能のさらなる研究の両方で使用するための「思考」の最も単純なシステムをシミュレートできる方法の1つにすぎません。



LSAの明らかな欠点は、自然言語の単語の確率分布の異常(非ガウス性)です。 ただし、この問題は、サンプルを平滑化することで解決できます(たとえば、音声単語を使用すると、分布はより「正規」になります)。 または、いわゆる確率的LSAを使用します。 多項分布に基づくPLSA。

非構造化情報の処理に適用されるLSA(および同様の方法)のそれほど明白ではないその他の欠点には、方法自体の「霧」(特に、対角行列の特異値の数の選択)およびトレーニングテキストのバランスの問題はもちろんのこと、結果の解釈が含まれます



原則として、対角線の値の合計数の1〜2パーセント未満(SVD変換後、次の投稿でさらに詳しく)は、高品質のモデル構築のために残されます。 そして、実践が示すように、要因の数の増加は結果の悪化につながります。 しかし、対角値の総数の約10%に達すると、やはり1%で得られた結果と同様の急増があります。



ケースバランスは永遠の問題であり、今日まで良い解決策はありません。 したがって、彼女について黙っておくのが習慣です。



LSAの結果(およびDLA)の解釈も困難です:分析の結果として得られたトピックがどのトピックに含まれるかを人はまだ理解できますが、マシンは多数の優れた異なるシソーラスを使用しない限り、トピックを理解(注釈付け)できません。



したがって、LSAの複雑さと不透明さにもかかわらず、メッセージのセマンティクスをキャッチし、検索クエリの「意味」を一般化または拡張することが重要なさまざまなタスクに正常に使用できます。



この投稿はイデオロギー的に書かれているので(そしてなぜこれが必要なのですか?)、次の投稿を実用的なものに捧げたいと思います(そして、それはどのように機能しますか?)。



参照:

1. Landauer TK、Dumais STプラトンの問題の解決策:知識の獲得、誘導、および表現の潜在的意味分析理論//心理的レビュー。 1997.104。-P.211-240。

2. Landauer TK、Foltz P.、Laham D.潜在的セマンティック分析の紹介。 Discours Processes、25、1998-P.259-284。

3. www-timc.imag.fr/Benoit.Lemaire/lsa.html-認知科学と教育のための潜在的意味解析の読み物。 -LSAに関する記事とリンクのコレクション。

4. lsa.colorado.edu -LSAのモデリング専用のサイト。




All Articles