ニューラルネットワークの代替としての形式化されたモデルの方法

統計的手法、特にニューラルネットワークの優位性は、私をこの詰め込みに追い込みます-はい、私はそれらをそのように分類します。 一方で、私は彼らに何も反対していませんが、同時に、明確なバイアスがあり、時にはニューラルネットワークでさえ、SVM、HMMなどよりも悪いが、人工知能の不明確な概念でほとんど識別されます 自然言語の処理の問題について、私は常に統計的手法とは対照的に言語手法の支持者でしたが、重大な欠点があります-機械学習と比較した手動モデリングの複雑さ。 あるいは、機械学習は言語手法にも適用できるのでしょうか?







この説明でこの質問に答えるつもりはありませんが、いくつかの考えを提供します。 主なアイデアはかなり前に思いついたものであり、特許番号2392660の形でフレーム化されており、その半分はほぼ通過していることに注意してください。 しかし、この特許で提示されているソリューションをわずかに拡張するとどうなりますか?







前に思ったこと



この特許は自然言語のセマンティックモデルを説明していますが、一部の変更により、画像のセマンティックモデルを作成できます。 したがって、共通部分を選択すると、アプリケーションの潜在的な分野が拡大します。







以前に発明したセマンティックモデルから始めます。 この場合、それは一般化された意味論ですが、存在論ではありません。 しかし、同時に、単語、文、段落、章などのようなマルチレベルは、自然言語の他のユニットと他のケースの他のユニットだけで、それについては後で詳しく説明します。 したがって、1つのレベルには以下が含まれます(以前に公開された記事からの引用):









今、それが何であるか、例えば自然言語についてもう少し。 同じフレーズを異なる単語で表現できるため、セマンティックモデルでは単語の分割は意味がありません。 同様の状況は複雑な文でもありますが、単純な文が理にかなっています。 条項-十分に確立された名前。 句内のセマンティックモデルを検討します。







語彙素とセマンティッククラスの概念も知られています。 多くの場合、トークンは単語に対応しますが、一般的な場合、比率は多対多です。 トークン自体はあいまいさを保持しますが、セマンティッククラスは特定の意味をキャプチャします。 セマンティッククラスのマークアップメソッドのレビューは今は行いません。必要に応じて、後で使用します。このトピックについてはすでに多くのことが書かれています。 セマンティッククラスの語彙素にはさまざまな名前があります。ここでは、それらを表示と呼びます。







それら(表示)をオブジェクトと述語の2つのタイプに分ける必要があります。 前者自体には特定の意味があり、後者には他の表記を追加する必要があります。ここでは、それらを(補完的な表記)アクタントと呼びます。







表記は依然として異なる単語で意味を表現する可能性の問題を解決しません。したがって、 「新しい同義語の説明辞書」の序文の基準と同じ著者の他の作品について、それらを基本と複合に分けます。 この問題を解決するために設計されているのは、複合表記を基本的な表記に分割することです。 実際、このレベル、つまり単純な文の中では、基本的な述語のセットは接続要素のセットになります。







純粋なテキストには、2種類のオブジェクト表示があります。つまり、図、図、数式、リストなどはなく、離散と連続であり、後者は主に数字です。 もちろん、基本的な表示オブジェクトのセットは無限になります。







少し先を見ると、複合表示には差動コンポーネントと特性コンポーネントが含まれることに注意してください。ここではそれらの名前を使用します。この場合、これらは唯一の単項演算子です。 それらは、論理的(完全)否定と言語的否定を区別することを可能にします。この場合、否定は差動コンポーネントのみに拡張されます。







この場合の分類子は、表示オブジェクトにのみ適用され、前述のセマンティッククラスになります。 並列階層の使用と上位ユニバーサルクラスの存在が想定されています。 階層自体は任意のセマンティッククラスで開始できますが、ユニバーサルセマンティッククラスに完全に関連しています。 互換性制約は、複合述語表示(以下を参照)にのみ適用され、特定のアクタントには、セマンティッククラスと階層の多くの組み合わせが含まれます。 つまり、特定のアクタの場合、制限には、セマンティッククラスと階層の組み合わせの有限セットで表される、潜在的に無限のセマンティッククラスのセットが含まれます。 この場合、適切なセマンティッククラスの1つに属するオブジェクトのみがアクタントになります。 基本述語のアクタントは常に普遍的なセマンティッククラスです。







多くの構成要素(以前に公開された記事からの引用):









また、接続要素はpredotate表示ですが、この場合は複合です。 非犠牲的要素は、複合オブジェクトにすることも、句全体またはフレーズに対応するフラグメントに拡張することもできます。主な要件は、すべてのアクタの表示です。







基本的な述語とオブジェクトを組み合わせた各複合述語は、詳細化の方向にそのアクタントのセマンティッククラスのサブセットに制限を課すことができます-これはもちろん、無限の制限のセットです。







複合述語を接続標準形で提示することをお勧めします。ここでは、選言項が単一の演算子を持ち、それらが微分的で特徴的であるかどうかを調べます。 彼らによると、言語的否定は論理的否定につながる可能性があります。 さらに、たとえば論理演算子によって結合された同一のオブジェクトの除外など、一般的な論理の単純化が可能であると想定されています。 置換ルールの2番目のグループは、対立するアクションを除外する可能性など、基本的な述語に関連します。たとえば、名詞の言語化やアクションの意味における動詞の実体化です。 ルールの3番目のグループは、基本述語とオブジェクトに同時に適用されます。これは、オブジェクトが特定のセマンティッククラスのセットに対応する場合、複合述語のメンバーの隣接する述語を除外する可能性を意味します。







他のセットに関するいくつかの言葉。 条項レベルでは、これらのセットを詳述するのは難しいと思います;唯一の明らかな事実は、それらが自然言語のテキストを構成するということです。 この場合、複合は上記のレベルのオブジェクトを示し、句を完全に表現して、このレベルの基本オブジェクトになります。







画像にはさまざまなアプローチが可能です。アトミック要素は、テクスチャの場合はフィルターまたはテクセルの特性の数値セットになりますが、他の場合にはオプションもあります。 残りのセマンティックモデルのいくつかの可能な解決策が続きます。







今何



さらに、機械学習のアプリケーションの元の質問に戻ることは理にかなっています。 オブジェクト、セマンティッククラスなどのディクショナリを手動でコンパイルすることは明らかに非常に時間がかかります。 しかし、自然言語の場合の最新の機械学習方法は、単語の一致だけでなく、ニューラルネットワークの場合は「ブラックボックス」のままである表示の統計的識別の問題も解決できます。 同時に、クラスタリングなどの他の統計的手法は、明確な結果を提供します。







もちろん、無限集合は理論的にはそのようなものに過ぎず、実際には、これは、構成を絶えず更新するために機械学習が必要であることを意味します。 これはセマンティックモデルであり、オントロジーモデルではないため、関連性を維持することもタスクの1つです。







次に、実行可能性に関するいくつかの考え。 たとえば、Yandexが提供するセマンティックベクトルを取り上げ、 テキストのコーパスの概念を思い出してください。 Yandexアルゴリズムとドキュメントの特定のセマンティックマトリックスのコンテキストでクエリの特定のコーパスがあると仮定しますが、私自身はすべての詳細にどのようなデータ構造が含まれているのか完全にはわかりません。 しかし、ドキュメントやクエリに含まれる単語に関するデータがあると思います。つまり、ドキュメントやクエリ内の単語の存在を従来の検索ツールと比較し、セマティックベクトルに基づいて関連性を比較することが可能です。 正確に使用するもの-単語、N-グラム、またはクラスタリングのための他のモデル-はかなり未解決の質問ですが、何らかの方法でクラスター分析に基づいてセマンティッククラスを強調表示することが可能です。







別の統計モデルは、単語間の接続の有向非対称グラフの形式で取得する必要があります。つまり、関連するクエリで1つの単語が別の単語をどの程度置き換えることができるかです。 基本的な表示は、明らかに、アークの顕著な非対称の重みを持ちます。 基本的な表示を識別するために取得されたグラフを走査するための特定のアルゴリズムは、特に大きな計算の複雑さを考慮すると、未解決の問題です。







前述のオプションは、以前に中間リンクとして提案されたニューラルネットワークを使用しますが、多くのクラスタリングアルゴリズム自体が反復的であることを考慮すると、単純化が確実に可能です。 今のところ、いくつかの質問を公開しておきます。







ポイントは何ですか



なぜこれがすべて必要なのかについてのいくつかの言葉。 概して、これらはニューラルネットワークのブラックボックスに対する明示的なモデルの典型的な利点です。 まず、これは最適化の機会です。 意味による検索がニューラルネットワークに基づいている場合、意味は明確な境界がないため、セマンティッククラスのマークアップであろうとベースの意味の比較であろうと、任意のステップに相当するものを最適化する可能性を著しく複雑にします。 第二に、既存の概念が更新されると、ニューラルネットワークの場合、変更のセットは解釈の観点からさらに不確実なままであり、再トレーニングの場合にデバッグが困難になります。 第三に、検索問題が、たとえば抽象化タスクに置き換えられた場合、初期意味解析後に検索問題の解決に直接関与するニューラルネットワークの部分を分離することの難しさも残ります。 私が間違っている場合-正しい。








All Articles