新年のデータセット:ロシア語のオープンセマンティクス

新年は奇跡と贈り物の時です。 自然が私たちに与えた主な奇跡は、もちろん、自然言語と人間の言葉です。 そして、この現象のすべての研究者に新年の贈り物を作り、ロシア語のオープンセマンティクスに関するデータセットを共有したいと考えています。



この記事では、意味のトピックについて少し議論し、オープンなセマンティックマークアップを作成する必要性にどのようになったのか、この素晴らしい作品の現在の結果と将来の方向性について話します。 そしてもちろん、データセットへのリンクを提供します。このリンクをダウンロードして、実験や研究に使用できます。



TL; DR



ハブラスタチで「ボットを教えて! -ロシア語の感情とセマンティクスをマークアップする」私たちは、ロシア語のオープンなセマンティックマークアップを作成するための多くの作業の開始について話しました。 これで最初の結果が得られ、コミュニティと共有したいと考えています。



まず第一に、私たちは物質世界のオブジェクトをマークアップすることに焦点を当てただけでなく、言葉やロシア語の表現を感情的に評価する色付けを行いました。 これらは、実用的な観点から最も価値のある2つであり、セマンティクスのフィールドをマークする観点から最も理解しやすい2つです。



Githubへのリンク: ロシア語(データセット)のオープンセマンティクス



セマンティクスと意味について



意味論または意味の科学は一般に、言語学の最も難しい部分の1つとして認識されています。 意味の概念でさえも定義するのがそれほど簡単ではないという事実を考えると、これは驚くことではありません。 (指で何がポイントか説明してみてください?)



コンピューターの方法で分析するテキストには、これらの意味がまったくありません。 すなわち テキストは特定のアウトラインを設定しますが、本当の意味は、人間がテキストを読んだ瞬間にのみ実現します。脳が心の中に書かれているものの精神的なイメージまたは精神的なシーンを形成するときです。



単語の意味は、単なる関係ではない何かに基づいていない場合、フィクション、空のフレーズです。 「ムートン」( フランス語の 「ラム」と「ラム」)という言葉の意味について、そして一方で「ラム」と「ラム」という言葉の意味について話すことができます。つまり、これらの単語がどの言語外の現実のどの部分に属しているのかということです。



Morkovkin V.V.表意辞典。 -M .:モスクワ州立大学、1970年。


これは、マシンにとって解決不可能な困難です。 それら自体は決して人間の言語の通訳者を持たず、通訳を必要としないタスクのみを効果的に解決できますが、その上で計算されたテキストと統計のレベルで解決できます。



厳密に言えば、マークアップされたテキストの配列の上に機械学習を適用すると(たとえば、感情によって)、マークアップがこの特定のタスクのセマンティクスになります。 ここでの問題は、そのようなマークアップの解像度が低いことと、獲得した「知識」を一般化して根本的に新しいタスクに適用できないことです。



はっきり見せます。 コンピューターの場合、言語は次のとおりです。



Ezokmetdzafpäezが成長し、lemagiruyu dvozhlodz、zn それが葬儀の病気、hezophezhednos yagyneとerysipelas ebbensifloe、ze gatachi、nozomie lezmuzezとzemzmezmezatsii、meschaera la umofle zendzaとfykhidpellich kofzemzinoであるかどうかを認めました。



自我klebshgafryaeg brya nasima melaslesyny shrokhmoshg、g.t. shana omi mi fotoy nele me odrabaeg imgelklegagolon zherofezhestopo yachty and noheg evvetgifmo forest be gemerizing、toogo meleduyug imgelklegatsii、and there are woods and olofme getshga and fyzhishremmiz kofelgzepo。



(母音が保存され、子音が同様の文字グループ内に混在する上記の段落のいくつかのバリエーション。)



指定されたフラグメントで、さまざまな統計、互換性、n-gram、終了システムなどを計算できます。 抽出された統計情報を考慮に入れて、質問応答システムをシミュレートするアルゴリズムを構築することができます。 質問に最もよく似た文章をテキストで見つけたり、いくつかの断片から回答を作成したりすることもできます。 大量のデータが存在し、高品質のモデルの構築が必要な場合、そのようなシステムは人を非常によく模倣できます。



しかし、例えば、結論を必要とする質問に答えるなど、世界の言語以外の知識で操作する必要がある場合、意味のある実際の作業は、純粋に統計的なパラダイムでは実行不可能です。



私たちの仕事の本質は、世界の単純化されたモデルを作成し、このモデルの観点から言語をマークアップすることです。 すなわち 言語の要素を言語外の現実に結び付けてみてください。



NB公平に言うと、人々は古代ローマに戻って意味の類似性によって語彙をグループ化する可能性に関心があることに注意する必要があります。 問題の歴史を調べることが興味深い場合は、V。Morkovkinの本「Ideographic Dictionaries」を参照することをお勧めします。この本では、第2章で詳細な歴史的エクスカーションが行われます。



私たちがしていること:哲学



人間が住んでいる世界は非常に複雑で多様です。 特に私たちの頭の中にある世界-感情、感情、感情、抽象的な概念、創造性、倫理、道徳。



無形の球体のセマンティクスは、長年にわたって著名な科学者の集団全体に関与しています。 私たちはこれらの領域に意図的に適合しません。 またね より正確に説明しますが、そのような詳細ではなく、そもそもではありません。



基本的に、私たちの焦点は、物質世界と、評価と感情に関する無形の世界の小さな部分にあります。 これは主に、NLUのほとんどのアプリケーションがこれらの領域にあり、したがって実用的な観点から最も興味深いという事実によるものです。 第二に、よりシンプルで明確なものから始める必要があり、この観点から材料球を選択することは非常に正当化されます。



もちろん、感情の領域は無形の世界ですが、人間の精神のより重要な側面を見つけることは困難です。 さらに、これは有用な実用的なタスクに直接関連しています-テキストの調性の分析。 さらに、書かれた言語は感情に関する情報を大きく奪われています。 たとえば、極感情のコンテキストは非常に対称的であることが多く、純粋に統計的な方法では、感情的な正電荷と負電荷を持つ単語を区別することはできません。



私たちが行うこと:詳細



私たちはすべての単語を2つの大きなクラスに分けます-物理的なオブジェクト/現象とその他すべてです。 最後の部分は脇に置いておきます。二番目に興味があります。



物理エンティティは、生物、場所、オブジェクト、および物質の4つの大きなクラスに分類されます。



天気と食べ物は、人間の心のどこか別の場所を占めています。これらは、以前のどのクラスにも当てはまりません。 したがって、それらを個別にサイズ変更することは理にかなっています。



作業の第1段階の2番目の主要な部分は、言語標識の感情評価要素のマークアップです。 ここでは、すべてのエンティティ(有形および無形)は、ポジティブ、ネガティブ、ニュートラルの3つのクラスに分類されます。 極性クラスでは、推定電荷強度が推定されます。 ただし、評価は別の大きな会話のトピックであり、あまりにも幻想的でとらえどころのないものですが、ここでは人間の創意工夫が状況から抜け出す方法を見つけることができます。



2つの重要な原則(仮定)



マークアップする際に遵守する2つの重要な原則は、世界の絵の素朴さとコンテキストの拒否です。



私たちを取り巻く世界は、私たちの知識によって変わる可能性があります。 より正確には、世界は同じままである可​​能性が最も高いのですが、私たちの認識、したがって、オブジェクトと現象の分類システムは柔軟なものです。 そのため、たとえば、生物学的分類によると、スイカはベリーであるということを知って驚いています。 しかし、どのようなベリーのように思えます-それはとても巨大です。 そして、多くの科学システムのトマトは果物であり、私たちの日常の見方にも、食料品店の窓の表示の順序にも対応していません。 それにもかかわらず、世界の日常的または素朴な画像を正確にキャプチャすることが重要です。



2番目の重要なマークアップの原則は、コンテキストを放棄することです。 言語単位は、特定の平均的で最も頻繁で明白な意味で、音声の流れや自然環境とは別に考慮されます。 時々横向きになります。 したがって、たとえば、算術演算として解釈される場合、マイナスという単語は完全にニュートラルになります。 しかし、欠乏の同義語として、それは否定的な意味合いを獲得します。 しかし、一般的に、システムを適切に構築し、統計の法則を無視しない場合、そのような粗さは機械学習法のレベルで平滑化する必要があります。



コンテキストの拒否は、少なくとも、未解決の決定です。 しかし、最初の段階では、3つの理由でこれを行うことが重要でした。 まず、コンテキストを考慮すると、マークアップの複雑さとボリュームが大幅に増加し、まったく明らかな利点がありません。 第二に、コンテキストを機械可読形式に修正する方法と、データを使用するときにトークンを特定の値にアタッチする方法に関する永遠の質問です。 そして第三のポイント。 言語内の単語の各意味には独自の使用頻度があり、これもトピックごとに異なります。 これは、説明辞書の値がめったに平均リターで記録されないパラメーターです。 めったに使用されない値で、マシンに完全にアクセスできない場合。



科学者としてではなく、エンジニアとして私たちが下した決定は、最初の実験の結果によって正当化されることが判明しました。実際にほとんどの場合、機械学習法は、さまざまなコンテキストでの成績の平均化を実際に補うことができます。



追加のマークアップ



作業の最初の段階では、実用的な観点から最も重要な領域、つまり物質世界と言語記号の感情評価要素をカバーするように試みました。 しかし、マークアップの主な方向と並行して、いくつかの実験スライスを起動しようとしました。これにより、将来の作業をより有意義に計画できるようになります。





現時点では詳細を説明しません。 より詳細な説明はリポジトリにあります。



今後の計画



近い将来、次の分野で作業を開始する予定です。





しかし、私たちの世界は、具体的でより遠い計画の範囲に限定されていません。





実験のアイデアまたはデータセットで何ができるか



伝統的に、私たちはデータを共有するだけでなく、私たちにとって注目に値すると思われる既製の実験や研究分野のアイデアも提供します。





(同じリポジトリ内の)セマンティクスと関連付けによってデータセットを組み合わせることで、興味深い結果を得ることができます。 調性によってマークアップを改良するために、すでにこれを行っています。 データセットは参照によりリポジトリの隣にあります。



ケースに応じた世界から-データセットは有用です



作業中に明示的なセマンティックマークアップが必要であったが、手元になかった場合は、コメントに覚えて記述してください。 これは、データセットのさらなる発展を考える上で貴重な資料となります。



ダウンロードリンクとライセンス



データセット:ロシア語のオープンセマンティクス



データセットはCC BY-NC-SA 4.0でライセンスされています。



All Articles