🕺 👃 🕐 データセット：ロシア語の単語と表現への関連付け 🚣🏽 ⏪ 👴🏽

最近、セマンティックの類似性を評価するために、分布セマンティクスの方法が広まっています。これらのアプローチは、多くの実用的なタスクで十分に実証されていますが、いくつかの厳しい制限があります。たとえば、言語的文脈は、感情的に極性のある単語に対して非常に似ていることが判明しました。したがって、word2vecの観点からの反意語は、しばしば近い言葉であることが判明します。また、word2vecは基本的に対称です。基本はテキスト内の単語の互換性であり、ベクトル間の類似性の一般的な尺度（コサイン距離）もオペランドの順序に依存しないためです。

私たちは、ロシア語の単語と表現との関連のデータベースをコミュニティと共有したいと考えています。このデータセットには、分散セマンティクスの欠点がありません。協会は感情的な極性をよく維持し、本質的に非対称です。記事で詳しく説明します。

なぜ分散セマンティクスは世界の絵の一部を「見えない」のですか？

記述言語は非常に高度に圧縮された情報です。それを解き、その本質を理解するために、私たちは追加のリソースを結び付けます-常識、世界の知識、文化的文脈。この情報の一部が利用できない場合、たとえば、新しい会社にいる場合や新しいサブジェクトエリアに没頭している場合、質問をしたり、追加の情報源を調べたりして、知識のギャップを埋めなければなりません。

コンピュータは（今のところ）そのような学習の機会を奪われています。したがって、NLP開発者は、テキスト内の世界に関する有用な情報の一部はそうではないことを理解することが重要です。さらに組み立てて接続する必要があります。

TL; DRまたはデータセットへのリンクを提供

実際、コミュニティと共有したいデータセットは、このような関連付けの基礎です。以下では、データの機能について説明しますが、待つことができない場合は、下にスクロールしてGithubに移動し、データベースをダウンロードしてください。

非対称連想マトリックス

分布モデルの別の迷惑な機能は、対称性です。すなわち椅子と家具は似ていますが、言葉の相互関係をどのように理解するのでしょうか？ベクトル上のクラスタリングは少し役立ちますが、この情報は元のモデルにはありません。

関連付けは非対称です。したがって、たとえば、LIMEは強力なフルーツ協会になります。しかし、反対は真実ではありません-ライム、それが単語フルーツに関連付けられている場合、それは最初からはほど遠いです。これは、言語におけるフルーツという言葉の一般的な役割と、ロシアの住民の現在の文化的文脈の両方によるものです。

したがって、鏡面反射とその定量的表現は、分布モデルなどの純粋に統計的なツールと区別する関連の興味深い属性です。

データセットでできること

私たちは、人間レベルで言語を理解するためにコンピューターを教えることにおいて、すべての言語研究の究極の目標を見ています。これは必ずしもマシンの思考能力（この概念に投資するものは何でも）を意味するものではなく、人が言語でどのように機能するかを巧みにエミュレートすれば十分です。

ロシア人にとってそれほど多くはない追加の情報源が、科学者や研究者がこの道を進むのに役立つことを願っています。以下に、私たちが十分に興味深いと思ったいくつかの研究分野を示します。

assoc2vecアルゴリズムを実装し、GloVeからのアイデアを基礎として、コンテキストの互換性を関連性に置き換えます。
たとえば、個々の単語の意味のクラスターを強調するために、個々の見出し語またはデータセット全体のクラスター関連。
ロシア語のシソーラスを自動的に構築する可能性を探ります。（観測：コンテキストとは異なり、関連付け行列は非対称です。）
性別協会のセクションを使用して、ケーススタディを実施します。
データセット内の関連付けと関係自体の興味深い視覚化を行います。（たとえば、関連付け間で可能なすべてのパスのマップ。）
ミラー結合の相対周波数の対称性/非対称性の性質を調査します。

これらはほんの少数のアイデアであり、実際にはさらに多くのアイデアがあります。実験を設計し、Habréまたは科学雑誌で結果を共有してください。

ダウンロードリンクとライセンス

データセット：ロシア語の単語と表現への関連付け

データセットはCC BY-NC-SA 4.0でライセンスされています。

データセット：ロシア語の単語と表現への関連付け

なぜ分散セマンティクスは世界の絵の一部を「見えない」のですか？

関連付けとは何ですか？

TL; DRまたはデータセットへのリンクを提供

非対称連想マトリックス

データセットでできること

ダウンロードリンクとライセンス

More articles: