私たちは、ロシア語の単語と表現との関連のデータベースをコミュニティと共有したいと考えています。 このデータセットには、分散セマンティクスの欠点がありません。 協会は感情的な極性をよく維持し、本質的に非対称です。 記事で詳しく説明します。
なぜ分散セマンティクスは世界の絵の一部を「見えない」のですか?
記述言語は非常に高度に圧縮された情報です。 それを解き、その本質を理解するために、私たちは追加のリソースを結び付けます-常識、世界の知識、文化的文脈。 この情報の一部が利用できない場合、たとえば、新しい会社にいる場合や新しいサブジェクトエリアに没頭している場合、質問をしたり、追加の情報源を調べたりして、知識のギャップを埋めなければなりません。
コンピュータは(今のところ)そのような学習の機会を奪われています。 したがって、NLP開発者は、テキスト内の世界に関する有用な情報の一部はそうではないことを理解することが重要です。 さらに組み立てて接続する必要があります。
関連付けとは何ですか?
誰もが子供の頃にゲームをしました。一人の人が言葉を呼ぶと、隣人が彼のアソシエーションを提供します。 その後、関連付けなどのために関連付けが作成されます。 他の人の連想を聞くだけでなく、彼の思考の経過、彼がどのように1つまたは別の言葉になったかを理解することもしばしば興味深いです。 これにより、私たちの考え方を少し垣間見ることができます。
別の方法で見ることができます。 生きている人々は、世界と言語について最も関連性の高い非圧縮情報を持っています。 これに関連するのは、言語のあいまいさを解決する驚くべき能力です。 すべての言語モデルは、不可避の損失を伴うこの情報の一部になります。 分布モデルは1つのスライスを提供し、関連付けにより異なる角度から見ることができます。 おそらく、もう少しボリュームのある言語の図への道は、両方のモデルの使用にあるのでしょう。
TL; DRまたはデータセットへのリンクを提供
実際、コミュニティと共有したいデータセットは、このような関連付けの基礎です。 以下では、データの機能について説明しますが、待つことができない場合は、下にスクロールしてGithubに移動し、データベースをダウンロードしてください。
非対称連想マトリックス
分布モデルの別の迷惑な機能は、対称性です。 すなわち 椅子と家具は似ていますが、言葉の相互関係をどのように理解するのでしょうか? ベクトル上のクラスタリングは少し役立ちますが、この情報は元のモデルにはありません。
関連付けは非対称です。 したがって、たとえば、LIMEは強力なフルーツ協会になります。 しかし、反対は真実ではありません-ライム、それが単語フルーツに関連付けられている場合、それは最初からはほど遠いです。 これは、言語におけるフルーツという言葉の一般的な役割と、ロシアの住民の現在の文化的文脈の両方によるものです。
したがって、鏡面反射とその定量的表現は、分布モデルなどの純粋に統計的なツールと区別する関連の興味深い属性です。
データセットでできること
私たちは、人間レベルで言語を理解するためにコンピューターを教えることにおいて、すべての言語研究の究極の目標を見ています。 これは必ずしもマシンの思考能力(この概念に投資するものは何でも)を意味するものではなく、人が言語でどのように機能するかを巧みにエミュレートすれば十分です。
ロシア人にとってそれほど多くはない追加の情報源が、科学者や研究者がこの道を進むのに役立つことを願っています。 以下に、私たちが十分に興味深いと思ったいくつかの研究分野を示します。
- assoc2vecアルゴリズムを実装し、GloVeからのアイデアを基礎として、コンテキストの互換性を関連性に置き換えます。
- たとえば、個々の単語の意味のクラスターを強調するために、個々の見出し語またはデータセット全体のクラスター関連。
- ロシア語のシソーラスを自動的に構築する可能性を探ります。 (観測:コンテキストとは異なり、関連付け行列は非対称です。)
- 性別協会のセクションを使用して、ケーススタディを実施します。
- データセット内の関連付けと関係自体の興味深い視覚化を行います。 (たとえば、関連付け間で可能なすべてのパスのマップ。)
- ミラー結合の相対周波数の対称性/非対称性の性質を調査します。
これらはほんの少数のアイデアであり、実際にはさらに多くのアイデアがあります。 実験を設計し、Habréまたは科学雑誌で結果を共有してください。
ダウンロードリンクとライセンス
データセット:ロシア語の単語と表現への関連付け
データセットはCC BY-NC-SA 4.0でライセンスされています。