データセット:ロシア語の単語と表現への関連付け

最近、セマンティックの類似性を評価するために、分布セマンティクスの方法が広まっています。 これらのアプローチは、多くの実用的なタスクで十分に実証されていますが、いくつかの厳しい制限があります。 たとえば、言語的文脈は、感情的に極性のある単語に対して非常に似ていることが判明しました。 したがって、word2vecの観点からの反意語は、しばしば近い言葉であることが判明します。 また、word2vecは基本的に対称です。基本はテキスト内の単語の互換性であり、ベクトル間の類似性の一般的な尺度(コサイン距離)もオペランドの順序に依存しないためです。



私たちは、ロシア語の単語と表現との関連のデータベースをコミュニティと共有したいと考えています。 このデータセットには、分散セマンティクスの欠点がありません。 協会は感情的な極性をよく維持し、本質的に非対称です。 記事で詳しく説明します。



なぜ分散セマンティクスは世界の絵の一部を「見えない」のですか?



記述言語は非常に高度に圧縮された情報です。 それを解き、その本質を理解するために、私たちは追加のリソースを結び付けます-常識、世界の知識、文化的文脈。 この情報の一部が利用できない場合、たとえば、新しい会社にいる場合や新しいサブジェクトエリアに没頭している場合、質問をしたり、追加の情報源を調べたりして、知識のギャップを埋めなければなりません。



コンピュータは(今のところ)そのような学習の機会を奪われています。 したがって、NLP開発者は、テキスト内の世界に関する有用な情報の一部はそうではないことを理解することが重要です。 さらに組み立てて接続する必要があります。



関連付けとは何ですか?



誰もが子供の頃にゲームをしました。一人の人が言葉を呼ぶと、隣人が彼のアソシエーションを提供します。 その後、関連付けなどのために関連付けが作成されます。 他の人の連想を聞くだけでなく、彼の思考の経過、彼がどのように1つまたは別の言葉になったかを理解することもしばしば興味深いです。 これにより、私たちの考え方を少し垣間見ることができます。



別の方法で見ることができます。 生きている人々は、世界と言語について最も関連性の高い非圧縮情報を持っています。 これに関連するのは、言語のあいまいさを解決する驚くべき能力です。 すべての言語モデルは、不可避の損失を伴うこの情報の一部になります。 分布モデルは1つのスライスを提供し、関連付けにより異なる角度から見ることができます。 おそらく、もう少しボリュームのある言語の図への道は、両方のモデルの使用にあるのでしょう。



TL; DRまたはデータセットへのリンクを提供



実際、コミュニティと共有したいデータセットは、このような関連付けの基礎です。 以下では、データの機能について説明しますが、待つことができない場合は、下にスクロールしてGithubに移動し、データベースをダウンロードしてください。



非対称連想マトリックス



分布モデルの別の迷惑な機能は、対称性です。 すなわち 椅子と家具は似ていますが、言葉の相互関係をどのように理解するのでしょうか? ベクトル上のクラスタリングは少し役立ちますが、この情報は元のモデルにはありません。



関連付けは非対称です。 したがって、たとえば、LIMEは強力なフルーツ協会になります。 しかし、反対は真実ではありません-ライム、それが単語フルーツに関連付けられている場合、それは最初からはほど遠いです。 これは、言語におけるフルーツという言葉の一般的な役割と、ロシアの住民の現在の文化的文脈の両方によるものです。



したがって、鏡面反射とその定量的表現は、分布モデルなどの純粋に統計的なツールと区別する関連の興味深い属性です。



データセットでできること



私たちは、人間レベルで言語を理解するためにコンピューターを教えることにおいて、すべての言語研究の究極の目標を見ています。 これは必ずしもマシンの思考能力(この概念に投資するものは何でも)を意味するものではなく、人が言語でどのように機能するかを巧みにエミュレートすれば十分です。



ロシア人にとってそれほど多くはない追加の情報源が、科学者や研究者がこの道を進むのに役立つことを願っています。 以下に、私たちが十分に興味深いと思ったいくつかの研究分野を示します。





これらはほんの少数のアイデアであり、実際にはさらに多くのアイデアがあります。 実験を設計し、Habréまたは科学雑誌で結果を共有してください。



ダウンロードリンクとライセンス



データセット:ロシア語の単語と表現への関連付け



データセットはCC BY-NC-SA 4.0でライセンスされています。



All Articles