ボットを教える! -ロシア語の感情と意味のマークアップ

あらゆる側面から、明るいロボットの未来の見通しが私たちに注いでいます。 または、マトリックスとターミネーターの精神では、あまり明るくありません。 実際、機械はすでに自信を持って翻訳に対応しており、周囲の世界の顔や物体を認識し、音声を理解し合成することを学ぶ人よりも悪くなく、はるかに高速です。 かっこいい 間違った言葉!



しかし、コンピューターが私たちの世界をナビゲートすることを学んだという事実によって、問題は非常に複雑です。 彼らがそうすることはすべて、本質に立ち入らず、何が起こっているのかという意味を身に付けずに、類推によって行います。 たぶんそれは良いことかもしれません-私たちは魂のない機械の部族に捕らわれずに長生きします。



しかし、好奇心は危険なステップ、つまり、感情、感情、感情など、内なる世界を含むコンピューターを私たちの世界に紹介しようとする試みに追い込まれます。



機械の意識を高め、感情、感情、価値判断を教え、マークアップを自由にダウンロードできる場所をどのように計画するのか

データ-記事を読む。


読みたくありません、結果を表示します!



リンクでボットのトレーニングをすぐに試すことができます:ボットを教える!



回答したい場合は、カードを作成すると結果が記憶されます。



配布セマンティクスの制限



分散セマンティクス、word2vec、ロボット、コーヒーに関するミーム



機械はすべてのテキスト文化遺産を研究し、そこからすべてを学ぶことができるので、実際、コンピューターがテキストを理解する問題は何ですか? 単語よりも優れていると、word2vecの結果がわかります。



トークン「man」の場合:

女性0.650

結婚した0.594

中年0.542

対人0.538

...

妊娠中0.519

未経産0.516

女の子0.498

...


または「ホット」という言葉の場合:

暖かい0.510

...

寒い0.498

クール0.486

ロースト0.467

...


そして、非常にポジティブな感情のために、「喜び」:

賞賛0.715

...

inり0.609

怒り0.597

ホラー0.586

絶望0.584

...

スリル0.531

混乱0.523

困惑0.522

...

狂犬病0.472

...


または、「技術」の広い概念の場合:

...

テクノロジー0.569

アート0.451

職人技0.410

...

航空機の建設0.393

産業0.392

薬0.379

クラフト0.375

...

産業0.370

...

知識0.360

科学0.358

...


実際、これらの例は、コンテキストが提供する情報量を明確に示しています。 垂直方向と水平方向の接続を区別するために、完全に、全体的に、特定の反意語を繁殖するには十分ですが、明らかに十分ではありません。



したがって、多くの研究者が分散セマンティクスのアプローチ(read:word2vec)とともにシソーラスを使用することは非常に合理的です。 英語の場合、そのようなリソースはWordNet、ロシア語の場合はRuTez、ウィクショナリーです。



明らかなことはそれほど明白ではない



意味論についてのミーム、ライオンキング



マシンに意味を説明するために大胆な試みをすることを決定するすべての研究者は、遅かれ早かれ、コンピューターにとって最も些細なことは完全に自明ではないという事実に出くわします。 さらに、子供向けの本にはそれらについての言葉さえ書かれていません。 世界は、さまざまな面で、視覚、聴覚、嗅覚、触覚、味覚など、知覚器官を通じて私たちに知られています。



次に、状況の非常に簡潔で簡潔なコンテキストを既に相互に通信します。これは、詳細な画像で単一の頭に展開されます。 さらに、個人ごとに、個人的な経験、文化的背景、性格特性、世界観に応じて、状況はさまざまな方法で明らかにされます。



感情、感情、経験



単語やフレーズには、説明辞書に記録されているものよりもはるかに多くの意味があります。 これは主に、評価やそれに伴う感情的な発色などの不安定で知覚しにくい特性によるものです。 たとえば、 重い拷問というフレーズは強い否定的な感情をもたらします。 そして、 暴力的な喜びというフレーズ-強いポジティブ。 贈り物ではありません -それは否定的なものですが、多すぎません。 そして、例えば、 名人はかなり強い肯定的な評価を持っています。



単語のこのような微妙な特性を修正することの難しさは、それらが非常に主観的であり、形式化が難しいことです。 戦略という言葉を考えてみましょう-それは肯定的ですか、それとも中立ですか? 否定的ではないということだけに同意できます。



それにもかかわらず、感情的で評価的な属性は、言語単位の不可欠な部分であり、人間のコミュニケーションにおいてかなり重要な役割を果たします。 したがって、機械をより人道的で楽しいコミュニケーションにしたいのであれば、これらの微妙な問題も吹き込まなければなりません。







どうする



このような辞書を手動で作成すると、単語だけでなくフレーズもマークアウトするため、非常に時間がかかります。 さらに、すべての評価は研究者の主観的な意見に強く結び付けられます。



良いニュースです! 私たちは2017年に住んでおり、インターネットやクラウドソーシングなどの素晴らしいテクノロジーにアクセスできます。 後者では、労力の問題と推定の主観性の両方に同時に対処できます。 もちろん、これは「病院の平均」の効果をもたらしますが、最初の近似では、この種の隆起に目をつぶることができます。



ボットを教える! -ロシア語の感情と意味のマークアップ



このアイデアは、言語プラットフォームのWord Mapに実装されています。 作業はいくつかの方向で行われます。





人間の労力を最大限に活用し、回答者に課題を面白くするために、分散セマンティクスアプローチと機械学習が適用されます。 意味カテゴリのシステムの基礎として、NKRYに使用される分類を採用しました。



参加する方法は?







私たちのイニシアチブの重要な目標は、ロシア語の不足している言語リソースを埋めることです。これらのリソースは、研究者、言語科学者、実務エンジニアが使用できます。 マークアップデータに基づいて、興味深い研究が行われ、科学記事、Habréに関する記事が作成され、エンジニアリング製品とオープンテクノロジーが登場することが期待されます。



次の方法でプロジェクトを支援できます。





オープンデータ



集計されたマークアップの結果は、ダウンロードしてCC BY-NC 4.0ライセンスの下で利用できます。



7月中旬または下旬までに最初の結果を受け取り、公開する予定です。すべてが回答者の活動に依存します。 何も見逃さないために、アスタリスクを付けてgithubにサブスクライブします。



ワードマップでデータを開く


お金はどこですか、ジン?



クラウドソーシングとクラウドファンディングを1つのプロジェクトに統合しようとするのは素晴らしいことです。これは、Planet.ruで資金調達キャンペーンを開始することで行いました。



私たちの世界と感情を理解するためにコンピューターを教えること






重要です。 私たちはすでにプロジェクトを行っており、私たち自身と利用可能なリソースで結果をもたらします。 約束されたとおり、収集されたデータは公開され、すべての来訪者がアクセスできるようになります。 唯一の問題は、マークアップのタイミングとボリュームです。 これで、3か月間で基本的な結果(最も頻繁に使用される単語10,000)が得られると予想され、フルボリュームのマークアップには約2年かかります。



追加のリソースは、結果を大幅に加速するのに役立ちます。 マークアップシステムの作成と改善に関与する開発者を支援し、新しいセマンティックカテゴリを追加し、調査を実施する必要があります。 また、プロジェクトを促進し、コンテストを実施するには資金が必要です。



キャンペーンに任意の金額を寄付することができます-同時に、全体的な成功への貢献があることがわかり、投資された各ルーブルはクールで有用なビジネスに費やされます。



お金がなくてもイニシアチブを支援できることを忘れないでください。 ソーシャルネットワークでのプロジェクトを気に入ってください。これは非常にシンプルで、完全に無料ですが、宣伝するのに非常に効果的な方法です。



そして覚えておいてください...
選択は常にあなた次第です。



画像



株式会社スポンサー



あなたは確立されたビジネスを代表していますか、そしてロシアでオープンな言語データの開発に興味がありますか? プロジェクトの企業スポンサーになりましょう! プロジェクトページからの永遠のグラフィックリンク、数千人の視聴者向けの追加広告、コミュニティからの不敬な敬意を得ることができます。



私たちは投資したすべてのルーブルを信じられないほどの効率で投資し、大企業のプログラマーの月給数回分でプロジェクト全体を作成し、その結果を何千人もの研究者、科学者、エンジニアが使用します。



商用利用



商用利用またはビジネス固有のマークアップの質問については、kartaslov @ mail.ruまたはPMで記事の著者に連絡してください。



謝辞



第23回コンピューター言語と知的技術に関する国際会議であるDialogue 2017の主催者と参加者に深く感謝したいと思います。



この種のマークアップの必要性が明らかになったのは、イベントの舞台裏での議論であり、「センス⇔テキスト」の理論に従って関係の実験的マークアップを議論するために、志を同じくする人々のグループが集まった。 来年、収集されたデータに基づいて、ダイアログ評価の枠組み内で新しい興味深い競争を開始できることを願っています。



参照資料



  1. ボットを教える! ワードマップ上
  2. RusVectōrēs:ロシア語用の既製のword2vecモデル
  3. ロシア語シソーラスRuTez(RuWordNet)
  4. ウィクショナリー
  5. NKRJの字句および意味情報について



All Articles