
しかし、好奇心は危険なステップ、つまり、感情、感情、感情など、内なる世界を含むコンピューターを私たちの世界に紹介しようとする試みに追い込まれます。
機械の意識を高め、感情、感情、価値判断を教え、マークアップを自由にダウンロードできる場所をどのように計画するのか
データ-記事を読む。
読みたくありません、結果を表示します!
リンクでボットのトレーニングをすぐに試すことができます:ボットを教える!
回答したい場合は、カードを作成すると結果が記憶されます。
配布セマンティクスの制限

機械はすべてのテキスト文化遺産を研究し、そこからすべてを学ぶことができるので、実際、コンピューターがテキストを理解する問題は何ですか? 単語よりも優れていると、word2vecの結果がわかります。
トークン「man」の場合:
女性0.650
結婚した0.594
中年0.542
対人0.538
...
妊娠中0.519
未経産0.516
女の子0.498
...
または「ホット」という言葉の場合:
暖かい0.510
...
寒い0.498
クール0.486
ロースト0.467
...
そして、非常にポジティブな感情のために、「喜び」:
賞賛0.715
...
inり0.609
怒り0.597
ホラー0.586
絶望0.584
...
スリル0.531
混乱0.523
困惑0.522
...
狂犬病0.472
...
または、「技術」の広い概念の場合:
...
テクノロジー0.569
アート0.451
職人技0.410
...
航空機の建設0.393
産業0.392
薬0.379
クラフト0.375
...
産業0.370
...
知識0.360
科学0.358
...
実際、これらの例は、コンテキストが提供する情報量を明確に示しています。 垂直方向と水平方向の接続を区別するために、完全に、全体的に、特定の反意語を繁殖するには十分ですが、明らかに十分ではありません。
したがって、多くの研究者が分散セマンティクスのアプローチ(read:word2vec)とともにシソーラスを使用することは非常に合理的です。 英語の場合、そのようなリソースはWordNet、ロシア語の場合はRuTez、ウィクショナリーです。
明らかなことはそれほど明白ではない

マシンに意味を説明するために大胆な試みをすることを決定するすべての研究者は、遅かれ早かれ、コンピューターにとって最も些細なことは完全に自明ではないという事実に出くわします。 さらに、子供向けの本にはそれらについての言葉さえ書かれていません。 世界は、さまざまな面で、視覚、聴覚、嗅覚、触覚、味覚など、知覚器官を通じて私たちに知られています。
次に、状況の非常に簡潔で簡潔なコンテキストを既に相互に通信します。これは、詳細な画像で単一の頭に展開されます。 さらに、個人ごとに、個人的な経験、文化的背景、性格特性、世界観に応じて、状況はさまざまな方法で明らかにされます。
感情、感情、経験
単語やフレーズには、説明辞書に記録されているものよりもはるかに多くの意味があります。 これは主に、評価やそれに伴う感情的な発色などの不安定で知覚しにくい特性によるものです。 たとえば、 重い拷問というフレーズは強い否定的な感情をもたらします。 そして、 暴力的な喜びというフレーズ-強いポジティブ。 贈り物ではありません -それは否定的なものですが、多すぎません。 そして、例えば、 名人はかなり強い肯定的な評価を持っています。
単語のこのような微妙な特性を修正することの難しさは、それらが非常に主観的であり、形式化が難しいことです。 戦略という言葉を考えてみましょう-それは肯定的ですか、それとも中立ですか? 否定的ではないということだけに同意できます。
それにもかかわらず、感情的で評価的な属性は、言語単位の不可欠な部分であり、人間のコミュニケーションにおいてかなり重要な役割を果たします。 したがって、機械をより人道的で楽しいコミュニケーションにしたいのであれば、これらの微妙な問題も吹き込まなければなりません。

どうする
このような辞書を手動で作成すると、単語だけでなくフレーズもマークアウトするため、非常に時間がかかります。 さらに、すべての評価は研究者の主観的な意見に強く結び付けられます。
良いニュースです! 私たちは2017年に住んでおり、インターネットやクラウドソーシングなどの素晴らしいテクノロジーにアクセスできます。 後者では、労力の問題と推定の主観性の両方に同時に対処できます。 もちろん、これは「病院の平均」の効果をもたらしますが、最初の近似では、この種の隆起に目をつぶることができます。
ボットを教える! -ロシア語の感情と意味のマークアップ
このアイデアは、言語プラットフォームのWord Mapに実装されています。 作業はいくつかの方向で行われます。
- 評価マークアップ。 タスクは、ポジティブ/ニュートラル/ネガティブの基準とサインの重症度の強さに従ってロシア語の単語と表現をマークアウトすることです。
- 感情的なマークアップ。 課題は、感情的な背景の強さと極性化によって、感情的に色付けされた言葉や表現をマークすることです。
- シソーラスのマークアップ。 タスクは、単語間の垂直および水平の接続をマークし、単語および式のセマンティックタグを配置することです。
- I. A.メルチュクによって提案された理論「意味⇔テキスト」による関係の実験的マークアップ :MAGN(コーヒー)=強いコーヒー、MAGN(フィーリング)=強いフィーリングなど
人間の労力を最大限に活用し、回答者に課題を面白くするために、分散セマンティクスアプローチと機械学習が適用されます。 意味カテゴリのシステムの基礎として、NKRYに使用される分類を採用しました。
参加する方法は?

私たちのイニシアチブの重要な目標は、ロシア語の不足している言語リソースを埋めることです。これらのリソースは、研究者、言語科学者、実務エンジニアが使用できます。 マークアップデータに基づいて、興味深い研究が行われ、科学記事、Habréに関する記事が作成され、エンジニアリング製品とオープンテクノロジーが登場することが期待されます。
次の方法でプロジェクトを支援できます。
- ボットトレーニングに参加します。 これは簡単で楽しいだけでなく、言語意識を高め、ロシア語の興味深い機能に気付くことができます。
- チャー、アリッシャー! ソーシャルネットワークでプロジェクトへのリンクを共有し、ブログまたはウェブサイトでそれについて伝えます。
- 建設的な批判は、自分の幻想の沼地に陥るのではなく、発展させるのに役立ちます。 時間内にコースを調整し、本当に役立つリソースを作成するには、ディスカッションが非常に重要です。 唯一の願い:批判-申し出。
- 意味論と認知言語学。 私たちは、セマンティクスとそのようなリソースの作成に対する最新のアプローチについての理解を深めようとします。 何を読むか、何を勉強するか、誰と相談するかをアドバイスまたは推奨します。
- 情報の普及。 このプロジェクトについて他にどこで話せるかについてのアドバイスが役立ちます。お気に入りの技術ブログ、オンライン技術雑誌、VK / Slack / Telegramのグループなどが考えられます。
オープンデータ
集計されたマークアップの結果は、ダウンロードしてCC BY-NC 4.0ライセンスの下で利用できます。
7月中旬または下旬までに最初の結果を受け取り、公開する予定です。すべてが回答者の活動に依存します。 何も見逃さないために、アスタリスクを付けてgithubにサブスクライブします。
ワードマップでデータを開く
お金はどこですか、ジン?
クラウドソーシングとクラウドファンディングを1つのプロジェクトに統合しようとするのは素晴らしいことです。これは、Planet.ruで資金調達キャンペーンを開始することで行いました。
私たちの世界と感情を理解するためにコンピューターを教えること

重要です。 私たちはすでにプロジェクトを行っており、私たち自身と利用可能なリソースで結果をもたらします。 約束されたとおり、収集されたデータは公開され、すべての来訪者がアクセスできるようになります。 唯一の問題は、マークアップのタイミングとボリュームです。 これで、3か月間で基本的な結果(最も頻繁に使用される単語10,000)が得られると予想され、フルボリュームのマークアップには約2年かかります。
追加のリソースは、結果を大幅に加速するのに役立ちます。 マークアップシステムの作成と改善に関与する開発者を支援し、新しいセマンティックカテゴリを追加し、調査を実施する必要があります。 また、プロジェクトを促進し、コンテストを実施するには資金が必要です。
キャンペーンに任意の金額を寄付することができます-同時に、全体的な成功への貢献があることがわかり、投資された各ルーブルはクールで有用なビジネスに費やされます。
お金がなくてもイニシアチブを支援できることを忘れないでください。 ソーシャルネットワークでのプロジェクトを気に入ってください。これは非常にシンプルで、完全に無料ですが、宣伝するのに非常に効果的な方法です。
そして覚えておいてください...
選択は常にあなた次第です。

株式会社スポンサー
あなたは確立されたビジネスを代表していますか、そしてロシアでオープンな言語データの開発に興味がありますか? プロジェクトの企業スポンサーになりましょう! プロジェクトページからの永遠のグラフィックリンク、数千人の視聴者向けの追加広告、コミュニティからの不敬な敬意を得ることができます。
私たちは投資したすべてのルーブルを信じられないほどの効率で投資し、大企業のプログラマーの月給数回分でプロジェクト全体を作成し、その結果を何千人もの研究者、科学者、エンジニアが使用します。
商用利用
商用利用またはビジネス固有のマークアップの質問については、kartaslov @ mail.ruまたはPMで記事の著者に連絡してください。
謝辞
第23回コンピューター言語と知的技術に関する国際会議であるDialogue 2017の主催者と参加者に深く感謝したいと思います。
この種のマークアップの必要性が明らかになったのは、イベントの舞台裏での議論であり、「センス⇔テキスト」の理論に従って関係の実験的マークアップを議論するために、志を同じくする人々のグループが集まった。 来年、収集されたデータに基づいて、ダイアログ評価の枠組み内で新しい興味深い競争を開始できることを願っています。