自然言語処理-ロシア語ではどうなるのか?

私たちの周り-電子形式の膨大な量のテキストデータ、それら-人間の知識、感情、経験。 そしてまた-スパム、これは有用な情報であると主張し、あなたは一方を他方から分離できる必要があります。 人々は母国語を知らない人々とコミュニケーションをとりたいと思っています。 また、携帯電話/テレビ/スマートホームボイスを制御します。 これらはすべて、自然言語処理(NLP)メソッドの需要と迅速な開発を提供します。



画像








6月2日、Stepikプラットフォームでオンラインコース「自然言語処理入門」を開始します。 これは私にとって全く新しい形式であり、ロシア語の処理、これに利用できるデータとリソースに焦点を当てた応用言語学の最初のオンラインコースでもあります。 コースの10の講義は、基本的な言語ツールと一般的なアプリケーションに専念しています。 コースの重要な要素は、5つの実践的な演習です。



やる気



「情報検索の紹介」という本のロシア語版を準備していたとき、多くの同僚は懐疑的でした。本当に必要な人は無料の電子版を英語で読むでしょう。 教科書が出版された後、UrFU、ShAD、ITMO、サンクトペテルブルク州立大学で教科書に基づいたコースを教え、翻訳が大いに役立つことを確認しました。



多くのNLPトレーニング資料がオンラインで入手できます。 Courseraにのみ、この分野の有名な科学者による3つの優れたコースがありました(たとえば、 Dragomir Radevからの最後のコース)。 しかし、基本的に彼らは英語の処理に焦点を当てています。 NLPの場合、「ローカライズされた」トレーニング資料の必要性は、情報検索よりもさらに顕著です。 まず、自動処理に影響する言語の機能があります。 第二に、そしてさらに重要なこととして、これらの方法は利用可能なツールと注釈付きデータに大きく依存しています。 そして最後に、言語の習熟度は、開発された方法とその評価に大きく影響する可能性があります(たとえば、現在、私はユーモアの自動分析に取り組んでおり、ロシア語のデータを使用すると、すべてが英語よりもはるかに楽しいです;)



さらに、MOOC形式で試してみたいとずっと思っていました。



コースの構造と内容



コースは10の講義で構成されています。 そのうちの4つはツールに専念-形態学的および構文解析、言語モデルと単語の意味のモデリング、6つは一般的なアプリケーション-情報および質問応答検索、自動抽象化、調性分析、情報抽出および機械翻訳です。 各講義の構造は多かれ少なかれ標準です-問題の声明、方法の説明、利用可能なツールとデータセットの概要、評価。 最小限の数学とアルゴリズムの過程で、方法とその評価に重点が置かれます。



すべての興味深いトピックを1つのオンラインコースにまとめることは非常に困難です。さらに、コースに含めるほどすべての分野を理解しているわけでもありません。 たとえば、言語処理タスクにおける深層学習の最近の成功について簡単に説明します。 このコースには、テキストの分類、タイプミスの修正、対話システムなどの人気のあるトピックは含まれていませんでした。 このコースは実用的なオリエンテーションを備えており、言語理論や言語現象の詳細な分析はほとんどありません。



コースの重要な部分は、5つの実践的な演習です。 学生は、形態素解析、テキストの調性の決定、ドキュメントの自動抽出、名前付きエンティティの抽出、機械翻訳の方法を独自に実装することが推奨されます。 各タスクにより、「オフセット用」の単純なソリューションの実装が可能になります(機械翻訳を除き、これは「アスタリスク付き」タスクです)。 学生がシンプルなソリューションを改善の「出発点」として、また「ゴールドスタンダード」への一貫したアプローチとして考えることを本当に期待しています。 コースに締め切りはありません-誰でも快適なトレーニングのペースを選択できます。



このコースの対象者は?



コースの対象読者は、自然言語処理の問題を解決するための規律と実践的なスキルの一般的な理解を得たいすべての人です。 学生は、線形代数、確率理論、数学的統計、機械学習の基本的な知識と、プログラミングスキル(実用的なタスクを解決するために必要)を持っていることをお勧めします。 特別な言語知識は必要ありません。それは十分な「学校レベル」になります。 このコースが、自動言語処理方法の復習として(コンピューターではない)言語学者にも興味を持つことを願っています。



準備段階の注意事項



実質的な結論と評価は、聴衆からのフィードバックに基づいてのみ行うことができますが、今のところ、準備プロセスについていくつかの印象を共有できます。



録音で自分の声を好む人はほとんどいません。さらに、発音や顔の表情/ジェスチャーの問題が明らかになります。 さらに、記録上、私は非常にゆっくり話をしているように思えました。 映像を見ると、約20年前、学生ラジオでSoundTrackプログラムを簡単に実行し、この分野での自分の不適当さに気付いたことを思い出しました。 演技/アナウンサー経験のない完璧主義者は、これは困難です。 私はコンテンツに集中しようとし、x1.7で録画を見ました。



レコーディングの過程で、私は直接的な反応がなければ、微妙なニュアンスや微妙なことについて話すことは避けていることに気付きました。これらの詳細は通常私の興味/経験に関連しており、誰もが興味/必要とされているかどうかはわかりません。 これはおそらく、以前は考えもしなかった大量コースの副作用です。 カメラで冗談を言うのも難しいです:)



別の問題は、自動検証による実用的なタスクの開発でした。 コースの目的はすべて「カグルスタイル」です。 入力データ-出力データ。 すべての興味深いタスクについて、自動検証の「ゴールドスタンダード」を見つけることはできませんでした。 それにもかかわらず、5つの関連する現実的なタスクを構成することができました(たとえば、自動参照タスクのために特別なデータセットを準備する必要がありました)。 おそらく、トレーニングは講義ではなくタスクから始める価値がありました。



謝辞



オンラインコースの作成は、 V。Potanin Charity Fundから助成金によってサポートされました。 Stepikはコースをホストしただけでなく、ビデオの記録と編集も担当しました。 Cyril Mishchenkoは、実際のタスクのためにデータを準備し、自動検証コードを実装しました。 タスクは、 NKRJYandeximhonetOpenCorporaが提供するデータを使用しました 。 抄録の自動評価のためのデータは、Ekaterina Pirozhok、Irina Ermolina、Mikhail Kazarinによって作成されました。 テストモードでは、タスクはDmitry KuznetsovとOlga Annenkovaによって解決されました。 ヒントと推奨事項を備えたコースを準備する過程で、マキシム・ハリロフ、アレクセイ・ゾブニン、ビクター・ボチャロフ、オルガ・ミトレニーナが私を大いに助けてくれました。 借りたスライドの大部分はダンジュラフスキーフィリップケーンが所有しています。 この記事の写真は@data_monstersのものです。 どうもありがとうございました!



All Articles