GoToサマースクールのデータ分析と機械学習の方向性の一環として、助成金の競争を発表しています。 学童と学部生を招待します。 タスクとして、 Quoraの kaggleコンペ が提案されます。このコンペでは 、重複する質問を決定するためのモデルを構築する必要があります。
カットの下には、問題の状態の説明、有用な資料へのリンク、および簡単な解決策の例があります。
本質的に同一の質問を識別するためのモデルは、たとえば、フォーラム、技術サポート、オンライン相談などで使用でき、同じトピックを作成したり、一般的な質問に自動的に回答したりしません。 実際、非常に便利な話です。
一次近似まで、この問題はバイナリ分類の定式化で解決できます。それらが重複しているかどうかをいくつかの質問から予測することを学びます。 次に、機械学習の標準設定-教師とのトレーニングが始まります。 トレーニング用にマークされたペアは、コンテストの主催者から提供されました。2つのステップを完了するだけで十分です。質問のペアでサインを生成し、それらを選択して分類子をトレーニングします。
最も簡単な解決策の1つは、質問がほぼ同じ単語( bag of wordsモデル) で構成されている場合、質問は重複していると考えることです。 次に、1つの質問の指示的な記述は、単語の出現頻度からのベクトルです。
このような機能とロジスティック回帰を使用したソリューションの例については、 こちらをご覧ください 。
ソリューションのさらなる開発は、あなたの想像力によってのみ制限されます。
- テキストをさまざまな方法で前処理できます(頻度の高い単語を捨てる、ステミングを使用する)。
- 周波数ではなくtfidfを使用して、事前に訓練されたword2vecから単語表現を取得します。
- ツリー、これに関するニューラルネットワークを教え、モデルのアンサンブルを構築します。
その他の例を以下に示します。
- Kaggle でのこのコンテストのフォーラム 、
- NLTKライブラリの機能の説明 、
- 私たちの学校からの機械学習に関する入門資料は 、これらのトピックを理解し始めたばかりの人にも役立つかもしれません。
助成金を申請するには、次の手順に従う必要があります。
- 「助成金が欲しい」というマークが付いた学校のウェブサイトで 6月5日まで参加を申し込みます。
- kaggleコンテストに参加して、評価テーブルのニックネームにサフィックス[GoTo]を追加します。
- ファイナルテーブルでできるだけ高くなるようにしてください。
- 6月7日まで、表にニックネームを、ノートのjupyter形式でソースコードを送信し、何をしたのか、なぜ行ったのか、どのアイデアがモデルの品質を向上させ、何を改善しなかったのか、そしてどのように確認したかについてのコメントを添えてください。 Quoraから賞金を請求する場合、コンテスト終了時にコードを送信できます。
その結果、数人の参加者は完全な助成金(無料参加)を受け取ります。これはまともな結果を示しています-部分的な助成金。 登録後に送信されるレターの詳細。
学校について:
6月13日-26日、7月1日-14日、8月16日-29日、モスクワから100 km離れた場所で、応用プログラミング、データ分析、バイオインフォマティクス、情報セキュリティ、およびロボットを使用したモノのインターネットに関心のある高校および中学生向けのGoToサマーデザインスクールが開催されます。 各学校の参加者は、プロジェクトを実施したり、研究を実施したりすることができます。プロジェクトの作業は、最高の大学の教師や大手企業の専門家によって監督されています。
選択の一環として、各分野への無料参加のためのコンテストが開催されます:応用プログラミング、ハードウェア、データ分析、情報セキュリティ、バイオインフォマティクス。 他のコンテストのお知らせはまもなく公開されます。
すべての質問や提案はschool@goto.msk.ruに送信できます。