JSプログラミングコンテスト:単語分類子(予備結果)

待ってくれてありがとう! プログラミングコンテストの予備結果を公開します。



312個のソリューションがテストされましたが、そのうち50個が落下またはハングし、さらに3個はすべてのテストに合格するには遅すぎました。 残りの259件の決定のうち、 12件はさまざまな理由で「競合なし」と宣言されました。ソリューションはデータファイルのタイプを調整しないと機能しませんでした(著者は「gzip」チェックマークを忘れました)、またはHolaの従業員によって送信されました。



現在の結果は暫定的なものです。 結果を要約する際に間違いを犯さなかったことを願っており、2016年6月20日にこれらの結果が最終決定となります。 次に、決定識別子の代わりに、著者の名前または仮名が公開されます。



コンテストの勝者の決定は、正解の83.67%の結果を示しました。 テスト結果を含むソリューションの完全なリストは、GitHubの英語版の投稿にあります



そこで、各ソリューションの「生の」 機械可読テスト結果を公​​開します。ここでは、要約表よりも多様な情報があります。 これらのデータに基づいて、結果の独自の分析を行うことができます。これについては非常に満足しています。



辞書の選択について



多くの人が、なぜこのような奇妙な辞書を選んだのか興味がありました。その「単語」の多くは英語とは言えません。 100%の結果が達成不可能であることが重要でした。さもないと、100%に達したソリューションのどれが最良であるかを選択できません(パフォーマンスなどの追加基準が必要になります)。 従来のスペルチェック辞書には、50,000〜165,000の単語が含まれています 。 165,000語の辞書でさえ、解凍用のコードとともに64 KiBに圧縮できます。 一方、クォータを比例的に(16 KiB、またはそれ以下に)削減することを決定した場合、コード用のスペースがすでに著しく不足しており、競争はコードの長さを最小化する競争に変わります。 この方向には行きたくなかったので、見つけることのできる最大の「辞書」を選びました。 これには、考えられるすべての高度に専門化された用語、まれな単語のスペル、およびステミングアルゴリズムの誤検出の結果として生成された存在しない単語も含まれます。 したがって、選択した辞書では、単語の4分の1だけが英語の単語と完全に呼ばれます。 ただし、辞書の他の単語は完全にランダムではなく、統計特性の類似性によって結合されます。 したがって、このような妥協を行うことを決定し、提案されたSCOWLプロジェクトから非常識なサイズの辞書を選択しました。



All Articles