ビッグデータ、ビーライン、コココ

数日前、誤って広告ブロックなしでHabrに入ると、「ビーライン、男になりなさい-シャイタン問題を解決してください」というバナーを見ました。 チャレンジはおもしろそうに聞こえ、地域、料金プランなどの一連のパラメーターによって年齢を決定します。







このようなタスクの計画を解決した経験がないことに注意してください。 私が持っていたすべてのアイデアは、対角線上および研究所での実験室での作業に関して読めるレビュー記事から構築されました。 このラボの一環として、ニューラルネットワークが見られ、イルカで訓練されて、サイズ64x64の白黒写真からアルファベットの文字を決定しました。







私は長い間ビッグデータに飛び込みたいと思っていましたが、ここでケースが判明しました。 私はこの技術へのエントリーポイントを探し始めました。 彼はすぐに彫像、家庭教師、そして基本的なことを噛み砕き、これらすべてを扱うためのいくつかのツールを実証しようとしたあらゆる種類の例をオンにしました。 私はpythonに飛び込む必要がありました。







それほど動揺していませんが、すべてのpythonはRではありません。そして、真剣な意図と大きな熱意で、JetBrains PyCharmのトライアルをしぼませました。 いくつかの例を掘り下げてみると、私は最終的にビーラインを取り上げることに大胆であることをおおよそ理解しました。



提供されたデータに世界の社会像をどのように重ね合わせるかを予測し、タスクをダウンロードし始めたのは誰と何年かを理解しようとします。 データをダウンロードした後、私は強くだまされたと感じました。 約束された関税や他のニシュチャコフの代わりに、私は一連の切断された列1-61と、ハッシュと何らかの狂った数字の形で表の値を見ました。 こんにちは、厳しいサイバーパンク主義。







このような問題の声明の解決策を開発した後、それは完全に不明確になりますが、実際には何をしますか? レースパンティーを日本のちゃんに勧めたり、中国で大量の判決を下したりするため。 反省を捨て、これが無害な競争であるという事実に焦点を当てて、私はデータを拾い始めました。 私が最初にしたことは、最も人気のある3つのグループをランダムに散らばって結果をアップロードしたもので、27.03%でした。



タスクはチュートリアルをはるかに超えており、解決するのはそれほど簡単ではないことがすぐに判明しました。 同時に、pycharmは失敗し、約束された自動セットを提供しませんでした。そのため、すべてのステップで、ピトンウェライブラリのドックに潜り込み、00の初期のスタイルで装飾されました。 pylabによって描画されたグラフィックはさらにひどく見えました。







しかし、最後のストローは、コーディングにどれだけの時間を費やしたかを理解することでした。 そして、これらすべてのツールの痛みと不快感の瞬間に、すべてがとても悪いと信じることを拒否し、何らかの理由で、私は紺neverの機械学習タブを思い出しましたが、それを開けたことはありませんでした。







MLを開くと、すぐにチューターが提供されます-同意します。 それらは、黒いマスクを備えたvidosやツールチップではありませんが、環境では当然、例を作成し、同時に何をどのように何を伝えるのかを示しています。 すべてが非常にシンプルで、ソース、データトランスフォーマー、アルゴリズム、トレーニング、評価などのタイプに分類された多数のモジュールがあります。 もちろん、私はどのモジュールが利用可能か、それらが何のためにあるのか、そしてどのパラメーターが何のために責任があるのか​​を読む必要がありましたが、同時に私は理論に入りました。 しかし、ここではすべてが人間的に行われています。 ドックを研究した後、すべてを調合して最初の実際の結果を得るのに5分かかりました。







最も正確なアルゴリズムを選択したので、パラメーター選択モジュールを使用することにしました。 すべてのオプションをソートした後のキャプテンのモジュールは、多ければ多いほど良いと報告しました。 ためらうことなく、彼は基本的なパラメーターを100倍に増やし、すべてを学びました。 このプロセスで最も不便なのは、バーの進行状況の欠如または少なくともある程度の推定値であり、実際にはプロセスがいつ終了するかしか推測できないことです。 何度か停止することを考えていましたが、私は最後まで耐え、13時間かかりました。







その結果、私は得た:







top25ではスプレッドが0.6%であり、ボトムに向かって増加するという事実を考えると、これはtop25よりも0.9%少ないだけで、top40ではヒットすると思います。 これは昨日、この分野で何も知らなかった人にとって素晴らしい結果だと思います。



マテリアル面について言えば、MLスタジオでのこのような贅沢はすべて、RUB1,219.04で24.38時間かかりました。



All Articles