データマイニング企業の生き方:タスクと研究

こんにちは、Habr!



私たちの会社DM Labsが教育活動に加えてデータ分析の分野で何をしているのかを話す時が来ました (すでにそれについて書いています1 )。



過去1年にわたり、 ミュンヘン工科大学(TUM)Fortiss Institute of Roboticsと緊密に連携し人を殺さないようロボットに教える)、不正防止システムのプロトタイプをリリースし、国際的な機械学習会議に参加し、最も重要なことには、強力なアナリストチームを結成しました。



現在、DM Labsはすでに3つの領域を組み合わせています。研究室、既製の商用ソリューションの開発、およびトレーニングです。 本日の投稿では、それらについて詳しく説明し、過去1年間をまとめ、将来の目標を共有します。





トレーニング



教育の方向性を開始するために、私たちは若い専門家と専門家の間で知識を交換するプログラムを作成し、すでに述べたように、ロシアのデータサイエンスコミュニティの形成を支援したいと考えました。



今年、私たちは何とか学生の最初のストリームをリリースすることができました。



2013 2013/2014
学生 18 25
専門家 19 30+
プログラム 業界のデータマイニング 業界のデータマイニング+ R、機械学習、ビッグデータの個別コース
講義 60時間 業界のデータマイニング:70時間以上、コース:80時間以上
企業 IBM、EMC、シーメンス、フォルティスなど すべて同じ+デロイト、アクセンチュア、クラスメートなど


カリキュラムは大きく変わりましたが、私たちの教育の哲学の根底にある3つの要素は変わらないことに気付きました。







カリキュラムの継続に加えて、2014年にはさらに多くの教育イニシアチブを実施します。





プロジェクト



トレーニングエリアの開始後、プロジェクトアクティビティとデータマイニングプロジェクトの新しい方向性は論理的な継続になりました。機械学習の助けを借りて、さまざまな分野で多くの興味深い問題を解決できるからです。







現在、私たちのチームは、金融取引トラフィックの分析、Webサービスのログファイルに基づく異常の検出、ユーザーリターンの予測などのさまざまな商業プロジェクトに取り組んでいます。

TechCrunch Moscowでは、企業がデータ駆動型になるのをどのように支援できるかを概説しました。

以下の記事では、プロジェクトの特定のケースと製品、詐欺防止システムについて記述します。



リサーチ



設計作業は優れていますが、データサイエンティストの魂は常により多くのことを求めています。モデルをより正確にし、アルゴリズムをより高速に動作させ、アプリケーションの分野を拡大したいのです。 そこで、第3の方向-データマイニングR&Dが作成されました。



現在、勾配ブースティングマシンに関連するさまざまなタスクに取り組んでいます[ 1、2、3 ]。 これらのアルゴリズムは、Yahoo!、MatrixnetのYandex、Microsoftなどの企業で積極的に使用されてます。 「指で」説明する場合、アルゴリズムの主なアイデアは、新しいツリーごとにアルゴリズムの合計出力がますます正確になるように一連の決定ツリーを構築することです。 たとえば、次の図のように:



すべては単純に思えますが、創造性には大きなスコープがあります。同じ精度を達成するために必要なツリーの数を減らす方法(その数を減らす方法)。 「深い」アンサンブルを作るとどうなりますか? それとも、準「深い」ギズモのアンサンブルですか?」



作業の2番目の重要な領域は、データ融合メソッドです。 アイデアは、1つの問題を解決するフレームワーク内のさまざまな領域からのデータを使用することです:テキスト、ビデオ、オーディオ、グラフ、センサー、およびそれらのさまざまな組み合わせ。 すべてのデータに対して同じGBMアルゴリズムを「正面から」実行すると、分布が大きくなりすぎ、符号の数が不当に大きくなります。 一般に、これが機能しない理由の説明は、別の記事に値するトピックです。



この分野で私たちが遭遇した例は、金融リスクを決定するタスクでした。 このタスクでは、通常、取引所からの相場に関する定量的な情報を使用します。会社の株価のボラティリティを調べることにより、翌年のリスクをかなり正確に予測できます。 ただし、企業の年次財務諸表からの情報を考慮すると、この精度は向上する可能性があります。



主な質問は、データに含まれるすべての情報を使用するためにこれを最も効率的に行う方法ですか? 異なるデータ部分空間に構築されたモデルをステッチする方法は? D-Waveが提案するものと同様に、ステッチモデルまたはリプレゼンテーション付きの中間層のみ



私たちの研究はこれで終わりではありません。 たとえば、私たちは質問について非常に心配しています。







結論として



イベント、新しい善良な人々、興味深い仕事が豊富にありました。 2014年に多くの素晴らしいアイデアがもたらされ、さらに強力になり、Habrの各記事について書かれることを期待しています。 はい、すでに多くのことを伝えたいので、小規模な調査を行うことにしました



All Articles