データサイエンスに関する5つの神話

私の名前はIvan Serovです。IDFinanceフィンテック企業のデータサイエンス部門で働いています。 データサイエンティストはかなり若いですが、非常に人気のある職業であり、多くの神話で大きくなりすぎています。 この投稿では、初心者のデータサイエンティスト(DS)が直面するいくつかの誤解について説明します。







DSはビジネスについて知る必要はありません



優れたDSは、優れたモデルを構築できるだけでなく、そのようなモデルを構築する理由を理解し、必要であれば、このモデルは不要であるとさえ言うべきです。 たとえば、私たちのプロジェクトの1つでは、クライアントのアカウントの利用可能性を予測し、特別なアルゴリズムを使用してそれを相殺するモデルを作成しました。 しかし、モデルを作成する過程で、彼らはそれが必要ではないことを認識しました。作業アルゴリズムをわずかに改善する方が簡単です。 DSの作業コストは、開発中の新しいモデルからの収益をはるかに超える場合があります。 この場合、彼はそのようなモデルの必要性をプロジェクトマネージャーと話し合い、より有益なことをする必要があります。







複雑なアルゴリズムは常に優れている



XGBoost、LightGBM、ランダムフォレスト...これらのアルゴリズムはすべて、タスクの優先度として呼び出されます。 多くのDS初心者は、もっと簡単なことから始めようとさえしません。 ただし、10,000個の変数と20,000個の行があり、XGBoostがGini 0.2(AUROC 0.6)を示すスパースデータに突然問題が発生すると、問題が始まります。 たとえば、この場合、Gini 0.8を提供する非線形コアを備えたシンプルなSVMの方が適しています。 単純なモデルは、複雑なモデルよりもうまく機能することがあります。







クールなDSになりたい場合-大企業に行く



毎日、大企業から新しいプロジェクトについて聞きます。 人工知能が1つのプロセスを10%、別のプロセスを20%向上させる方法など。 この後、多くの人は大企業でのみ何かが起こり、中小企業では面白いプロジェクトも良いDSもないという印象を受けるかもしれません。 幸いなことに、これはそうではありません-自身をデジタルとして位置付けている最大の銀行の1つで働いたことがあるので、スタートアップにはもっと興味深いプロジェクトがあると言えます。 大企業でのプロジェクトの実施の速さは、すでに言葉とミームの理由になっています。 たとえば、プロジェクトを銀行に3か月または半年実装できます。その間、スタートアップで複数のプロジェクトを作成できます。 結論:大企業のPRは、多くの場合単なるPRです。







プロジェクトマネージャーには優秀な専門家よりも高い報酬が支払われます



平均レベルを超えて成長する人には、しばしば質問があります-どこに進むべきか。 実際には、リードデータサイエンティスト(チームリーダー)とシニアDSの2つのオプションがあります。 レベルの違いについてはすでに多くのことが書かれています(たとえば、Victor Kantorからの良い投稿です)。優秀なスペシャリストの給与は、どのチームリーダーよりもはるかに高くなる可能性があり、あなたは自分の欲望から始める必要があります。 通常、数年の仕事の後、燃え尽き症候群が始まり、すべてのタスクは同じで迷惑なように見えます。 ここでは、新しいものを探す必要があります(残念ながら、Nvidia、Amazon、Yandexなどのマーケットリーダーは常に何かを見つけるでしょう)、または多くの人が選択するオフィス(Lead DS-> Chief DS-> CDO)に行く必要があります。



DSはモデルを実装したり、その結果をテストしたりしないでください



多くの人は同意しないだろう、と彼らは言う、今ではこれらのモデルを実装すべき日付エンジニアがいる。 ただし、DSは、エンジニアの日付を簡単にするために、まだ注意を払う必要があります。少なくとも、





多くの企業にはデートエンジニアがいないため、DS自体がすべてを行っています。 モデルがデータサイエンスについて何かを知っているという事実ではなく、ITスペシャリストの1人が作成したAPIを介してサービスと対話する場合、別の状況が発生する可能性があります。 この場合、DSはデータ処理用のモジュールを作成し、アルゴリズムをpklの形式でアンロードし、json要求を入力として受け取り、同じjsonで回答を出力する既製の実行可能ファイルを作成できます。 テストとは別に、モデルを作成するときは、将来のABテストを検討し、適切なメトリックを選択し、モデルの経済効果を理解することが重要です。







この投稿が、データ科学の初心者が直面するいくつかのポイントを明らかにし、誰かに役立つことを願っています。 次の投稿では、いくつかの神話と推測について詳しく説明します。



あなたが最も頻繁に遭遇した神話は何ですか?






私たちについて少し:



Fintechを保有するIDファイナンスは、データサイエンス、クレジットスコアリング、および非銀行融資を専門としています。 同社は、ロシア、スペイン、カザフスタン、ジョージア、ポーランド、ブラジル、メキシコでMoneyMan、AmoPay、Solva、Plazoのブランドを開発しています。 R&DセンターIDファイナンスは、ミンスクにあります。 同社の創設者は、ドイツ銀行とロイヤルバンクオブスコットランドの元トップマネージャーであるアレクサンダードゥナエフとボリスバティンです。 投資家の間でIDファイナンスのベンチャーキャピタルファンドエメリーキャピタル。 同社は、2018年のヨーロッパで最も急成長している企業のFinancial Timesの評価で36位になりました。 2018年初頭、同社のローンポートフォリオの合計は77百万米ドルに達しました。 Forbes、Business Insider、Finextra、Venture Beat、Crowdfund Insider、The Banker、BBCが私たちについて書いています。 また、ロシア語のメディア(Forbes、VC、Roem、RusBaseなど)でも公開しています。



All Articles