データプロジェクトが失敗する10の理由

はじめに



データ処理に関連する科学は人々を興奮させ続けていますが、実際の結果はしばしば関心のあるビジネスマンの間で失望を引き起こします。 どうすればリスクを軽減し、結果が期待どおりになるかを確認できますか? R&Dと商業運営の交差点で技術専門家として働くことで、このように立ちはだかる問題についてのアイデアを得ることができました。 私は、コンピューターサイエンスに関連する最も一般的なタイプの失敗とプロジェクトの失敗に関する個人的な見解を示します。



スライドと説明文を含む完全版はこちらから入手できます。 スライドもPDFファイルに含まれています



ハッカーニュースについての議論もあります。



最初に、私についてのいくつかの言葉:

彼はロンドンの2つの新興企業でデータ分析の理論と方法の専門家チームを率いていました。

開発された製品は、Time Inc、Staples、John Lewis、Top Shop、Conde Nast、New York Times、Buzzfeedなどで使用されています。



この投稿は、過去数年にわたって私が多くの主要なデータ処理の専門家と行ってきた議論に基づいています。 多くの企業は、データ処理の専門家のチームを雇うという一般的なスキームを経て、約12か月後にチーム全体を解散または解散させるようです。 失敗の数がそれほど多いのはなぜですか?



その理由を見てみましょう。



1.データの準備ができていません



データがデータベース内にある場合、使用できますか?

しかし、以前に使用されたことがない場合、これは単なるゴミだと想定できます。

データを確認してください。


非常に賢明なデータ処理コンサルタントは、データがプロジェクトで以前に使用されたかどうかを常に尋ねると言った。 そうでない場合は、データクリーニングジョブに6〜12か月追加します。



開始する前にデータを確認してください。 データの完全性と汚染を確認してください。 たとえば、データベースには、通貨を指定せずにドルと円で保存されたさまざまなトランザクションが含まれていることがあります。 それは本当に起こります。



2.よく聞かれる:「データ処理は新しいオイルです」



しかし、これはそうではありません。 データは商品ではありません。 値を取得する前に、何らかの製品に変換する必要があります。 多くの対談者は、誰が自分のユーザーになるのか、または「貴重なデータ」をどのように使用するのかを考えずに立ち上げられたプロジェクトについて話してくれました。 答えは、原則として遅すぎました:「誰も」と「方法はありません」。



3.データの専門家が退職を検討している



画像






仕事の割り当てを送ってもらえますか?

現在何を開発していますか?

実際、RとPythonにアクセスできました! 文字通り5分前。



通常の操作に必要なデータとツールへのアクセスを提供せずに、スペシャリストに問題を作成しないでください。 PythonとRをインストールする許可を得るには、6週間以上の通信から上級研究員がかかりました。彼は幸せでした!



悲しいかな、幸福は短命でした。

画像






あなたは冗談でなければなりません...

ここにある。



このプログラムは、グループポリシーの要件によりブロックされています。 詳細については、システム管理者にお問い合わせください。



この男を紹介しましょう:

画像








彼はあなたが聞いたことがあるかもしれないオンラインオークションサイトのプロダクトマネージャーでした。 彼の話は、主要な製品検索エンジンの新しいプロトタイプアルゴリズムのA / Bテストについてでした。 テストは成功し、新しいアルゴリズムが実行されました。



残念ながら、多くの時間が経過し、多くのお金が費やされた後、A / Bテストコードにエラーがあることが判明しました。プロトタイプは使用されませんでした。 彼らは自分のデータで古いアルゴリズムを誤ってチェックしました。 結果は無意味でした。



それが問題でした:

結果がゴミであることはわかりません。

サンプリングエラー、測定バイアス、シンプソンパラドックス、統計的有意性など

研究開発は簡単な仕事ではありません


4.一流のデータ処理スペシャリストがいない



サンプリングエラー、測定バイアスなどを生きて呼吸する人が必要です。そうしないと、結果が意味をなさないことがわかりません。 そのような人々は「科学者」と呼ばれます。



はい、ところで。



この人は、「科学者」でもデータ処理の専門家でもありません。



「情報フローの管理、ビジネスインテリジェンス(BI)ツール、および組織の変革を目的とした分析的決定のための戦略を策定するアナリストリーダー。 「エンタープライズクラスのソリューションの開発とビジネス価値の最大化におけるチームリーダーシップの経験があります。」



そして、このデータ処理の専門家は「科学者」と見なすことができます。



「専門分野:確率的プログラミング、データ分析、ベイジアンモデリング、隠れマルコフモデル、マルコフ連鎖を用いたモンテカルロ法(MCMC)、リカレントニューラルネットワーク(LSTM)、マルチタスク、ドメイン適応。



また、反対の声明はしばしば真実です:



5.科学者を雇ってはいけません*



*参照 ポイント3。

ETLテクノロジー(データの抽出、変換、ロード)については、データエンジニアを雇用します。

レポートを作成するためにビジネスインテリジェンス(BI)スペシャリストを雇います。

終わり。


6.上司は機械学習のブログ投稿を読みます。



機械学習を取り巻く誇大広告は、すぐに利用できるコンテンツがたくさんあることを意味します。 これは、「早熟な専門家」と呼ばれる現象につながる可能性があります。今では、誰もが機械学習に関する素晴らしいアイデアを持っています。 症状は、不適切なコンテキストでの「発散の解消」や「アンサンブル法」などのフレーズの使用です。 私を信じて、これはうまく終わりません。



画像






コストを節約するHealthCareプロジェクトは、病院からのデータを使用して、入院部門に入院した肺炎症状の患者に関する情報を処理しました。 死の可能性がかなり低い人を識別できるシステムを作成して、抗生物質を提供して簡単に家に送り返すことができるようにしたいという要望がありました。 これにより、合併症を脅かす可能性のある最も深刻なケースに集中できます。



開発されたニューラルネットワークは非常に高精度でしたが、奇妙なことに、常に喘息患者を家に送りました。 喘息患者は実際に肺炎による合併症のリスクがかなり高いため、これは説明できませんでした。



肺炎の症状を示した喘息患者は常に集中治療室に紹介されることが判明した。 したがって、ニューラルネットワークのトレーニング間隔中に喘息死のケースは1つもありませんでした。 その結果、喘息患者の死亡リスクは極めて低いと結論付けられましたが、実際には状況は逆転しています。 このモデルは非常に正確でしたが、使用し始めた場合、必然的に人々の死につながります。



7.モデルが複雑すぎる



まず、説明可能なモデルを使用します。

比較のためにいくつかの基本機能を使用してテストします。


この話の教訓:理解できるシンプルなモデルを使用してください。 それからもっと複雑なものに移り、必要に応じて



8.結果は再現できません



Git

コード分​​析;

自動テスト;

データ処理のパイプライン処理中に相互作用を保証します。


科学の基礎は、結果の再現性です。 上記のすべてを行います。 そして、私はあなたに警告しなかったと言ってはいけません。



9. R&Dラボは、会社の企業文化とは無関係です。



人々は直感を好む。

R&Dはリスクの高い活動分野です。

実験室での会議、交渉、記事の公開など。


応用科学に従事する研究所は、会社に重大な義務を課しています。 多くの場合、正確なデータは、直感を信頼することを好む人々にとって非常に危険です。 R&Dは失敗のリスクが高く、必要であるが成功にはまだ不十分な条件として、異常に高いレベルの忍耐力が必要です。 正直に自問してください-あなたの会社は本当にそのような文化を受け入れていますか?



10.実際のデータに依存しない情報製品の開発は、生きている動物を観察せずに剥製術に従事することに等しい。



情報製品(一部のレイアウトを含む)を準備する際、ユーザーとの対話や、非正規データを使用した製品マネージャーの作業を開発することは厳しく禁じられています。 レイアウトで実際のデータが使用されるとすぐに、完全なファンタジーになることがあります。



実際のデータは、奇妙な外れ値であるか、逆に完全に単調であることが判明する場合があります。 それらは、非常に動的なものとして現れます。 それらは完全に予測することも困難にすることもできます。 最初から実際のデータを使用します。そうしないと、プロジェクトは苦痛と自己嫌悪に終わります。



All Articles