データサイエンスチームにスペシャリストではなくユニバーサルが必要な理由

画像

渡辺裕/ゲッティイメージズ



The Wealth of Nationsで、アダムスミスは、分業が生産性向上の主要な源になる方法を示しています。 例として、ピンを製造する工場の組立ラインがあります。「1人の作業員がワイヤーを引っ張り、もう1人がワイヤーをまっすぐにし、3人目が切れ、4人目が端を研ぎ、5人目がもう一方の端を研磨して頭に合わせます」。 特定の機能に特化した専門性のおかげで、各従業員は狭いタスクで高度な資格を持つスペシャリストとなり、プロセスの効率が向上します。 労働者あたりの生産量は何度も増加し、工場ではピンの生産がより効率的になります。



この機能別の分業は今日でも私たちの心に根付いており、それに応じてチームをすばやく編成しました。 データサイエンスも例外ではありません。 統合されたアルゴリズムのビジネスチャンスには多くの労働機能が必要なため、企業は通常、研究者、データ分析エンジニア、機械学習エンジニア、因果関係のある科学者などの専門家チームを作成します。 専門家の仕事は、製品マネージャーがピンファクトリーに似た方法で機能を転送することで調整されます。「1人がデータを受け取り、他のモデルがデータを受け取り、3人目がデータを受け取り、4つ目が測定されます」など、



残念ながら、データサイエンスチームを最適化して生産性を高めるべきではありません。 ただし、これはピンやその他の生産物を理解しているときにこれを行い、単純に効率の向上に努めます。 組立ラインの目的は、タスクを完了することです。 私たちは何が欲しいかを正確に知っています-これらはピンです(スミスの例のように)が、要件が製品とその動作のすべての側面を完全に説明している製品またはサービスに言及できます。 従業員の役割は、これらの要件を可能な限り効率的に満たすことです。



しかし、データサイエンスの目標は、タスクを完了することではありません。 むしろ、目標は強力な新しいビジネスチャンスを探求し、開発することです。 推奨システム、顧客との対話、スタイル設定、サイズ設定、衣服のデザイン、物流の最適化、季節的な傾向の検出などのアルゴリズム製品とサービスは、事前に開発することはできません。 彼らは研究されなければなりません。 再現する図面はありません。これらは固有の不確実性を持つ新しい機能です。 係数、モデル、モデルタイプ、ハイパーパラメーター、すべての必要な要素は、実験、試行錯誤、および繰り返しを使用して調査する必要があります。 ピンを使用すると、トレーニングと設計が製造されるまで事前に行われます。 データサイエンスを使用すると、以前ではなくプロセスで学習できます。



ピン工場では、トレーニングが最初に行われるとき、生産効率を向上させることに加えて、労働者が製品の特性について即興で作業することを期待しておらず、また望ましくありません。 タスクの専門化は理にかなっています。プロセスの効率と生産の一貫性につながるからです(最終製品に変更を加えることなく)。



しかし、製品がまだ開発中であり、目標がトレーニングである場合、次の場合には専門化が目標を妨げます。



1.これにより、調整コストが増加します。



つまり、実行する必要がある作業の通信、議論、正当化、および優先順位付けに費やした時間の間に発生するコストです。 これらのコストは、関与する人数に応じて超線形に拡大します。 (J.リチャード・ハックマンが私たちに教えたように、関係rの数は、次の方程式に従ってメンバー数nの関数と同様に成長します:r =(n ^ 2-n)/2。そして、各比率は一定のコスト比率を示します)。 データ分析のスペシャリストが機能ごとに、各段階で、各変更、各サービスの移転などで編成される場合。多くのスペシャリストが必要であり、調整コストが増加します。 たとえば、新しい機能を試してみたい統計学者は、何か新しいことをしようとするたびにデータセットを補完するデータ処理エンジニアと調整する必要があります。 同様に、それぞれの新しい訓練されたモデルは、モデル開発者がそれを動作させるために彼らの行動を調整する誰かを必要とすることを意味します。 調整コストは、反復の料金として機能します。これにより、調整コストはより困難で高価になり、研究を強制的に中止する可能性が高くなります。 これは学習を妨げる可能性があります。



2.これは待ち時間を複雑にします。



調整のコストよりも恐ろしいのは、シフト間の時間の損失です。 調整コストは通常​​、時間単位で測定されますが、会議、ディスカッション、プロジェクトのレビューにかかる時間は通常、日、週、または月単位で測定されます! 各スペシャリストは複数のプロジェクトに分散する必要があるため、機能スペシャリストのスケジュールを合わせるのは困難です。 変更を議論する1時間の会議は、ワークフローを合理化するのに数週間かかる場合があります。 そして、変更に同意した後、専門家の労働時間を費やす多くの他のプロジェクトのコンテキストで実際の作業自体を計画する必要があります。 コードまたは調査の修正に伴う作業は、完了するまでに数時間または数日しかかからず、リソースが利用可能になるまでにさらに時間がかかる場合があります。 それまで、反復と学習は一時停止されます。



3.コンテキストを絞り込みます。



分業は、専門分野に留まることで人々に報酬を与えることにより、人為的に学習を制限することができます。 たとえば、機能の範囲内に留まらなければならない研究科学者は、回帰、ニューラルネットワーク、ランダムフォレストなど、さまざまなタイプのアルゴリズムを使用した実験にエネルギーを集中します。 もちろん、アルゴリズムの適切な選択は段階的な改善につながる可能性がありますが、原則として、新しいデータソースの統合など、他のアクティビティから多くを学ぶことができます。 同様に、データに固有のあらゆる説明力を使用するモデルの開発に役立ちます。 ただし、その強みは、目的関数の変更または特定の制限の緩和にある可能性があります。 彼女の仕事が限られているとき、見ることもすることも困難です。 専門の科学者はアルゴリズムの最適化を専門としているので、たとえ大きな利益をもたらしたとしても、彼は他のことをする可能性ははるかに低いです。



データサイエンスチームがピンファクトリーのように動作するときに表示される兆候(たとえば、単純なステータス更新)に名前を付けましょう。一般的なブロッカーである「データパイプライン変更の待機」と「ML Engリソースの待機」。 しかし、私はあなたがまだ知らないことを後悔することはできないので、より危険な効果はあなたが気付かないことだと信じています。 プロセス効率を達成することによって達成される要件と満足の完璧な達成は、組織が見逃している学習の利点に慣れていないという事実を曖昧にする可能性があります。



もちろん、この問題の解決策は、ファクトリピンメソッドを削除することです。 学習と反復を促進するために、データサイエンスの役割は一般的である必要がありますが、技術的な機能に依存しない幅広い責任があります。つまり、学習に最適化されるようにデータスペシャリストを編成します。 つまり、「フルスタックのスペシャリスト」-コンセプトからモデリング、実装から測定まで、さまざまな機能を実行できる一般的なスペシャリストを雇う必要があります。 フルスタックのスペシャリストを雇うとき、従業員の数が減るとは思わないことに注意することが重要です。 おそらく、それらが異なるように構成されている場合、それらのインセンティブは学習と効果の利点とよりよく整合していると思います。 たとえば、3つのビジネス品質を持つ3人のチームがあります。 ピンの製造工場では、他の誰も仕事をすることができないため、各専門家は各専門職に3分の1の時間を費やします。 完全なスタックでは、すべての普遍的な従業員は、ビジネスプロセス全体、ジョブスケーリングおよびトレーニングに完全に専念しています。



生産サイクルをサポートする人が減ると、調整が減ります。 ワゴンは機能間をスムーズに移動し、データパイプラインを拡張してデータを追加し、モデルで新しい機能を試し、因果測定のために本番で新しいバージョンを展開し、新しいアイデアが出たらすぐに手順を繰り返します。 もちろん、ワゴンは並行してではなく、順次異なる機能を実行します。 結局のところ、これはただ一人です。 ただし、タスクは通常、別の専用リソースにアクセスするために必要な時間のほんの一部しかかかりません。 そのため、反復時間が短縮されます。



私たちのステーションワゴンは、特定の職務のスペシャリストほど熟練していないかもしれませんが、機能的な卓越性や小さな漸進的な改善に努めていません。 むしろ、徐々に影響を与えながら、新しい職業上の課題を研究し、発見するよう努めています。 完全なソリューションを実現するための全体的な状況を踏まえて、彼は狭い専門家が見逃す可能性があると考えています。 彼には、より多くのアイデアと機会があります。 彼も失敗します。 ただし、失敗のコストは低く、学習の利点は高くなります。 この非対称性は、高速な反復を促進し、学習に報います。



これは自律の規模であり、フルスタックで作業する科学者に提供されるさまざまなスキルは、作業できるデータプラットフォームの信頼性に大きく依存することに注意することが重要です。 適切に設計されたデータプラットフォームは、コンテナ化、分散処理、別のリソースへの自動転送、およびその他の高度なコンピューターの概念の複雑さからデータサイエンティストを抽象化します。 抽象化に加えて、信頼性の高いデータプラットフォームは、実験インフラストラクチャへの妨害のない接続を提供し、監視およびレポートシステムを自動化し、アルゴリズムの結果とデバッグを自動的にスケーリングおよび視覚化できます。 これらのコンポーネントは、データプラットフォームエンジニアによって設計および作成されます。つまり、データサイエンススペシャリストからデータプラットフォーム開発チームに転送されません。 プラットフォームの起動に使用されるすべてのコードを担当するのは、データサイエンスの専門家です。



また、プロセス効率を使用した分業の機能分割にも興味がありましたが、試行錯誤によって(学習するより良い方法はありません)、典型的な役割が学習とイノベーションに貢献し、適切な指標を提供することがわかりました:より多くのビジネスチャンスを発見して構築する専門的なアプローチ。 (私が経験した試行錯誤法よりも組織へのこのアプローチについて学ぶためのより効果的な方法は、エイミー・エドモンドソンの本「チームワーク:組織がどのように学び、イノベーションを生み出し、知識経済で競争するか」を読むことです)



一部の企業では、この組織のアプローチを多少なりとも信頼できる重要な前提条件があります。 反復プロセスにより、試行錯誤のコストが削減されます。 エラーのコストが高い場合は、削減することをお勧めします(ただし、これは医療アプリケーションや生産にはお勧めできません)。 さらに、ペタバイトまたはエクサバイトのデータを扱う場合、データ設計の専門化が必要になる場合があります。 同様に、オンラインビジネスの機会とそのアクセシビリティを維持することが、改善よりも重要である場合、機能的な卓越性は学習を上回ることができます。 最後に、フルスタックモデルは、それを知っている人々の意見に基づいています。 彼らはユニコーンではありません。 それらは自分で見つけるか準備することができます。 しかし、彼らは高い需要があり、それらを企業に引き付けて維持するには、競争力のある経済的報酬、持続可能な企業価値、興味深い仕事が必要です。 企業文化がこれらの条件を提供できることを確認してください。



とはいえ、フルスタックモデルは開始に最適な条件を提供すると考えています。 それらから始めて、それが絶対に必要な場合にのみ、意識的に分業に向かって動いてください。



機能の専門化には他の欠点もあります。 これにより、労働者の責任と受動性が失われる可能性があります。 スミス自身が分業を批判し、それが才能の鈍化につながることを示唆しています。 労働者の役割は少数の反復作業に限定されているため、労働者は無知で撤退します。 専門化はプロセスの効率性を確保できますが、労働者を刺激する可能性は低くなります。



同様に、普遍的な役割は、仕事の満足度を刺激するすべてのものを提供します:自律性、スキル、そして決意。 自律性は、彼らが成功を達成するために何にも依存していないということです。 マスタリーは強力な競争上の優位性にあります。 そして、決意は、彼らが創造するビジネスに影響を与える能力です。 人々が仕事に夢中になり、会社に大きな影響を与えることができた場合、他のすべてが適切に配置されます。



All Articles