電球を回すのに必要なデータサイエンティストの人数(またはどのチームがデータをビジネスに役立たせるか)





「電球を回すのに何人のデータサイエンティストが必要ですか?」

-1つは、ねじれた電球の歴史的な選択で十分な場合。



もちろんこれは冗談ですが、会社でビジネスパフォーマンスを向上させるためにビッグデータを使いこなす場合、誰がそれを飼い慣らすかを誰もが理解しているわけではありません。 古典的な意見:データサイエンティスト-モデルを構築し、人工知能と機械学習を理解できるデータアナリストが必要です。 そして、この男はすべてを1つの頭で決定します。



また、企業内でビッグデータ部門が形成される場合、データサイエンティストは主に雇用される傾向にあります。



実際には、すべてがより複雑です。 科学者の日付がなければ、もちろん、ビッグデータを扱う仕事はありませんが、彼はフィールドでの単独の戦士ではありません。 他の誰が彼と肩を並べて戦うべきかは、例によってよく理解されています。



調停者



ビッグデータを使用したいフィットネスクラブのネットワークがあるとしましょう。 データサイエンティストは、基本的なトレーニングに加えて、クライアントが他の個人的なトレーニングを使用する傾向があることを予測する問題を解決します。 専門家は、誰が以前に何をしたかに関するデータを取得し、依存症のモデルを構築します。



質問が発生します-どのようなトレーニングですか? そして、彼が彼らに行くことをどのように提案しますか? トレーニングを男性と女性に明確に分ける必要があります。 ビジネスロジックで分割-プレミアムトレーナーに既に従事している場合、非プレミアムを提供すべきではありません。



または銀行部門の例。 銀行には独自に販売される製品があり、他の製品と一緒に販売されることが多いものがあります。 私たちはカードを買うかローンを取り、同時に保険を売ります。 保険会社でも同様の話です。 自動車保険を購入することはできますが、同時に生命保険を販売することもできます。



そのため、ビジネスを知らないが、購入を予測するタスクがある場合は、次の操作を実行できます。「見てください、多くのお客様がこのトレーニング/保険を購入しています」。 そして、その上でモデルの構築を開始して、販売を促進します。 しかし、ビジネスでは、このトレーニング/保険は何かにのみ当てはまることを知っています。 また、モデルでさえ良い結果になることがありますが、製品は個別に動作しません。



モデルを構築する際、ビジネスの仕組みに関連する入門書が常にあります。 そして、それらを誤って定式化すると、意味がなくなります。 そのため、実際の科学者データに加えて、数学のビジネスと友達になる製品所有者、製品管理者が必要です。



これらの2つの役割は、ビッグデータチームにとって必須です。 重要:複数の事業部門がある場合、各方向に独自の製品が必要です。 データサイエンティストは普遍的です。



製品の所有者がすべてを開始したと言うことさえできます。 特定の企業で機械学習のケーススタディを考え出し、次にこれらのケースの実装を推進します。



しかし、彼らが言うように、それだけではありません。



掘りプログラマー



銀行が海外に頻繁に旅行する顧客のために特別なカードを宣伝することを決めたと想像してください。 いわゆるサインを形成するために、彼はどのような履歴データを自分自身に向けることができますか? 最も明白なのは、ある時点で、クライアントのカードで海外取引があったことです。 症状は単純ですが、明確な要件を与える必要があります。 そのような取引は年に何回ですか? どの時点で? 期間は? このすべてを定式化し、属性が正しく選択されるように単純なデータからエンコードする必要があります。 これを行うには、データエンジニアという別の人が必要です。



役割のタスクは本当に異なります。 データサイエンティストは優れたモデルを構築する必要があります。 モデルが迅速に機能するように、どの機能、ケース、使用するアルゴリズム、最適化する方法を選択することに頭を悩ませています。 データエンジニアは、プログラマやデータベース開発者に似ています。 彼は10/100/500の異なるテーブルとソースからデータを収集し、これを計算し、これを比較し、これを考慮に入れて、これとそれを行う必要があります。



重要なポイント:データエンジニアは、最初の段階で電源を入れません。 すでに見てきたように、開発サイクルは、実験段階(MVP-最低限実行可能な製品)と生産段階で構成されています。 実験中、アップロードするデータを毎回エンジニアに明確に説明することは非常に困難です。 創造性があり、仮説が練られ、データはさまざまな形で回転しています。 ここでは、科学者とエンジニアの間のわずかな不快感でさえ、MVPの準備が数週間遅れます。



より正確には、データがない場合はデータサイエンティストが作業する必要がないため、データエンジニアはデータ準備の最初の反復を行います。 さらに、データサイエンティストはモデルの機能を繰り返し構築します。 モデルが成功し、Data Scientistの仕様に従って生産的なデータエンジニアに変換する必要がある場合、通常の特性計算のための生産的なコードを記述します。



したがって、現在の傾向:MVPの段階で、科学者は独立してデータを準備します。 しかし、その後、モデルが構築され、全員がそれを受け入れると、データサイエンティストは、必要な属性がどのように形成されるかを明確に説明し、これを別のトレーニングを受けた人に渡します。 彼はそれらが製品で常に使用されるようにプログラムします。



一方、ビジネスの目標がまだ決まっていなくても、会社には使用したい膨大なデータがある場合は、この話をねじ曲げることができます。



この場合、条件付きで100ケース、100 MVPを試し、そこから撮影できます。 個々のケースごとにMVPを構築するプロセスを拡張すると、80%がデータ準備に、20%がモデル自体になります。 毎回、異なるマルチフォーマットのソースからデータを取得する必要があります。 それらを論理的で理解可能なサインに集めます。例えば、「ポイントNでの取引」は「年に何度も海外旅行」に変わるべきです。



この作業には多くの時間がかかります。 何らかのデータベクトルを使用してモデルを構築し、それが悪いことが判明した場合は、戻ってデータを再度アップロードします。 それぞれのケースで100を超えます。これらの反復を可能な限りすべての属性を備えた大規模な「ショーケース」が事前にある場合、これらの反復を最適化することは可能です。 このような「ショーケース」を作成することは、科学者のデータの指導の下でのデータエンジニアの仕事です。 実験は大幅に加速されます-モデルの入力パラメーターを選択して、すばやく変更できます。



Orchestra Big Data Conductors



データが収集され、モデルが構築され、彼らはビジネスと友達になりました。 それだけですか?



すべてではありません。 このビッグデータのストーリーにはリーダーが必要です。 この投稿は最もシンプルで理解しやすいようですが、これは完全に真実ではありません。 リーダーは、通常あまり結合されていない2つのプロパティを結合する必要があります。



企業でゼロからビッグデータを開始する場合、戦略の頭とドライバーとして戦略家と売り手が必要です。 彼は、ビッグデータを扱うことが非常に重要である理由を会社全体に説明します。 革新的なものの開始時には、多数の仮定に基づいているため、明確なビジネスケースを求めることは非常に難しいことは明らかです。 したがって、ストラテジストは次のように説明します:みんな、「トップダウン」(トップダウン)の原則に基づいてビッグデータを計画します。 そして、次のようなさまざまな程度のグローバル性の目標を設定します。



-5年後、プロジェクトからの収益、ビッグデータに関連する製品は収益の10%になる

-デフォルトリスクを20%削減

-非効率なオフィスを30%削減



などなど。



一方、この戦略家は組織内でアイデアを販売できなければなりません。



問題は、そのような人がすでに見つかっている場合、戦術的な問題で彼にとって難しいことです。 物理レベルで戦略家のアイデアを具体化するには、運用担当者が必要です。 彼はビジネスプロセス、アナリスト、プロダクトマネージャーを構築し、すべてをアジャイルに行います。 これらすべてが迅速に機能することが重要です。 したがって、リーダーシップは2つの部分に分かれています。戦略家は明るい未来を担当し、オペレーターは戦略家に従属し、計画を実行します。 それらのどれも自分で対処することはできません。



この問題は、まったく異なる角度から見ることができます。 ビッグデータテクノロジーの実装が、これらのテクノロジーが新しい大規模なクラシック制作会社で計画されていると想像してください。 誰が担当しますか? さまざまな業界でビッグデータを適用した豊富な経験とこの分野の知識を持つ外部の人、または社内に長く在籍している社内の人は、かなり高い地位にあり、誰もが知っていて尊敬する多くのプロジェクトを実施していますか?



会社の内部からの働き方を知っている内部の人が、人とそこにいるプロセスを知っていれば、さらに多くのことが達成できることは明らかだと思います。 したがって、彼を支援するために、彼はビッグデータの実装の経験を持つ外部からの人を配置する必要があります。そうすれば、彼は必要な指示を示し、ビッグデータチームを管理します。



太陽の下で



構図が決まりました。 ビッグデータオーケストラを適切な部門に従属させることは残っています。



最適化するビジネスの方向に定義することは論理的です。 会社が成熟していれば良いです。 次に、目標売上にビッグデータを配置してみます。 それを機能させるために事業所が必要です。 たとえば、銀行の場合、顧客を保持したい場合、モデルによって選択された顧客と通信し、実際に顧客を保持できる支店が必要です。 銀行のオフィスの場所を計画するためにビッグデータを使用したい場合、これらのオフィスの開設に従事する支店が必要です。 銀行のスコアリング用にデータを最適化したい-リスクを担当する支店が必要です。 モデルの結果を処理する責任を負うビジネスの指示がなければ、何も起こりません。



世界的には、上記の直接のサポートがなければ、このトピックは単純に始まりません。同じトップダウン戦略が必要です。 特に、すでにそのプロセスで忙しく、あらゆる種類の革新に目を向けている方向性のサポートが必要な場合。



企業でのビッグデータの実装の側面について詳しく知りたい、当社のウェブサイトにある他の出版物を読む、またはデータスクールで勉強したい



投稿はキエフスターPJSCのビジネスHUBにある学校の創設者の発表に基づいて、データスクールによって作成されました。



All Articles