CRISP-DMデヌタサむ゚ンティスト向けの実蚌枈みの方法論

機械孊習の問題の蚭定は数孊的に非垞に簡単です。 分類、回垰、たたはクラスタリングのタスクは、基本的に制玄のある通垞の最適化タスクです。 それにもかかわらず、既存のさたざたなアルゎリズムずそれらを解決する方法により、デヌタ分析の専門家は最も創造的なIT専門家の1人になっおいたす。 問題の解決策が「黄金の」解決策の無限の怜玢に倉わるのではなく、予枬可胜なプロセスであるように、かなり明確な䞀連のアクションに埓う必芁がありたす。 この䞀連のアクションは、CRISP-DMなどの方法論で説明されおいたす。



CRISP-DMデヌタ分析方法論はHabréの倚くの投皿で蚀及されおいたすが、詳现なロシア語の説明が芋぀からなかったため、このギャップを私の蚘事で埋めるこずにしたした。 私の資料の䞭心にあるのは、 IBMの オリゞナルの説明ず適合した説明です。 CRISP-DMを䜿甚する利点に぀いおの抂芁の講矩は、たずえばここで芋るこずができたす 。





*クリスプ英語-クリスプ、チップス



私はCleverDATA LANITグルヌプの䞀郚で2015幎からデヌタサむ゚ンティストずしお働いおいたす。 私たちは、䞻にデヌタ駆動型マヌケティング぀たり、顧客デヌタの「深い」分析に基づくマヌケティングの分野で、ビッグデヌタず機械孊習の分野のプロゞェクトに埓事しおいたす。 たた、 1DMPデヌタ管理プラットフォヌムず1DMC デヌタ亀換も開発しおいたす。 私たちの兞型的な機械孊習プロゞェクトは、顧客の䞻芁なビゞネス指暙を最適化するための予枬 予枬および芏範 最適なアクションを掚奚モデルの開発ず実装です。 倚くの同様のプロゞェクトで、CRISP-DM方法論を䜿甚したした。



デヌタマむニングのCRoss業界暙準プロセスCRISP-DMは、特定のタスクや業界に関係なく、産業甚デヌタマむニングプロゞェクトで䜿甚されるデヌタ分析の䞀般的なプロセスずアプロヌチを蚘述する暙準です。



よく知られおいる分析ポヌタルkdnuggets.orgは定期的に調査を公開しおいたすたずえば、 こちら 。CRISP-DMはデヌタ分析方法の䞭で定期的に第1䜍を占めおおり、SEMMAは倧きな差を぀けおおり、KDDプロセスはほずんど䜿甚されおいたせん。







゜ヌス kdnuggets.com



䞀般に、これら3぀の方法論は互いに非垞によく䌌おいたすここで根本的に新しいものを思い付くのは困難です。 ただし、CRISP-DMは最も包括的で詳现なものずしお人気を博しおいたす。 それに比べお、KDDはより䞀般的か぀理論的であり、SEMMAは単にSAS Enterprise Minerツヌルの意図された目的のための機胜の線成であり、タスクのビゞネス蚭定に觊れるこずなく、モデリングの技術的偎面のみに圱響したす。



方法論に぀いお



この方法論は1996幎に3瀟珟圚のダむムラヌクラむスラヌ、SPSS、およびテラデヌタの䞻導で開発され、デヌタマむニングプロゞェクトの経隓を持぀さたざたな業界の200瀟の参加によりさらに開発されたした。 これらの䌁業はすべお異なる分析ツヌルを䜿甚しおいたしたが、党員のプロセスは非垞に䌌おいたした。



この方法論はIBMによっお積極的に掚進されおいたす。 たずえば、IBM SPSS Modeler以前のSPSS Clementineず統合されおいたす。



方法論の重芁な特性は、䌚瀟のビゞネス目暙に泚意を払うこずです。 これにより、管理者はデヌタ分析プロゞェクトを実隓のサンドボックスずしおではなく、䌚瀟のビゞネスプロセスの本栌的な芁玠ずしお認識するこずができたす。



2番目の機胜は、各ステップのかなり詳现なドキュメントです。 著者によるず、十分に文曞化されたプロセスにより、経営陣はプロゞェクトの本質をよりよく理解でき、アナリストは意思決定により圱響を䞎えるこずができたす。



CRISP-DMによるず、分析プロゞェクトは、順番に実行される6぀の䞻芁なステップで構成されおいたす。





方法論は難しくありたせん。 特定のプロゞェクトに応じお倉曎するこずができたす-前の手順に戻るこずができ、解決するタスクにずっお重芁でない堎合は、いく぀かの手順をスキップできたす。







りィキペディアの゜ヌス



これらの各段階は、順番にタスクに分割されたす。 各タスクの出力で、特定の結果を取埗する必芁がありたす。 タスクは次のずおりです。





゜ヌスCrisp_DMドキュメント



手順の説明では、この蚘事の焊点はプロセスにあるため、数孊ずアルゎリズムに぀いおは意図的に掘り䞋げたせん。 読者は機械孊習の基本に粟通しおいるず思いたすが、念のため、次の段萜で基本甚語に぀いお説明したす。



たた、この方法論は、内郚プロゞェクトず、コンサルタントがプロゞェクトを実斜する状況の䞡方に等しく適甚可胜であるずいう事実にも泚目したす。



機械孊習のいく぀かの基本抂念



原則ずしお、分析プロゞェクトの䞻な結果は数孊モデルです。 モデルずは䜕ですか



事業に関心のある特定の䟡倀を持たせる-y 䟋えば、クラむアントの流出の可胜性。 たた、デヌタ x たずえば、カスタマヌサポヌトコヌルがあり、これはyに䟝存する堎合がありたす。 ビゞネスはyがxにどのように䟝存するかを正確に理解したいので、埌でxの蚭定を通じおyに圱響を䞎えるこずができたす。 したがっお、プロゞェクトのタスクは、研究された䟝存関係y = f x を最適にモデル化する関数fを芋぀けるこずです。



モデルずは、匏fxたたはこの匏を実装するプログラムを意味したす。 すべおのモデルは、たず孊習アルゎリズムこれは回垰、決定朚、募配ブヌスティングなどで蚘述され、次にパラメヌタヌのセット各アルゎリズムには独自のもので蚘述されたす。 モデルトレヌニングは、モデルが芳枬デヌタに最も近いパラメヌタヌを怜玢するプロセスです。



トレヌニングセット -xずyのペアを含むテヌブル。 この衚の行はケヌスず呌ばれ、列は属性ず呌ばれたす 。 十分な予枬胜力を持぀属性は、 予枬子ず呌ばれたす。 「教垫なし」トレヌニングの堎合クラスタリング問題など、トレヌニングサンプルはxのみで構成されたす。 スコアリングずは、芋぀かった関数fxを新しいデヌタに適甚するこずであり、 yに぀いおはただ䞍明です。 たずえば、クレゞットスコアリングのタスクでは、最初にクラむアントによる債務の支払い遅延の確率がモデル化され、次に開発されたモデルが新しい申請者に適甚されお、信甚床が評䟡されたす。



方法論の段階的な説明





出所



1.ビゞネス分析ビゞネス理解



最初のステップでは、プロゞェクトの目暙ず範囲を決定する必芁がありたす。



プロゞェクトの目的ビゞネス目暙



たず第䞀に、私たちは顧客を知り、圌が本圓に欲しいものを理解しようずしたすたたは圌に䌝えたす。 次の質問は答えを埗るのに良いでしょう。





1.2珟圚の状況珟圚の゜リュヌションの評䟡





出所



顧客ず䞀緒に䜕が欲しいのかを刀断したら、珟圚の珟実を考慮しお、提䟛できるものを評䟡する必芁がありたす。



プロゞェクトに十分なリ゜ヌスがあるかどうかを評䟡したす。





プロゞェクトのありそうなリスクを蚘述し、それらを枛らすための行動蚈画を決定する必芁がありたす。



兞型的なリスクは次のずおりです。





顧客ず請負業者が同じ蚀語を話すこずが重芁であるため、プロゞェクトを開始する前に、甚語集を線集し、プロゞェクトで䜿甚される甚語に同意するこずをお勧めしたす。 したがっお、テレコムの流出モデルを䜜成しおいる堎合、流出を考慮する正確な内容たずえば、4週間連続しおアカりントに倚額の請求がない堎合に盎ちに同意する必芁がありたす。



次は少なくずも倧䜓ROIを評䟡するこずです。 機械孊習プロゞェクトでは、倚くの堎合、プロゞェクトたたはパむロットモデリングの完了時にのみ、投資回収の合理的な芋積もりを取埗できたすが、朜圚的なメリットを理解するこずは、すべおの人にずっお良い掚進力ずなりたす。



1.3分析の芳点から解決された問題デヌタマむニングの目暙



ビゞネス甚語でタスクを蚭定した埌、技術甚語で説明する必芁がありたす。 特に、次の質問に答えたす。





1.4プロゞェクト蚈画



すべおの基本的な質問に察する回答が埗られ、プロゞェクトの目暙が明確になったら、すぐにプロゞェクト蚈画を䜜成したす。 蚈画には、実装の6぀のフェヌズすべおの評䟡を含める必芁がありたす。



2.デヌタの理解



プロゞェクトを開始し、最初にデヌタを確認したす。 このステップではシミュレヌションは行われず、蚘述的な分析のみが䜿甚されたす。



このステップの目的は、提䟛されたデヌタの長所ず短所を理解し、それらの十分性を刀断し、それらの䜿甚方法に関するアむデアを提䟛し、顧客のプロセスをよりよく理解するこずです。 これを行うには、グラフを䜜成し、遞択を行い、統蚈を蚈算したす。



2.1デヌタ収集





出所



たず、顧客が持っおいるデヌタを理解する必芁がありたす。 デヌタは次のずおりです。





顧客がアクセスしたすべおの゜ヌスを分析する必芁がありたす。 自分のデヌタが十分でない堎合は、サヌドパヌティを賌入するか、新しいデヌタのコレクションを敎理する䟡倀がありたす。



2.2デヌタの説明



次に、利甚可胜なデヌタを確認したす。





2.3デヌタ探玢



グラフず衚を䜿甚しお、デヌタを調べお、これらのデヌタが問題の解決にどのように圹立぀かに぀いお仮説を立おたす。



ミニレポヌトでは、デヌタに興味深いものが芋぀かったこずず、朜圚的に有甚な属性のリストを修正したす。



2.4デヌタ品質



䞍䞀臎はプロゞェクトの進行に圱響する可胜性があるため、モデリングの前でもデヌタの品質を評䟡するこずが重芁です。 デヌタの難しさは䜕ですか





3.デヌタの準備





出所



デヌタの準備は、埓来、機械孊習プロゞェクトの最も時間のかかる段階です説明では、プロゞェクト時間の玄50〜70を瀺しおいたすが、私たちの経隓ではさらに倚くのこずがありたす。 このステヌゞの目的は、モデリングで䜿甚するトレヌニングセットを準備するこずです。



3.1デヌタ遞択



最初に、モデルのトレヌニングに䜿甚するデヌタを遞択する必芁がありたす。



属性ずケヌスの䞡方が遞択されおいたす。



たずえば、サむトの蚪問者に補品の掚奚を行う堎合、登録ナヌザヌのみの分析に制限したす。



デヌタを遞択する際、アナリストは次の質問に答えたす。





3.2デヌタのクリヌニング



朜圚的に興味深いデヌタが遞択された堎合、その品質をチェックしたす。





出力は、品質属性、修正された属性、拒吊されたものの3぀の属性リストです。



3.3新しいデヌタの構築



倚くの堎合、 フィヌチャ゚ンゞニアリングはデヌタの準備における最も重芁なステップです。適切に蚭蚈されたフィヌチャは、モデルの品質を倧幅に向䞊させるこずができたす。



デヌタ生成には以䞋を含めるこずができたす。





3.4デヌタの統合



デヌタが䌁業の倉庫QCDたたは事前に準備されたストアフロントから取埗されるず䟿利です。 ただし、倚くの堎合、デヌタは耇数の゜ヌスからダりンロヌドする必芁があり、トレヌニングサンプルの統合が必芁です。 統合は、「氎平」接続マヌゞ、「垂盎」接続远加、およびデヌタ集玄ずしお理解されたす。 出力は、原則ずしお、トレヌニングサンプルずしお分析゜フトりェアに配信するのに適した単䞀の分析テヌブルです。



3.5デヌタのフォヌマット



最埌に、デヌタをモデリングに適した圢匏にする必芁がありたす特定のデヌタ圢匏で機胜するアルゎリズムのみ。 そのため、たずえば流通ネットワヌクの月間売䞊を予枬するなど、時系列の分析に぀いお話しおいる堎合は、おそらく事前に゜ヌトする必芁がありたす。



4.モデリング



4番目のステップでは、楜しい郚分が぀いに始たりたす-モデルのトレヌニング。 原則ずしお、反埩的に実行されたす-異なるモデルを詊し、それらの品質を比范し、ハむパヌパラメヌタヌの怜玢を行い、最適な組み合わせを遞択したす。 これはプロゞェクトの最も楜しい段階です。



4.1モデリング手法の遞択



どのモデルを䜿甚するかを決定する必芁がありたす良い、それらの倚くがありたす。 モデルの遞択は、解決される問題、属性の皮類、耇雑さの芁件に䟝存したすたずえば、モデルがExcelでさらに実装されおいる堎合、RandomForestずXGBoostは明らかに機胜したせん。 遞択するずきは、次のこずに泚意する必芁がありたす。





4.2テスト蚈画テスト蚭蚈の生成



次に、トレヌニングの察象ず、モデルのテスト察象を決定する必芁がありたす。



埓来のアプロヌチでは、サンプルをおよそ60/20/20の割合で3぀の郚分トレヌニング、怜蚌、テストに分割したす。 この堎合、トレヌニングサンプルを䜿甚しおモデルのパラメヌタヌを適合させ、怜蚌ずテストを行っお、 再トレヌニングの効果をクリアした品質の評䟡を取埗したす。 より耇雑な戊略には、さたざたな盞互怜蚌オプションの䜿甚が含たれたす。



ここで、モデルハむパヌパラメヌタヌの最適化の方法、぀たり、 grid-searchたたはrandom-searchを実行するかどうかにかかわらず、各アルゎリズムの反埩回数を蚈算したす 。



4.3モデルの構築



トレヌニングサむクルを開始し、各反埩埌に結果を修正したす。 出力では、いく぀かの蚓緎されたモデルを取埗したす。



さらに、トレヌニング枈みの各モデルに぀いお、以䞋を修正したす。





4.4モデルの評䟡





出所



モデルのプヌルが圢成された埌、それらを再床詳现に分析し、勝ったモデルを遞択する必芁がありたす。 出力は、客芳的および/たたは䞻芳的な基準で゜ヌトされたモデルのリストを持぀ず䟿利です。



ステップの目的





成功基準が達成されない堎合、珟圚のモデルを改善するか、新しいモデルを詊すこずができたす。



実装を進める前に、次のこずを確認する必芁がありたす。





5.評䟡





出所



前のステップの結果は、構築された数孊的モデルモデルず、芋぀かったパタヌン結果です。 5番目のステップでは、プロゞェクトの結果を評䟡したす。



5.1結果の評䟡



前の段階で技術的な芳点からシミュレヌション結果を評䟡した堎合、ここでビゞネス目暙を達成する芳点から結果を評䟡したす。



次の質問に察凊したす。





5.2プロセスを確認する



テヌブルでビヌルを集め、プロゞェクトの進行を分析し、その長所ず短所を定匏化する䟡倀がありたす。 これを行うには、すべおの手順を実行したす。





5.3次のステップの決定



次に、顧客に適しおいる堎合はモデルを導入するか、改善の可胜性があるず思われる堎合は、さらに改善を詊みたす。



この段階で満足のいくモデルがいく぀かある堎合は、匕き続き実装するモデルを遞択したす。



6.展開





出所



プロゞェクトを開始する前に、モデルを提䟛する方法は垞に顧客ず合意されおいたす。 ある堎合には、それは単に加速された顧客ベヌスであり、別の堎合には-SQLフォヌミュラ、3番目に-情報システムに統合された完党に開発された分析゜リュヌションです。



このステップでは、モデルが実装されたすプロゞェクトに実装段階が含たれる堎合。 さらに、実装は機胜の物理的な远加、および䌁業のビゞネスプロセスの倉曎の開始ずしお理解できたす。



6.1展開の蚈画



最埌に、埗られたすべおの結果をたずめたした。 今䜕





6.2モデル監芖の構成蚈画監芖



倚くの堎合、プロゞェクトには゜リュヌションをサポヌトする䜜業が含たれたす。 これが予玄をするものです。





6.3モデリングの結果に関するレポヌト最終レポヌト



プロゞェクトの最埌に、原則ずしお、シミュレヌションの結果に関するレポヌトが曞き蟌たれたす。このレポヌトには、初期デヌタ分析からモデルの導入たでの各ステップの結果が远加されたす。 このレポヌトには、モデルをさらに開発するための掚奚事項も含めるこずができたす。



曞面による報告は、顧客およびすべおの関係者に提瀺されたす。 TKがない堎合、このレポヌトはプロゞェクトのメむンドキュメントです。 たた、プロゞェクトに関係する埓業員顧客ず請負業者の䞡方ず話し、プロゞェクトに関する意芋を収集するこずも重芁です。



緎習はどうですか



方法論は普遍的なレシピではないこずを理解するこずが重芁です。 これは、デヌタ分析に携わるアナリストがある皋床実行する䞀連のアクションを正匏に蚘述するための単なる詊みです。



CleverDATAでは、デヌタマむニングプロゞェクトの方法論に埓うこずは厳密な芁件ではありたせんが、原則ずしお、プロゞェクト蚈画を䜜成するずき、詳现はこの䞀連の手順に非垞に正確に適合したす。



この方法論は、たったく異なるタスクに適甚できたす。 小売ネットワヌクの顧客が広告オファヌに応答する可胜性を予枬したずき、商業銀行に察する借り手の信甚床を評䟡するためのモデルを䜜成したずき、オンラむンストア甚の補品掚奚サヌビスを開発したずきなど、いく぀かのマヌケティングプロゞェクトでそれに埓いたした。



癟䞀の報告





出所



著者が蚈画したずおり、各ステップの埌にレポヌトを䜜成する必芁がありたす。 ただし、実際にはこれはあたり珟実的ではありたせん。 他の皆ず同じように、顧客が非垞に厳しい期限を蚭定しおいるプロゞェクトがあり、すぐに結果を埗る必芁がありたす。 このような状況では、各ステップの詳现なドキュメントに時間を費やすこずは意味がないこずは明らかです。 必芁に応じお、そのような堎合のすべおの䞭間情報を「ナプキンに」鉛筆で固定したす。 これにより、モデルの実装に迅速に取り組み、期限を守るこずができたす。



実際には、倚くのこずは方法論が必芁ずするよりもはるかに圢匏的に行われたす。 たずえば、通垞、䜿甚するモデルを遞択しお同意する時間を無駄にしたせんが、䜿甚可胜なすべおのアルゎリズムを䞀床にテストしたすもちろん、リ゜ヌスが蚱せば。 属性に぀いおも同じこずを行いたす-各属性の耇数のバリアントを䞀床に準備するため、バリアントの最倧数を詊すこずができたす。 このアプロヌチでは、 機胜遞択アルゎリズムを䜿甚しお、無関係な属性が自動的に削陀されたす-属性予枬胜力の自動決定。



方法論の圢匏䞻矩は、蚈算胜力があたりなく、各アクションを正しく蚈画するこずが重芁だった90幎代に曞き戻されたずいう事実によっお説明されるず思いたす。 珟圚、ハヌドりェアの可甚性ず䜎コストにより、倚くのこずが簡玠化されおいたす。



蚈画の重芁性



最初の2぀の段階を「実行」しお、実装に盎行する誘惑が垞にありたす。 緎習はこれが垞に正圓化されるずは限らないこずを瀺しおいたす。



ビゞネス目暙を蚭定する段階ビゞネスの理解で、提案された゜リュヌションを顧客ず詳现に話し、期埅ず䞀臎するこずを確認するこずが重芁です。䌁業は、すべおの問題を即座に解決し、収益を2倍にする特定の「魔法の」ロボットの結果ずしお受け取るこずを期埅しおいたす。したがっお、プロゞェクトの結果ずしお誰も倱望しないように、顧客が受け取る結果ず顧客がビゞネスに䞎えるものを垞に明確に述べる必芁がありたす。



さらに、顧客はモデルの正確性の正しい評䟡を垞に行うこずができるずは限りたせん。䟋ずしお、オンラむン広告キャンペヌンぞの反応を分析するずしたす。顧客の玄10がリンクをたどっおいるこずを知っおいたす。私たちが開発したモデルは、最も反応の良い1000人の顧客を遞択し、それらの䞭でリンクの4回のクリックごずに-25の粟床を埗るこずがわかりたす。このモデルは良い結果を瀺しおいたす「ランダム」モデルの2.5倍が、顧客にずっお25の粟床は䜎すぎたす80-90の領域の数倀を期埅しおいたす。そしおその逆に、すべおのクラスを1぀のクラスに分類する完党に無意味なモデルは、90の粟床を瀺し、前述の成功基準を正匏に満たしたす。぀たり顧客ずずもに、モデル品質の適切な尺床を遞択し、それを正しく解釈するこずが重芁です。



研究の段階デヌタの理解は、私たちず顧客が自分のデヌタをよりよく理解できるようにするために重芁です。顧客がこの段階で芋぀かったパタヌンの可胜性を確認したため、ステップの結果を提瀺した埌、メむンプロゞェクトず共に新しい結果に同意した䟋がありたした。



別の䟋ずしお、顧客ずの察話に頌り、デヌタの衚面的な調査に限定し、モデリング段階でデヌタの䞀郚が倚数の省略のために適甚できないこずがわかったずきに、プロゞェクトの1぀を挙げたす。したがっお、䜿甚するデヌタを事前に調査するこずは垞に䟡倀がありたす。



最埌に、その完党性にもかかわらず、この方法論はただ非垞に䞀般的であるこずに泚意したい。特定のアルゎリズムの遞択に぀いおは䜕も蚀わず、既成の゜リュヌションを提䟛したせん。私は繰り返したすが、デヌタ科孊者の職業は今でもIT分野で最もクリ゚むティブなものの1぀であるため、これはおそらく創造的な怜玢の䜙地があるためです。



All Articles