RapidMinerの機械孊習





ドミトリヌ・゜ボレフ、むゎヌル・マスタヌナダ、ラファ゚ル・ズバむロフ



収集されたメトリックの総量がどれほど急速に増加しおいるかに気付かないこずは、単に䞍可胜です。 自動システムがデヌタを収集する頻床、デヌタりェアハりスのスルヌプットだけでなく、䜿甚できる䞀連のメトリックも増加しおいたす。 この傟向はIoTで最も顕著ですが、他の業界は膚倧なデヌタ゜ヌスを誇っおいたす-パブリックたたは特別なサブスクリプションによっおアクセス可胜です。



デヌタ量の増加は、ビゞネスタスクの最適化に取り組むアナリストや専門家にずっお新たな課題を生み出したす。 䞖界経枈の発展のペヌスは増加しおいたすが、個々の䌁業が拡倧できるのは、たさにミクロレベルの倉化に察する迅速な反応です。 そしお、ここでデヌタ分析ず機械孊習ツヌルが助けになりたす。



2000幎代、機械孊習ず詳现なデヌタ分析は、倧孊グルヌプず専門のスタヌトアップの運呜でした。 今日、どの䌁業も、自動システムを䜜成するためのほが無制限のアルゎリズム、アプロヌチ、タヌンキヌ゜リュヌション、およびデヌタ分析甚の補品セットにアクセスできたす。



機械孊習は珟圚、MicrosoftおよびGoogleの䌁業だけでなく、䞭小䌁業でも高品質のデヌタ分析たたは掚奚システムを掻甚できたす。 最近たでそのような方法の䜿甚にプログラマヌ、アナリスト、デヌタサむ゚ンティストの雇甚が必芁であった堎合、機械孊習のサヌビスずアプリケヌションが垂堎に登堎しおいるため、グラフィカルむンタヌフェむスを䜿甚しお、より䜿いやすい圢匏でデヌタを凊理し、予枬モデルを構築できたす。 この分野の最䜎限の知識を持぀人でさえ、それらを䜿甚するこずができたす。



珟圚、自動化および簡玠化された機械孊習の䞊䜍3぀は、DataRobot、RapidMiner、およびBigMlで構成されおいたす。 この蚘事では、RapidMinerを詳しく芋おいきたす。圌ができるこずず、圌があなたの人生を楜にする方法に぀いおお話したす。



ラピッドメむン



どのビゞネスでも、「劎働力」指暙を別々の期間に評䟡するこずが非垞に重芁です。 これにより、垞に倧郚分が人事に結び付けられおいるビゞネスプロゞェクトを蚈画できたす。 远加のリスク芁因は、颚邪の季節的な発生である可胜性がありたす。毎幎冬には、かなりの割合の埓業員が病気䌑暇を取っおいたす。 その結果、プロゞェクトの完了日は延期され、もちろん、どの䌚瀟もそのようなシフトを避けたいず考えおいたす。 機械孊習が圹立ちたす。



RapidMinerを䜿甚しお、颚邪に関するデヌタを分析し、病気の発生を予枬できるモデルを構築したす。 予枬の結果に基づいお、䌚瀟は事前に察策を講じ、損倱を回避するこずができたす。



プログラムに慣れたしょう





図 1 RapidMinerのスクリヌンフォヌム。



画面の巊偎には、デヌタ読み蟌みパネルず操䜜パネルがありたす。 RadpidMinerは、デヌタベヌスたたはクラりドストレヌゞAmazon S3、Azure Blob、Dropboxからデヌタをダりンロヌドする機胜を提䟛したす。 䟿宜䞊、挔算子のセットはカテゎリに分類されたす。





いく぀かの䞻芁なカテゎリに぀いお説明したした。各カテゎリには、独自のサブカテゎリず挔算子のさたざたなバリ゚ヌションがありたす。 増え続けるRapidMiner Marketplaceからオペレヌタヌを远加する可胜性に泚意する䟡倀がありたす。 たずえば、䜿甚可胜な拡匵機胜には、デヌタセットを時系列に倉換できる挔算子がありたす。



画面の䞭倮郚分には、デヌタ倉換プロセスを䜜成するためのワヌクスペヌスがありたす。 ドラッグアンドドロップを䜿甚しお、䜜業察象のプロセスにデヌタを远加し、デヌタ倉換、モデリングなどの挔算子を远加したす。デヌタず挔算子の関係を蚭定するこずで、プロセスの進行状況を蚭定したす。 䞭倮の䞋郚には、他のナヌザヌが䜜成したプロセスに基づいたヒント付きのツヌルバヌがあり、次に実行する操䜜をアドバむスしたす。 右偎には、遞択した操䜜のパラメヌタヌず、パラメヌタヌず操䜜の原則の詳现なドキュメントを含むパネルがありたす。



たず、颚邪に関連するGoogleのりクラむナの怜玢ク゚リの数に関するデヌタ図2を参照をアップロヌドしたす。 アプリケヌションのセクションの衚1にデヌタの䟋を芋るこずができたす。





図 2りクラむナのデヌタの皮類



デヌタは、2005幎から2015幎たでの週末のリク゚スト数を衚したす。 デヌタをむンポヌトする堎合、タむムスケゞュヌルを正しく構築するために日付圢匏を指定する必芁がありたす。 デヌタブロックの出力をプロセス結果resの出力ポむントに接続したす。 「開始」ボタンを抌すず、プログラムは䞀般的な統蚈を衚瀺したす。 結果を図に瀺したす。 4。





図 3䞀般的な統蚈を生成するプロセス。





図 4りクラむナのデヌタの䞀般統蚈。



[チャヌト]タブを䜿甚しお、デヌタ分垃グラフをプロットしたす図5。 グラフは、颚邪の発生の芋かけの頻床を反映しおいたす。最初の波は秋に始たり、2月たでにピヌクを芳枬できたす。 次に、ロシアのデヌタを取埗し、同じ呚期性がロシアに残っおいるかどうか、発生がりクラむナで割り圓おた期間ず䞀臎するかどうかを確認したす。 これを行うには、新しいデヌタをアップロヌドし、以前にダりンロヌドしたデヌタず組み合わせたす。 「結合」挔算子を䜿甚しお日付フィヌルドを䜿甚しお結合したす。



図に瀺すグラフでは 5ず6から、呚期性が持続し、入射ピヌクがほが䞀臎するこずがわかりたす。





図 5 2005幎以降のコヌルドリク゚ストの数。





図 6りクラむナずロシアの颚邪に関するデヌタ。



モデル構築



りクラむナの症䟋数を予枬するモデルの構築に移りたしょう。 過去4週間玄1か月の倀に基づいお、来週のシリヌズの倀を予枬したす。 この蚘事では、盎接分垃ニュヌラルネットワヌクを䜿甚しお時系列を予枬したす。 ニュヌラルネットワヌクの遞択は、モデルパラメヌタヌの遞択の単玔さずそのさらなる䜿甚によっお正圓化されたす。 自己回垰モデルおよび移動平均モデルずは察照的に、ニュヌラルネットワヌクは時系列の盞関分析を必芁ずしたせん。



図 図7は、時系列の倀を予枬できるプロセスの図を瀺しおいたす。





図 7 RapidMinerで予枬を䜜成するプロセス。



ニュヌラルネットワヌクオペレヌタヌが正しく機胜するためには、元の時系列をトレヌニングサンプル圢匏に倉換する必芁がありたす。 これを行うには、Series ExtensionのWindowing挔算子を䜿甚したした。 したがっお、倀の列から次の圢匏のテヌブルを取埗したした。



è¡š1.ニュヌラルネットワヌクのトレヌニングセットの衚瀺







次に、「属性の遞択」挔算子を䜿甚しお、遞択から䜙分なフィヌルドを削陀したした倀1〜4の日付。 教垫によるニュヌラルネットワヌクの指導は、トレヌニングおよびテストサンプルの存圚を意味するため、「Split Data」挔算子を䜿甚しお、BPを80から20の比率で分割したした。「Neural Net」挔算子のドキュメントによれば、 「ラベル」。「ロヌルの蚭定」挔算子が䜿甚されたした。 列「予枬日」は予枬に関係しないため、ロヌル「Id」を割り圓おる必芁がありたす。 「Split Data」挔算子の2番目の出力ず「Neural Net」挔算子の「mod」出力は、察応する「ApplyModel」入力に接続されたす。 「モデルの適甚」挔算子は、トレヌニングサンプルの入力に制埡サンプルを送信し、予枬倀ず実際の倀を比范したす。 プロセスの最終段階は「パフォヌマンス」挔算子です。これは、結果の゚ラヌを刀断するために必芁です。 「Set Role2」を䜿甚しお「Apply model」から取埗した予枬倀には、「Prediction」ロヌルが割り圓おられたした。



䜿甚されるニュヌラルネットワヌク挔算子のパラメヌタヌず蚈算゚ラヌを考慮しおください。 経隓的に、図8に瀺すニュヌラルネットワヌクのアヌキテクチャに到達したした。ディヌプフィヌドフォワヌドニュヌラルネットワヌクには、最初の4぀のニュヌロンず2番目の12の2぀の隠れ局がありたす。 掻性化関数ずしお、シグモむドが䜿甚されたした。 トレヌニングは、0.5のトレヌニング係数ず1500のサむクル数で正芏化された入力デヌタで実行されたした。



予枬結果



RapidMinerは、モデルの結果ずしお3぀の成果物を提䟛したす。

モデルそのグラフィカル衚珟、パラメヌタヌ、および重みベクトル。

蚈算された゚ラヌの結果。

予枬倀の列で補完されたテストデヌタのサンプル。





図8.ニュヌラルネットワヌクアヌキテクチャ





図 9予枬倀ず実数倀のグラフ



図 9予枬の結果を確認できたす。 ご芧のずおり、予枬デヌタを含むグラフは実際のデヌタに非垞に近いものです。 匏1、2を䜿甚しお予枬誀差を蚈算し、構築されたモデルの結果を評䟡したす。











ここで、Anは実数倀、Fnは予枬倀



蚈算の結果、次のようになりたした。



MAPE = 5.473



MAE = 21.7484



結論



機械孊習技術の倧芏暡な導入には、゚ンドナヌザヌにずっおさたざたな耇雑さのツヌルの䜜成が必芁でした。 この蚘事で玹介されおいるRapid Minerプログラムは、機械孊習テクノロゞヌの孊習を開始するための゚ントリヌしきい倀を䞋げたす。



このプログラムを䜿甚する堎合、PythonたたはRでコヌドを蚘述する必芁はありたせん。RapidMinerは、あらゆる方法で、デヌタ準備、モデルトレヌニング、怜蚌、粟床評䟡のチェヌンの次のアクションを促したす。 プロセス内のいく぀かの゚ラヌを自動的に修正し、完党に明確ではない特定のポむントを支揎および説明するこずができたす。



蚘事を曞くずき、RapidMinerの機胜を調べたした。 非垞に広範囲であり、耇雑なニュヌラルネットワヌクアヌキテクチャを䜿甚し、パラメヌタを埮調敎する機胜を提䟛したす。アクティベヌション関数の遞択、隠れ局のニュヌラル接続の蚭定など。ラむセンスの存圚により、Rapid Minerクラりドでのコンピュヌティングが可胜になり、トレヌニング時間を短瞮し、プロセスを高速化する必芁がありたすその他の特性。 たた、このラむセンスにより、より倚くのデヌタをダりンロヌドでき、ナヌザヌを1䞇行に制限するこずはありたせん。



この蚘事で構築された数孊モデルは、テストデヌタで玄6の誀差に達し、いく぀かの倉曎を加えお、颚邪の成長を予枬するために䜿甚できたす。 ただし、私たちの䞻な目暙は、䜿甚するプログラムのシンプルさず簡朔さを瀺すこずでした。



Rapid Minerず同様のアプロヌチを䜿甚するず、どの䌁業でも颚邪の発生ず同様の状況を予枬できたす。 予枬に基づいおずられた予防策は、リスクを枛らし、最終的に利益を増やすこずができたす。



䜿甚材料のリスト



  1. Google Flu Dataロシア連邊
  2. Google Flu Data Ukraine
  3. RapidMinerを䜿甚したコストモデリングの時系列予枬1/2


甹途



è¡š1.りクラむナずロシアのデヌタ䟋

日付 りクラむナ ロシア
2005幎10月 359 296
2005幎10月 534 307
2005幎10月23日 672 329
2005幎10月30日 660 411
2005/11/11 596 417
2005/11/13 540 371
2005/11/20 503 316
2005/11/27 461 341
2005幎12月4日 453 362
2005幎12月12日 432 357
2005幎12月18日 422 415
2005幎12月25日 411 409
2006幎1月1日 404 436
2006幎1月8日 385 362
2006幎1月15日 366 327
2006幎1月1日 359 313
1/29/2006 358 304
2006幎5月2日 337 329
2006幎2月2日 329 344
2006幎2月19日 340 413



All Articles