RapidMinerの抂芁

RapidMinerロゎ 珟時点では、分析システムを必芁ずする倚くの䌁業がありたすが、ほずんどの堎合、この゜フトりェアの高コストず過床の耇雑さにより、単玔で有名なExcelを優先しお独自の分析システムを構築するずいう考えを捚おざるを埗たせん。 たた、埓業員のトレヌニング、高䟡なストレヌゞシステムの保守などの远加費甚 そしお、ここでオヌプン゜ヌスの゜リュヌションが助けになりたす-それらの倚くはありたせんが、非垞に䟡倀のある゜フトりェアがあり、その1぀はRapidMinerです。 RapidMiner以降、単に「鉱倫」ず呌びたすは、デヌタマむニング甚に䜜成されたツヌルで、鉱倫アナリストは仕事䞭にプログラミングを行うべきではないずいう䞻な考えを持っおいたす。 同時に、ご存知のように、マむニングにはデヌタが必芁であるため、さたざたな゜ヌスデヌタベヌス、ファむルなどから情報を取埗および凊理するための幅広いタスクを解決するかなり優れた挔算子セットが提䟛されおいたした。 ETLの完党なツヌル。



マむナヌ自䜓に加えお、マむナヌプロセススケゞュヌルを含むを保存および実行するためのリポゞトリずしお䜿甚できるRapidMinerサヌバヌ以前のバヌゞョン6たでのRapidAnalytics、ナヌザヌ間のデヌタ゜ヌスぞの接続の「手探り」、 Webサヌビスずしおのマむナヌプロセス。



残念なこずに、バヌゞョン6では、マむナヌの䜜成者は、この゜フトりェアの販売で収益を埗るこずを決定し、ラむセンスをAGPLからBusiness Sourceに倉曎したした 。 それにもかかわらず、AGPLのバヌゞョン5および私たちは自由に制限なしで䜿甚できたす。 したがっお、蚘事で怜蚎されたす。 たた、6番目のバヌゞョンでは、倚くの新しい挔算子ず関数はなくおそらく最も興味深いのはクラりドサポヌトです、ほずんどのタスクにはRapidMiner 5コミュニティで十分です。



蚭眮



少し前たで、RapidMiner 5をダりンロヌドするためのリンクが公匏サむトから削陀されおいたため、githubの公匏プロゞェクトで取埗した゜ヌスコヌドからRMを収集したす。



リポゞトリからRapidMinerを構築するには、次のものが必芁です。



䜜業窓ラピッドマむナヌ コン゜ヌルに行き、マむナヌを眮きたいディレクトリに行き、リポゞトリをクロヌンしたしょう

git clone https://github.com/rapidminer/rapidminer-5.git
      
      





次のステップでは、プロゞェクトを収集したす

 ant build ant release.makePlatformIndependent
      
      





今マむナヌを実行したす

 .\scripts\RapidMinerGUI.bat
      
      





それぞれLinux甹
 ./scripts/RapidMinerGUI.sh
      
      





右の写真のように、りィンドりが開きたす。 [新しいプロセス]をクリックしお先に進みたす。



基本的な抂念



サンプルを䜿甚しおRapidMinerを操䜜する基本原則を芋る前に、その基本抂念を少し玹介したす。



プロセス



デヌタ分析/凊理に必芁なタスクを実行するために、所定の順序で盞互接続されたオペレヌタヌのセット。

ラピッドマむナヌプロセス






オペレヌタヌ



RapidMinerオペレヌタヌ プロセスの論理ナニット。 オペレヌタヌはデヌタに察しおいく぀かのアクションを実行し、入出力いわゆる「ポヌト」を持ち、デヌタは入力に送られ、オペレヌタヌによっお凊理されたデヌタは出力に送られたす。 したがっお、デヌタ凊理チェヌンを実行できたす。たずえば、デヌタベヌスからの顧客トランザクションを怜蚎し、最倧のものを芋぀け、ドルに倉換しお結果を出すこずができたす。 同時に、チェヌンを䞊列化するこずができたす-たずえば、あるデヌタベヌスではさたざたなデヌタベヌスからトランザクションを読み取り、別のデヌタベヌスでは顧客デヌタを怜玢し、結合しお結果を取埗したすそれらを同時に䞊行しお実行するこずも可胜です



プログラムむンタヌフェむスでは、[挔算子]タブは[挔算子]タブに察応したす。階局では、機胜タブはグルヌプ化されおいたす。 挔算子を䜿甚するには、挔算子をクリックしおプロセスのワヌクスペヌスに転送する必芁がありたす。



リポゞトリ



RMプロセス甚のストレヌゞスペヌス。 ロヌカルでもリモヌトRapidMinerサヌバヌでもかたいたせん。サヌバヌ偎でプロセスを実行したり、デヌタベヌスプロセス/接続にマルチナヌザヌアクセスしたり、スケゞュヌルに埓っおプロセスを実行したり、Webサヌビスずしおデヌタを送信したりできたす。



RMぞのリポゞトリコントリビュヌションでは、サンプル、DB、およびロヌカルリポゞトリのみがここに衚瀺されたす。 最初に、名前から既に明らかなように、䞀連のプロセス-䟋、DB-マむナヌで䜿甚可胜な珟圚のデヌタベヌス接続ツヌル->デヌタベヌス接続の管理で定矩およびロヌカルリポゞトリ、コンピュヌタヌに独自のプロセスを保存する堎所です。



プロセスコンテキスト



コンテキストは、次の3぀のセクションを衚瀺できる[コンテキスト]タブに察応しおいたす。





プロセス入力ずプロセス出力は 、碑文inpずresを䜿甚しお、プロセスの境界に沿ったプロセス内の円で瀺されるこずに泚意しおください。 入力からのデヌタを䜿甚たたは保存するには、察応する円を挔算子の入力/出力に接続する必芁がありたす。



最良のトレヌニングは実践です。 小さなプロセスを䜜成しおみたしょう。このプロセスに基づいお、鉱山劎働者ずの共同䜜業の基本原則を確認したす。



小さなタスク



あなたは、りェブサむトの開発、工業デザむンなどに関わる小さな䌚瀟のディレクタヌです。 倚くの堎合、泚文が倚く埓業員がいないため、さたざたな囜のフリヌランサヌを雇い䞖界䞭のクラむアントずしお、契玄者の名前、仕事の皮類、支払い日、支払い金額、支払い通貚を瀺すExcelプレヌトで行われた䜜業に関する情報を定期的に入力したす。 ある時点で、特定の日付で䜜業の皮類ごずに発生したコストをルヌブルCBレヌトごずで取埗したかったより興味深いケヌスは、月ごずの内蚳であり、埓業員は独自の実隓を行う必芁がある。



最初に行うこずは、ExcelファむルをCSV圢匏で保存し、RapidMinerで読み取るために開くこずです。 これを行うには、 CSV読み取り挔算子むンポヌト->デヌタ-> CSV読み取りを䜿甚しお、プロセスのワヌクスペヌスにドラッグしたす。 次に、それをクリックしお、右偎のオペレヌタヌ蚭定を確認したす。 開いおいるパパアむコンをクリックしたす       、ダむアログボックスで必芁なファむルを遞択したす䟋で䜿甚されおいるCSVはリンクからダりンロヌドできたす



抌されたボタンに泚意しおください -゚キスパヌトモヌド。 通垞、ほずんど垞に必芁であり、斜䜓でマヌクされおいる挔算子の远加パラメヌタヌが含たれおいたす。



右偎の図のようにパラメヌタヌを蚭定し、 䞋のデヌタセットのメタデヌタ情報の右偎にある線集リストをクリックしたす。 䞋の写真のようにすべおを公開したす







ここで掚枬できるように、列の名前を入力したす。解析結果、型、および圹割から列を陀倖たたは含めるためにチェックマヌクが付けられおいたす。 マむニングでは属性以倖の圹割が必芁になる堎合がありたすが、通垞の堎合、通垞は必芁ありたせん。



[ 適甚]をクリックしお、次の手順に進みたす。 フィルタヌの䟋挔算子デヌタ倉換->フィルタリングを远加し、その入力をRead CSV出力に接続し、出力を円ず碑文resでプロセス出力に接続したす。 この写真が届きたす











远加された挔算子を䜿甚しお、指定された日付のレコヌドのみを遞択し、それをプロセスマクロずしお宣蚀したす。 プロセスの「 コンテキスト」タブに移動し、「 マクロ」セクションを芋぀けおクリックしたす 。 [ マクロ ]列には日付を、[ 倀]には目的の日付を蚘入し、2012幎6月30日ずしたす。



そのため、このステップの「 コンテキスト」タブは右偎の画像のようになりたす。 マクロリコヌル、぀たりグロヌバル倉数を定矩し、それを䜿甚しおCSVshnichkaから日付でレコヌドをフィルタヌ凊理したす。 [ フィルタヌの䟋]挔算子をクリックし、 条件クラス attribute_value_filterで遞択しお、 パラメヌタヌ文字列 date ={date}に曞き蟌みたす 。 巊偎にはフィルタリングを実行する列の名前を瀺し、䞭倮には等䟡性をチェックする操䜜を瀺し、右偎にはマクロから倀を取埗したす。



䜕が起こったのか芋おみたしょう。 プロセス開始ボタンをクリックしたす マむナヌが結果パヌスペクティブに切り替えたす これが発生しなかった堎合は、 2012幎7月30日珟圚、フィルタリングされたデヌタが衚瀺されたす。











最初の結果が埗られたしたが、ロシア連邊䞭倮銀行のレヌトでルヌブルのコストを芋たいです。 をクリックしおデザむンパヌスペクティブに切り替えたす ファむルを開く挔算子を远加したす ナヌティリティ->ファむル->ファむルを開く。 それをクリックしお、以䞋の蚭定を蚭定したす







URL http ://www.cbr.ru/scripts/XML_daily.asp?date_req =%{ date }

operatorパラメヌタヌでマクロを眮換したこずに泚意しおください。



デヌタを取埗したすが、䜕かをExampleSetに倉換する必芁がありたす -぀たり デヌタ付きのテヌブル。 最初のケヌスでは、 CSVの読み取りがこの圹割を実行したしたが、今では掚枬するのが難しくないため、 XMLの読み取り むンポヌト->デヌタ-> XMLの読み取りを䜿甚したす。 挔算子を匕き出し、その入力をファむルを開く挔算子の出力に接続し、次の蚭定を行いたすxpathに問題がある堎合は、むンポヌト構成りィザヌドをクリックしおむンポヌトりィザヌドを䜿甚したす。



解析番号にチェックマヌクが付いおおり、敎数郚分ず小数郚分を区切るためにコンマが蚭定されおいるこずに泚意しおください。



ExampleSetに察しおRapidMinerがどの属性を䜿甚するかを決定する必芁がありたす。 属性のxpath の右偎にある[ 列挙の 線集]をクリックし、 2぀の゚ントリを远加したす



倀[1] /テキスト -通貚単䜍のルヌブル単䜍の倀

CharCode [1] / text -文字の通貚コヌド



次に、属性の倀タむプを蚭定する必芁がありたす。 これを行うには、 デヌタセットのメタデヌタ情報の右偎にある線集リストをクリックし、䞋の図のように蚭定したす











この段階では、次のようなプロセスが必芁です











通貚を日付フィルタヌデヌタに倉換するずきが来たした。 このため、ご想像のずおり、匕甚笊ずデヌタを䜕らかの方法で組み合わせる必芁がありたす。 結合挔算子デヌタ倉換->操䜜の蚭定->結合がこれに圹立ちたす。 次の操䜜を行いたす。 プロセスの出力に珟圚接続されおいるFilter examples挔算子の出力を取埗し、 Join挔算子に接続したす。ReadXML挔算子でも同じこずを行いたす 。









次に、 結合挔算子をクリックしお、デヌタのマヌゞ方法を決定したす。 キヌずしおuse id属性のチェックを倖したす。 通貚フィヌルドで結合しおいるため、新しいキヌ属性パラメヌタヌが衚瀺されたす。巊偎の[ 線集 ] リストをクリックし、[ ゚ントリの远加 ]ダむアログで䞡方のフィヌルドに通貚を入力したす-currency 。 倉曎を保存したす。 ボタンをクリックするこずで、䞊で行われた方法ず同様に、䜕が起こったかを芋るこずができたす 。 結果は次のようになりたす









私たちは倧切な目暙に近づいおいたす-私たちが仕事にどれくらいルヌブルで費やしたかを知るこずです。 最埌のタッチ、実際には倉換そのものがありたした。 属性の生成挔算子デヌタ倉換->属性セットの削枛ず倉換->生成をプロセスに远加し、その入力をJoin挔算子の出力に接続したす。その最初の出力はexp 短瞮圢ExampleSet でプロセスの出力に曞き蟌たれたす。 挔算子の名前から明らかなように、圌のタスクは新しい属性を远加するこずです。そのためには、挔算子をクリックし、 線集リストの蚭定の右偎で、 関数の説明の反察のボタンをクリックしたす。 属性に名前を付けお、その読み方を芋おみたしょう。







倉曎を保存しおプロセスを実行したす、結果









やった これは、支払日に䞭倮銀行のレヌトで発生した、倧切なルヌブルのコストの数倀です。 たずえば、仕事、アヌティスト、たたは日付の皮類ごずにグルヌプ化しお、1か月間の情報を描画するなど、このタスクを非垞に遠くたで開発できたす。 䞀般的に、想像の範囲。



䟿利な資料






All Articles