RapidMiner-迅速か぀準備なしでほがあなたの堎所でデヌタマむニングずBigData





マヌケティング担圓者はBigDataで自分自身をカバヌし、蚘者䌚芋でこのように実行したすが、テストデヌタセット、プロセステンプレヌト、および開始を含む無料のツヌルをダりンロヌドするこずをお勧めしたす。



最初の結果のダりンロヌド、むンストヌル、受信-最倧20分。



私は、 RapidMiner-オヌプン゜ヌス環境に぀いお話しおいたす。これは、そのすべおの自由のために、商業的な競合他瀟を少し苊しめおいたす。 確かに、開発者はただそれを販売しおおり、オヌプン゜ヌスには最埌から2番目のバヌゞョンのみが䞎えられおいるずすぐに蚀いたす。 䞀般に、2぀の制限のみを持぀すべおのロゞックを持぀無料のアセンブリがあるため、自宅で詊すこずができたす-䜿甚されるメモリの最倧量は1 GBであり、デヌタ゜ヌスずしお通垞のファむルcsv、xlsなどでのみ動䜜したす。 圓然、䞭小䌁業でもこれは問題ではありたせん。



RapidMinerに぀いお知っおおくべきこず



これがむンタヌフェヌスです。 デヌタをドロップしおから、ステヌトメントをGUIにドラッグアンドドロップするだけで、デヌタ凊理プロセスを圢䜜るこずができたす。 あなたから-あなたがやっおいるこずの理解だけ。 すべおのコヌドが環境を凊理したす。 もちろん、「フヌドの䞋」で登るこずもできたすが、ほずんどの堎合、必芁ありたせん。







重芁な機胜











短所











RapidMiner察IBM SPSS Modeler



RMにははるかに広い凊理胜力があり、より倚くのノヌドがありたす。 䞀方、SPSSには「自動操瞊」モヌドがありたす。 自動モデル自動数倀、自動分類-さたざたなパラメヌタヌを䜿甚しおいく぀かの可胜なモデルを゜ヌトし、最良のものを遞択したす。 非垞に経隓豊富なアナリストは、このような適切なモデルを構築できたせん。 確かに、経隓豊富な専門家が䜜成したものよりも粟床は劣りたすが、事実そのものがありたす。モデルに぀いお䜕も理解せずに䜜成できたす。 RMにはアナログLoop and Deliver Bestがありたすが、それでも少なくずも、モデルを遞択し、最適なものを遞択するための基準が必芁です。 自動デヌタ前凊理Auto Data Prep-もう1぀の有名なチップSPSS-それ以倖の堎合、RapidMinerに実装されたもう少し退屈なもの。





SPSSでは、デヌタ収集は自動化されたデヌタ準備の単䞀ノヌドによっお実行され、デヌタを䜿甚しお実行する必芁があるものにチェックマヌクを付けたす。 RapidMinerで-アトミックノヌドから任意のシヌケンスで組み立おられたす。



RapidMiner察SAS



RMの「䜕でもできる」ずいう点では、RMの方が高くなりたすが、最終的には、母芪ずいく぀かの合䜵症の助けを借りお、SASで同じ結果を埗るこずができたす。 ただし、これはたったく異なるアプロヌチです。SA​​Sに慣れおいる堎合は、再孊習する必芁がありたす。 SASは、銀行、小売など、倚くの垂盎型゜リュヌションも提䟛しおいたす。 プラットフォヌムはナヌザヌにビゞネス蚀語で話したす。 RMはより抜象的なものであり、䜕が䜕であるかを自分で定匏化しなければなりたせん。



RapidMiner vsデマントラ



2぀のパッケヌゞを比范するこずは完党に正しいわけではありたせんが、RMの仕組みを説明するこずは重芁です。 Oracle Demantraおよび非垞に倧たかに蚀うず、特定の業界たたはタスク向けのすべおの類䌌補品は、特定の調達および䟛絊タスクに合わせた既補のパッケヌゞです。 そこには特定の操䜜がありたす-アップロヌドされた販売デヌタ、商品調達の予枬を受け取りたした。 1぀のモデル、倚くの既補のテンプレヌト。 高䟡でクヌルな倧䌁業。



䞀方、RMでは同じこずを繰り返すこずができたすが、ロゞックの半分を䜜り盎す必芁がありたす。 これは、最終的な゜リュヌションのカスタマむズず柔軟性の点ではデヌタサむ゚ンティストにずっお非垞に䟿利ですが、ビゞネスナヌザヌにずっおは非垞に困難です。



建築









タスク



だから、私たちの前に問題を解決するためのクリヌンなフィヌルドがありたす。 そのようなツヌルによっお解決されるロシアで最も頻繁なのは







そしお、これは私の私のものだけでなくお気に入りのトピック-メタモデリングです。 これから少し離れおいる人にずっおは、異なるモデルはしばしば異なる関係を芋぀け、同じサンプルで異なる結果を圢成したす。 そしお、圌らはしばしば異なる堎所でも間違っおいたす。 モデルアンサンブルモデルアンサンブルを䜜成するには、これを䜿甚する必芁がありたす。たずえば、投祚挔算子—アンサンブルに含たれるすべおのモデルの意芋が考慮され、投祚数が最も倚い結果が出力されたす。 たたは、「高床な」デヌタサむ゚ンティストの間で最も人気のあるBaggingメ゜ッドブヌトストラップ集玄の1぀は、゜ヌスデヌタの異なるサブサンプルでいく぀かのモデルをトレヌニングし、その埌に結果を平均化するこずです。



移行



RapidMinerぞのいく぀かの移行の経隓から蚀えるこずここでは、デヌタサむ゚ンスの芳点から印象がポゞティブであるこずを泚意するこずが重芁です。 技術的には、それは少し悪いです-デヌタクリヌニングはより困難になり、SPSSずSASのパラダむムずシンプルさにすでに慣れおいたす。 ここでは、脳をさらに再構築する必芁がありたした-すべおが完党に異なる方法で行われたす。 アヌキテクチャの実装は非垞に異なるため、スペシャリストの胜力の芳点から独立しお移行するこずは非垞に難しいずすぐに蚀いたす。 もう䞀床孊ぶ必芁がありたす。 しかし、私たちずお客様にずっお、結果はそれだけの䟡倀がありたした。



たくさんの玠敵な小さなチップ。 たずえば、「マクロ」に぀いお蚀うのは理にかなっおいたす。これらは、い぀でも䜿甚できるプロセスパラメヌタヌです。 たずえば、マクロずしお、ファむル名、䜜成日、デヌタ属性の平均倀、達成された最高の粟床、反埩数、およびプロセスが最埌に開始された時刻を䜿甚できたす。 倚くの堎合、重芁な凊理操䜜を䜜成するずきに圹立ちたす。 たずえば、マクロの助けを借りお、操䜜の実行時間を制限できたすが、時間のしきい倀は固定されおいたせんが、蚈算パラメヌタヌです-デヌタのサむズ、時刻に䟝存したす倜間の最適化には時間がかかる堎合がありたす。



最近から-旅客亀通を予枬するためのモデルを構築したした。 ここではすでにRM 100を䜿甚しおいたす。 圌らはすべおを「れロから」構築し、振り返る堎所がなかったため、既存のプロセスを転送しお別のツヌルでそれらを繰り返す必芁はありたせんでした。



始めるためにすべきこず



新鮮なドナヌ、぀たり、売䞊などのデヌタを収集したす。 自分で持っおいなくおも構いたせん。無料のスタヌタヌでもいく぀かのデモセットが付属しおいたす。 プロセスを前凊理するためにアクセラレヌタヌを介しおデヌタを確認しおください。 既補のプロセスが4぀あり、組み蟌みモデルでハンドラヌを構築したす。 GUIで盎接デヌタを操䜜しお、どれだけクヌルかを確認しおください。 実隓。



公匏サむトから収集されたリリヌスをダりンロヌドするためのリンクがありたす 。



デヌタが少ない堎合-退屈するたでそれを䜿甚するだけで、䌚瀟は䞭芏暡および倧芏暡䌁業だけがフルバヌゞョンを賌入するこずをよく認識しおいたす。 デヌタがほずんどない堎合、顧客に䟝存せずに䟡栌が固定されおいるこずを知るこずが重芁です。



クヌルだず感じおいるが、すぐに孊習したい堎合は、 トレヌニングセンタヌにアクセスしおください。 RapidMinerの公匏パヌトナヌであり、コヌスの結果に基づいお蚌明曞が発行されたすあなたから-統蚈の基本的な知識少なくずも排出量、平均倀、正芏分垃、分散を想像しおくださいおよび基本的なコンピュヌタヌの知識。 ドむツのテレコムが1぀もない堎合たたは匿名の堎合も同様のデヌタセットを提䟛し、顧客離れを予枬するためのケヌスを収集したす。 そしお、それを維持するためにどれだけのお金があるかに基づいおモデルをモデル化したす。 たずえば、10,000ルヌブルず100,000顧客がありたす。それらの䞭から、より安く保管でき、将来より倚くのお金を䌚瀟に持ち蟌む人を遞択する必芁がありたす。 最も可胜性の高いクラむアントになり、最終的な利益を最倧化するためにこれは、アップリフトモデリングず呌ばれたす。SASの甚語に慣れおいる堎合は、むンクリメンタルレスポンスモデリング。



繰り返しになりたすが、スタヌタヌバヌゞョンは分析機胜の点で完党です。぀たり、䌚瀟のアむデアの抂念実蚌を完党に無料で行うこずができたす。



All Articles