機械孊習における予枬の品質を向䞊させるための隠れたデヌタ䟝存関係の特定

蚘事の抂芁



  1. 問題の声明。
  2. 問題の正匏な説明。
  3. タスクの䟋。
  4. 非衚瀺の線圢䟝存関係を持぀合成デヌタのいく぀かの䟋。
  5. 他の隠された䟝存関係がデヌタに含たれおいる可胜性がありたす。
  6. 䟝存関係怜玢を自動化したす。




問題の声明



倚くの堎合、機械孊習では、デヌタがアプリオリに収集される状況があり、その堎合にのみ特定のサンプルを既知のクラスに分割する必芁がありたす。 その結果、既存の機胜セットが効果的な分類に適しおいない堎合に、状況が発生するこずがよくありたす。 少なくずも最初の近䌌ずしお。



このような状況では、個々に機胜が匱いメ゜ッドの構成を構築するこずも、機胜間の隠れた関係を明らかにするこずでデヌタを充実させるこずから始めるこずもできたす。 そしお、芋぀かった䟝存関係に基づいお、新しい機胜のセットを構築したす。その䞀郚は、分類の品質を倧幅に向䞊させる可胜性がありたす。



問題の正匏な説明



n個の実数で定矩されたL個のオブゞェクトを分類するタスクに盎面しおいたす。 クラスラベルが-1ず+1の堎合、単玔な2クラスのケヌスを考えたす。 私たちの目暙は、線圢分類噚、぀たり-1たたは+ 1を返す関数を構築するこずです。 さらに、特城蚘述のセットは、特定の特城セットで枬定された反察クラスのオブゞェクトに察しお、コンパクト性仮説が実際に機胜せず、分離超平面が非垞に構築されるようなものです非効率的。



぀たり、オブゞェクトの特定のセットに関する分類問題を効率的に解決できないかのように芋えたす。



したがっお、数倀-1たたは1を含む応答列ず、L行ずn列で構成される属性倀X1 ... Xnの察応するマトリックスがありたす。



私たちは、分類されたオブゞェクトの新しい機胜ずしお機胜し、最適な分類子を構築するのに圹立぀可胜性のあるこのような䟝存関係FXi、Xjを芋぀けるタスクを蚭定したした。



タスクの䟋



䟋を䜿甚しお関数FXi、Xjを芋぀ける問題を芋おみたしょう。 もちろん、非垞に重芁です。



䟋はレプラコヌンに関連付けられたす。 レプラコヌンは、誰かが知らない堎合、私たちの近くのどこかに存圚したすが、ほずんど誰も芋たせんでした。 そしお、圌らは、人々のように、自分のコンピュヌタヌ、むンタヌネット、゜ヌシャルネットワヌクを持っおいたす。 ほずんどの堎合、圌らは金を探しおバッグに保管するこずに専念しおいたす。 しかし、正盎なレプラコヌンに加えお、この重芁な仕事から脱华しようずしおいる人もいたす。 それらは反䜓制的レプラコヌンず呌ばれたす。 そしお、レプラコヌンの金の量の増加率が望たしい倀に達するこずができないのは、たさにそれらのためです



レプラコヌンの䞖界にも機械孊習があるため、圌らは倧芏暡な゜ヌシャルネットワヌクでの行動に基づいおそれらを芋぀けるこずを孊びたした。 しかし、問題がありたす 毎幎倚くの若い゜ヌシャルネットワヌクが垂堎を獲埗しようずしおいたすが、それでも分析のためにナヌザヌに関する十分なデヌタを収集するこずができたせん そしお、圌らが収集するデヌタは、たずもなレプラコヌンず反抗的なレプラコヌンを区別するのに十分ではありたせん そしおここでは、利甚可胜な機胜の説明で隠れた䟝存関係を探す必芁があるため、䞀芋しただけでは䞍十分なデヌタに基づいお、最適な分類噚を構築できたす。



ただし、゜ヌシャルネットワヌクの䟋はおそらく耇雑すぎお解析できないため、栞レプラコヌンプロセッサの䟋で同様の問題を解決しおみたしょう。 それらは4぀の䞻芁な機胜によっお特城付けられたす



a反応噚の回転速床癟䞇rpm

b蚈算胜力兆回の蚈算/秒

c負荷時の反応噚の回転速床癟䞇rpmおよび

d負荷時の蚈算胜力兆回蚈算/秒



栞凊理業者は、2぀の䞻芁䌁業0ず1​​「Black Zero」ず「The First」によっお生産されおいたす。 同時に、Black Zeroの䟡栌は半額ですが、リ゜ヌスも5倍䜎くなっおいたす ただし、䞻な状態。 栞凊理業者のサプラむダヌは、垞に顧客を欺き、The Firstマシンにお金を支払う代わりに、安䟡で信頌性の䜎いBlack Zeroマシンを䟛絊しようずしおいたす。 同時に、原子炉の運転パラメヌタの倉動は非垞に倧きいため、ほずんどの枬定の䞻な特性に応じお区別するこずはできたせん。 è¡š1は、各䌁業に察しおランダムに遞択された50台のマシンの特性を瀺しおいたす。



画像

è¡š1



比范の䟿宜䞊、クラス1ずクラス0のオブゞェクトは垂盎方向ではなく、盞互に関連する偎に配眮されたす。 䞊蚘の䟋では、䞀般的に、蚈算胜力のパラメヌタヌは原子炉の速床に䟝存し、異なるメヌカヌの機械では倚少異なるこずがわかりたすBlack Zero機械では、通垞の条件䞋では、類䌌の原子炉速床での蚈算数は最初の機械に比べお倚くなりたすが、負荷の䞋で。 もちろん、これは、The Firstマシンが負荷なしでプラズマ節玄モヌドに入り、パフォヌマンスがわずかに䜎䞋するためです。 しかし、負荷がかかるず、圌らは明らかに競合他瀟の先を行きたす。



この䟝存関係が芋えるのは、デヌタが特別に遞択されおいるためです。 実際には、この発明の䟋のように矎しく分類できない数千の次元ず数十数癟ではないにしおもの暙識の䞭で、そのような目で䟝存関係を芋るのは通垞䞍可胜です。 そしお、各機胜のビゞネス党䜓の特異性がただ完党に明確でない堎合、目でそのようなパタヌンを芋぀けようずするこずは、少なくずもパフォヌマンスの䜎い掻動です。



したがっお、アルゎリズムを孊習する自動化のパラダむムのフレヌムワヌク内で移動しお、最倧の属性間の䟝存関係を芋぀けるプロセスからヒュヌマンファクタヌを陀倖したいず思いたす。 非衚瀺の䟝存関係のいく぀かのオプションを芋お、それらを怜出するプロセスを敎理する最善の方法を考えおみたしょう。



非衚瀺の線圢䟝存関係を持぀合成デヌタのいく぀かの䟋



䟝存関係のバリアント1。Xj= K * Xi + C、K = 1



䟝存関係の最初のバリアントは、オブゞェクトのj番目の笊号はi番目の笊号、および定数で衚される自由項に線圢に䟝存したす。

狭い䟋では、比䟋係数は1に等しくなるため、自由項の寄䞎を確認する方が適切です。



クラス0ではb = a-1、d = c-1.1ずし、クラス1ではその逆ですb = a-1.1、d = c-1



この堎合、もちろん、倀を持぀新しい列が

d-b

それぞれ0および1クラスのオブゞェクトの倀を提䟛したす

c-1.1-a-1= c-a-0.1

そしお

c-1-a-1.1= c-a + 0.1

それに応じお。 そしお、これは、列Aず列Cのデヌタの均䞀性を考えるずそしおこれがタスクの条件の1぀です、オブゞェクトを分離するための優れたツヌルを提䟛したす。 そしお、少なくずも、この新しい列が最終的な分類に積極的に貢献しおいるこずを期埅できたす。



このような蚈算の結果は、発明されたデヌタで衚2に芋るこずができたす。



画像

è¡š2



同様の状況は、䞀芋非垞に匕き締たっおいるように芋えたすが、実際には人生で起こりたす。 䟋ずしおは、䞀定の副䜜甚を䌎う䞀連の芏制されたアクションを実行するために特定の条件を実装する必芁がありたす。 この䟋の栞プロセッサヌの堎合、䞀定の蚈算胜力の䜎䞋は、負荷のかかった状態で仕事をするために固定プロセスを開始する必芁性に関連しおいる可胜性がありたす。 人生では、远加の発電機の立ち䞊げ、資源の予備ぞの固定配分、火力発電所の内燃機関たたは産業甚発電機を始動するための゚ネルギヌなど。



ただし、実際の問題でこの特定の関数Fd、bを遞択するこずは確かに明らかではありたせん。 したがっお、たず、FXi、Xjの異なる遞択がどのような結果をもたらすかを考えおみたしょう。



F(Xi, Xj) = Xi/Xj







タスクの属性の芳点から蚀えば、ここでは、たずえば負荷時の蚈算胜力の䜎䞋B / Dを枬定するこずができたす。 さらに、そのような劣化は定数に䟝存せず、完党に盞察的な倀であるずいう仮定に基づいおいたす。

結果ずしお䜕が起こるか芋おみたしょう。



画像

è¡š3



è¡š3に芋られるように、関係A / BずC / Dは有益ではありたせん。 それらの反察のクラスのオブゞェクトはただ非垞に混合されおいたす。 しかし、B / D比は、サンプルを線圢分離可胜にするこずが期埅されたす。 B-Dの堎合ず同じです。 ただし、少し先を芋お、この属性によるこの線圢分離可胜性の理由は、差分関数の堎合ずただ倚少異なるず蚀いたす。 これは、次の䟋で明確にわかりたす。



それたでの間、このニュアンスを䞋げお、この䟝存関係のバリ゚ヌションで䜕が間違っおいるのか考えおみたしょう。 アルゎリズムの堎合-ほずんどありたせん。 しかし、䞡方のクラスの芖芚的なサむンは非垞に近いように思えるかもしれたせん。 もちろん、この䟋では、すべおの倀がナニットのさたざたな偎面に矎しく分散されおいたすが、人生ではこの明確さが存圚しない堎合がありたす。 この衚面的な問題を解決するには 1぀の簡単なオプションは、分母の倀に察する分子の増分を蚈算するこずです。 これはどういう意味ですか



比率X / Yを蚈算するず、「YがXの倀に䜕回収たるか」ずいう質問に察する答えが埗られたす。 ただし、「Xを取埗するためにYの倀にいく぀のY-sを远加する必芁があるか」ずいう質問を解決する方が有利な堎合がありたす。 2番目のケヌスでは、成長を探しおいたす。 成長は正ず負になり、単玔な匏X / Y-1で衚されたす。 1぀のマむナスがありたす-枬定単䜍ずしお1぀のYを䜿甚するためです。



再び衚3最も右偎の2぀の列を芋お、異なるクラスのオブゞェクトの増加が異なる兆候であるこずを明確に確認できるこずに泚目しおください。 したがっお、異なるクラスのDからBの倚方向の成長に぀いお話すこずができたす。 そしお、この堎合、B / D機胜がサンプルを線圢分離可胜にするずいう事実で実際に重芁な圹割を果たすのは、たさにこの堎合です。 結論各関数B-DおよびB / DたたはB / D-1は、サンプルをわずかに異なる方法で線圢分離可胜にしたす。぀たり、特定の属性ペアに察しお生産性が高いのはそのうちの1぀だけである堎合がありたす。 しかし、これに぀いおは埌で詳しく説明したす。 次に、3番目の関数に移りたしょう-最初の䟋の最埌の関数です。



A / B/C / D-線圢関係比

たたは

A / B-1/C / D-1-成長率



線圢関係たたは増分関係を怜蚎する動機は䜕ですか 機噚の2぀の異なるメヌカヌの䟋では、このような蚈算には次の意味がありたす。「負荷が接続されおいる堎合、生産性の速床䟝存性はどれだけ倉化するか」。



たあ、それは正圓な質問です。 さたざたなメヌカヌに぀いお話しおいるこずを考えるず、負荷の増加に䌎う機噚のさたざたな動䜜が予想されたす。 人生の状況では、FXi、XjずFXii、Xjjの2぀の関係があり、それぞれが実際には未知のパラメヌタヌセットの関数であるずいう事実に぀いお話すこずができたすFMずF 'M。 そしお、この仮説が圓おはたる堎合、関数FおよびFのそれぞれが異なるクラスのオブゞェクトに察しお等しく珟れる堎合でも、その構成F ''F、F 'は異なるクラスのオブゞェクトに察しお異なるように珟れるこずがあるず仮定できたす。これらの異なるクラスの珟実は、集合Mからの未知のパラメヌタヌに察しお著しく異なりたす。



もちろん、この䟋では、デヌタを適切にコンパむルしたため、この2次関係のレッグがどこから来たかを最初に知っおいたす。 人生では、私たちはこれを知らず、そのような関係が存圚するずいう事実のみに䟝存するかもしれたせん。 したがっお、圌女を芋぀けようずしたす。



è¡š3䞭倮の4぀の列に戻り、これらの関数がペアA / BずC / Dでどのように機胜するかを芋おみたしょう。 どちらもサンプルを線圢分離可胜にするこずがわかりたす。 前述のずおりB-DおよびB / D。



この䟋の唯䞀の重芁な違いは、関数A / B/C / Dの倀が互いに非垞に近いが、関数A / B-1/Cを䜿甚するずきのオブゞェクトの分割ストリップの幅/ D-1ははるかに広いです。 そのような結果を芋お、次の2぀の質問をするこずができたす。



  1. この違いは重芁ですか
  2. 䞡方の機胜は垞に同じ分離力を瀺しおいたすか


最初の質問ぞの答えはい、構成にメトリック分類方法を含めるために䜕らかの方法を蚈画する堎合。 実際、幅の広い分割ストリップでは、コンパクトな仮説の方がうたく機胜したす。 さらに、芖芚化の品質に぀いお話すこずができたす。 もちろん、この䟋では、トレヌニング埌のメトリックメ゜ッドは、A / B/C / D属性に基づいおサンプルを正確に共有するこずに泚意しおください。 ただし、実際には、メトリックを䜿甚する堎合の盞互䟵入ははるかに重芁です。



この䟋の2番目の質問に察する答えは、おそらく十分に明癜ではありたせん。 次の䟋を怜蚎するたで、宙に浮いたたたにしおおきたしょう。



䟝存バリアント2. Xj = K * Xi + C、K = 1、C-䞡方のクラスのワンサむン



この䟋は前者の特殊なケヌスであり、自由条件はすべおのオブゞェクトに察しおれロより倧きい倀たたはれロより小さい倀を取りたす。 これがどのような効果をもたらすかを芋おみたしょう。



䞡方のクラスでb = a-1、ただしクラス0ではd = c-1.2、クラス1ではc-1.3ずする



この堎合、もちろん、倀を持぀新しい列が

B-Dは、それぞれ0および1クラスのオブゞェクトの倀を提䟛したす

c-1-a-1.2= c-a + 0.2

そしお

c-1-a-1.3= c-a + 0.3

それに応じお。 そしお、これは、列Aず列Cのデヌタの均䞀性を考えるずそしおこれがタスクの条件の1぀です、オブゞェクトを分離するための優れたツヌルを提䟛したす。 繰り返しになりたすが、少なくずも、この新しい列が最終的な分類に積極的に貢献しおいるこずを期埅できたす。

このような蚈算の結果は、発明されたデヌタで衚4に芋るこずができたす。



画像

è¡š4



巊偎の8列は、クラス0および1の笊号a、b、c、dの実際の倀です。残りの列の倀は、ヘッダヌの関数に埓っお蚈算されたす。 2぀の右偎の列の倀B-D。



それでは、䟋1で遞択を線圢分離可胜にするこずができた既知の関数を䜿甚する理由を芋おみたしょう。



F(Xi, Xj) = Xi/Xj







è¡š4からわかるように、この堎合の有益な関係は芋぀かりたせん。 たた、さたざたな方法で蚈算した倀である列の比率B / Dでも、満足のいく結果は埗られたせん右偎の5番目ず6番目の列。 しかし、問題は䜕ですか 無料䌚員の意味を少し倉曎したした その理由は、最初の䟋では、さたざたなクラスの無料メンバヌの蚘号が異なるためです。 そしお、これがたさにサンプルを特性䞊で盎線的に分離可胜にしたものですB / D。



A / B/C / D-線圢結合の比率たたは

A / B-1/C / D-1-成長率



レプラコヌンコンピュヌタヌに関する先入芳のある䟋では、この蚈算は理にかなっおいるこずを思い出しおください。「負荷がかかった状態での生産性の速床ぞの䟝存床はどれくらいか」。



特別に調敎および゜ヌトされたデヌタでは、負荷がかかった状態でのパフォヌマンスの䜎䞋が、The Firstマシンの方がBlack Zeroマシンよりもわずかに高いこずが肉県でわかりたす。 しかし、なぜそれがより高䟡なのでしょうか明らかに、Black Zeroは信頌性を維持しながら、栞プロセッサヌを匕き出せるよりも倚く搟り取ろうずしおいたす。したがっお、圌らは最初のプロセッサヌより5倍少ないサヌビスを提䟛したすマヌケティングのために、Black Zero



さお、私たちの関係に戻りたしょう。 もう䞀床衚4を芋るず、非垞に興味深いこずが1぀わかりたす。



増分比A / B-1/C / D-1はサンプルを線圢分離可胜にしたすが、線圢関係A / B/C / Dの比率はかなり倧きな範囲の䞍確実性を残したす ずころで、「䞡方の機胜は垞に同じ分離胜力を瀺しおいたすか」ずいう質問に察する答えがここにありたす

衚4では、これらは右偎の7番目から10番目の列です。重耇しない倀が匷調衚瀺されおいたす



じゃあ 3番目の䟋に移りたすが、今のずころは次のこずを芚えおおいおください。





䟝存関係のバリアント3. Xj = K * Xi + C、K= 1、C = 0



別の特別なケヌスですが、自由項ではなく係数が未知の䟝存関係で圹割を果たしたす。



䞡方のクラスでb = a-1ずするが、クラス0ではd =c * 0.99、クラス1ではc * 0.98ずする

蚈算結果を衚5に瀺したす。流Considerに怜蚎しおください。



画像

è¡š5



この䟋での䟝存性ぞの寄䞎は係数によっおのみ行われるため、予想される100の分離可胜性は、比率関数FXi、Xj= Xi / Xjによっお䞎えられたす。 たた、成長の反察右偎の3列目ず4列目も芖芚化を改善したす。 線圢関係の関係も、成長の関係ずは異なる結果を瀺しおいたす。 たた、さらに悪いこずに。



しかし、前の䟋にあった安定した有益な差分関数2぀の右偎の列は、今回はかなり広い䞍確実性のゟヌンを残しおいたす。 そしお、それが成長率関数の䞍確実性のゟヌンず䞀臎するこずは泚目に倀したす。 自分を比范したす右偎の列1、2、9、10。異なるクラスの互いに玠な倀が匷調衚瀺されおいたす。



係数ず自由項の䞡方が寄䞎する堎合、状況はどうなりたすか 私たちが個々に怜蚎した関係のどれも、サンプルを線圢分離可胜にしないこずが期埅されたす。 ただし、異なる蚈算列の䞍確実性の範囲には、サンプルオブゞェクトの異なるサブセットが含たれたす もちろん、これは、異なるクラスのオブゞェクトを100分離する䞀連の蚈算されたフィヌチャに分離超平面を構築する可胜性が最も高いこずを意味したす。



è¡š6のデヌタの䟋を芋おみたしょう。この関数たたはその関数は、これらのデヌタを䜜成するずきに蚭定した䟝存関係でどのようにそれ自身を瀺したかを瀺したす。



クラス0の堎合



B = A - 1

D = 0,95*B - 0,55








クラス1の堎合



B = A - 1,1

D = 0,965*B - 0,5








画像

è¡š6



BずDの関数の蚈算倀に぀いおは、単玔な比率、線圢関係の比率、成長、および成長に察する逆数が非垞に類䌌した結果を䞎えたこずがわかりたす。 この堎合、前の䟋衚5で思い出すように、単玔な関係はサンプルを線圢分離可胜にしたしたが、線圢関係の関係は非垞に広い䞍確実性のゟヌンを残したしたこれは、先の䟋の状況に察する線圢関係の関係関数の䜿甚の冗長性によるものです 。



たた、前の䟋ずは察照的に、成長の比率は線圢関係の比率よりもサンプルを悪化させたこずがわかりたす。 そしお、差分関数はゲむンの比よりもさらに悪いパフォヌマンスを䞎えたした過去のすべおの䟋で、それらの有効性は同じだったこずを思い出したす。 それは倚くを蚀いたす。



たず 、成長率は単玔な違いず同じパフォヌマンスを瀺す必芁はありたせん。



第二に 、異なる関数は、隠れた隠れた䟝存関係の真の性質に応じお、異なる幅の䞍確実性のゟヌンを残すこずができたす。



第䞉に 、目的の隠れた䟝存関係の真の性質に応じお、異なる関数は異なるクラスのオブゞェクトの分離の最良の結果を䞎えるこずができたす。



他の隠された関係が存圚する可胜性があり、それらの怜玢をより適切に敎理する方法に進む前に、䟝存列Dを持぀合成デヌタの別の䟋を挙げたすが、今回は、真の関数Da、b、c  è¡š7を芋お、もう䞀床䞊蚘の3぀の結論が正しいこずを確認しおください。



画像

è¡š7



デヌタには、他にどのような䟝存関係が含たれおいる可胜性がありたすか



䞊蚘の䟋では、フィヌチャ間のかなり原始的な線圢関係を䜿甚したした。 しかし、䟝存関係が線圢関数ではなく、他のより耇雑なもので衚珟されるようにできたすか



なぜだ。 たずえば、緑色の埮生物のコロニヌの繁殖媒䜓でセンサヌによっお収集されたデヌタを想像しおください。 重芁な補品Mの濃床ず、照明lxを含む環境の倚くの客芳的な物理パラメヌタヌが固定されおいるず仮定するず、䟝存性Mlxがあるず仮定できたす。 しかし、そのような関係は線圢ですか 照明が现菌の繁殖率に線圢に圱響し、膵臓の濃床がコロニヌの数に線圢に䟝存するず仮定するず、䟝存性は二次関数になるはずです。 その理由は、単现胞生殖の方法です。 すなわち、现胞分裂。 ここでは、単现胞の分裂速床の速床からの二次関数的な増加が、時間tの埌の数に圱響するこずを蚌明する必芁はないず思いたす。 したがっお、たずえば、比率√M / lxの蚈算を詊みるこずができたす。これは、露光時の緑色现菌の繁殖率の望たしい線圢䟝存性の近䌌倀ず芋なされたす。 そしお、2皮類の緑色バクテリアの照明速床が再生速床にどの皋床圱響するかが実際に異なる堎合、この新しい機胜は確かに最終分類アルゎリズムの品質に圹立぀貢献をするこずができたす。



もちろん、䟝存関係は非垞に異なる可胜性があり、基瀎は1぀たたは別の蚘号に埋め蟌たれた意味にありたす。 ただし、サンプルオブゞェクトを蚘述する機胜のセマンティックロヌドから脱华し、代わりに非衚瀺の䟝存関係を怜玢するプロセスを自動化する方法に぀いお考えおみたしょう。



䟝存性怜玢の自動化

そのため、特性蚘述に非衚瀺の䟝存関係があるかどうかを刀断したす。 特城のペアを遞択するための耇雑なアルゎリズムを探しず、特城セットN{X1 ... Xn}党䜓の接続の存圚に関する仮説を単玔にテストするこずにしたず仮定したす。 蚘号のペアから始め、各ペアに぀いお特定の倀を蚈算したす。このペアに、セットMから特定の関数を適甚した結果{F1Xi、Xj... FmXi、Xj}。 さらに、問題のいく぀かの詳现を考慮しお、セットの機胜がすでに遞択されおいるず考えおいたす。



セットMからm個の関数を適甚するペアの数は、n×2の組み合わせの数、぀たり次のようになりたす。



n! / (2! * (n - 2)!) = n * (n - 1) / 2 = (n² - n) / 2 = œ n² - œ n







挞近的な耇雑さOn²を扱っおいるこずがわかりたす。



そしお、これから2぀の結論が続きたす



  1. このような網矅的な怜玢は、事前に蚈算された特定のしきい倀を超えない特城の数を持぀サンプルに察しおのみ蚱可されたす。
  2. プラむマリデヌタに基づいお既に蚈算された列が成長の比率ずしお関䞎する2次䟝存関係の蚈算は、そのようなチェックのペアを遞択する厳密なアルゎリズムがある堎合にのみ蚱可されたす。 そうでない堎合、完党通過アルゎリズムの耇雑床はOn⁎になりたす。 䞀般的なケヌスでは、二次䟝存性は䜕らかの圢でベヌスになっおいたすが、匱い堎合もありたすが、非垞に有益な䞀次䟝存性です。


したがっお、䞊蚘から次の2぀のケヌスが考えられたす。



  1. 笊号の数はしきい倀よりも少ないため、各ペアの仮説をテストする䜙裕がありたす。
  2. 笊号の数がしきい倀を超えおいるため、仮説を完党にテストするペアを遞択するための戊略が必芁です。


最初に最初のケヌスを怜蚎したす。



兆候の数がしきい倀より少ない

厳密に蚀えば、それ自䜓で䜕らかの䟝存関係を識別するこずはそれほど重芁ではなく、異なるクラスのオブゞェクトに察する異なる動䜜を識別するこずが重芁です。したがっお、䟝存関係の存圚を確認する瞬間を省略し、代わりに新しい列の有甚性をすぐに確認できたす。これを行うには、移動制埡で察象の品質メトリックの平均倀を枬定するこずにより、この列に既知の高速分類子のいずれかを適甚するだけで十分です。そしお、関心のある品質メトリックのむンゞケヌタが蚭定したしきい倀を超えおいる堎合、新しい列を残すか、品質が必芁なレベルに達しおいない堎合は削陀したす。



もちろん、読者は次のように考えるかもしれたせん。元の属性に基づいお新しい列が蚈算され、最終的な分類アルゎリズムにすでに高い有甚性がある堎合はどうでしょうか。実際、この堎合、既存の暙識に基づいお远加の暙識を䜜成しただけであるこずがわかりたす玔粋な倚重共線性これがたさに、掟生フィヌチャの分類品質メトリックのしきい倀を蚭定しおいるこずです。数個の蚘号の関数を蚈算しおいるため1぀ではありたせん、入力で䞡方の列が非垞に有益であったずしおも、結果は単なるノむズになりたす。



これは、各特性の倀が特定の平均倀ず偏差を持぀独立した倀である合成デヌタの䟋によっお簡単に怜蚌できたす。さらに、異なるクラスの平均には差があり、各クラスのオブゞェクトの分垃は正垞ですたずえば、numpy.random.normalを䜿甚。したがっお、私たちはアプリオリに互いに独立しお特性倀を生成するため、䟝存関係を芋぀ける詊みはノむズのみに぀ながり、掟生した特性は満足のいく分類品質を䞎えたせん。



したがっお、䞊蚘の䟋は、掟生機胜が有益であるこずが刀明した堎合、関係の存圚を刀断できるずいう事実に賛成しおいたす。



掟生フィヌチャのしきい倀は、さたざたな方法で遞択できたす。明らかに単玔なサンプル党䜓に察しお䞀床に、たたは各ペアに察しお個別に。 2番目のケヌスでは、入力に送信された各列の察象ずなる品質メトリックのむンゞケヌタヌに応じお、入力しきい倀の倀を倉曎できたす。



ただし、しきい倀を遞択するための2番目のオプションの明らかなロゞックにもかかわらず、非垞に䞍快な萜ずし穎がありたす。芁点は、芪列の1぀で品質メトリックをしきい倀ずしお遞択するこずは完党に正しいずは限らないこずです。その理由は、品質倀がわずかに䜎い掟生属性が実際に新しい䟝存関係の近䌌になるこずがあり、その結果、芪ずは異なるオブゞェクトのセットで誀っおいる可胜性があるためです。そしおこれは、分析のための倚くの機胜に含たれるこずで、分類の最終的な品質が根本的に向䞊するこずを意味したす



すべおの掟生フィヌチャの共通入力しきい倀の遞択に関しおは、私の意芋では、関心のある品質メトリックの倀に基づいおしきい倀を遞択するず非垞に䟿利です個別に適甚する堎合。したがっお、䟋の粟床のために粟床を取埗する堎合、元の列[0.52、0.53、0.53、0.54、0.55、0.57、0.59、0.61、0.63]の倀に察しお、掟生デヌタの最適なしきい倀は0の領域にある可胜性がありたす、6実践が瀺すように。䜕らかの方法で、これはそれほど重芁ではありたせん。なぜなら、パラメヌタヌは孊習可胜であり、そのトレヌニングはアルゎリズムの耇雑さを線圢的にのみ増加させるからです。䜕らかの方法でこのパラメヌタを孊習する堎合、初期フィヌチャの粟床の密床分垃から開始できたす粟床は、この䟋があるためだけです。



原則ずしお、すべおがシンプルです。したがっお、2番目のケヌスに移りたす。



暙識の数がしきい倀を超えおいたす



この条件は、各掟生属性のナヌティリティを完党に枬定する䜙裕がないこずを意味したす。たたはさらに蚘号の各ペアに察しお導関数を生成する䜙裕はありたせん。それは理解できたす私たちが千の兆候を持っおいるず想像しおください。この堎合、組み合わせの数は等しくなり



999 * 1000 / 2 = 499 500







、これにテストされた関数の数が乗算されたす



そしお、サヌバヌが個々の属性に埓っお遞択されたアルゎリズムによっお毎秒100回分類品質を蚈算できる堎合でも、属性を生成するアルゎリズムが遞択した機胜の1぀だけで機胜するたで、ほが1時間半埅ちたす-仕事は少なくずも奇劙です。䞀方、倚くの自由時間を生成したすが=



それでは、矊に戻りたしょう。この問題はどのように解決できたすか



分類の有甚性に基づいお初期特性の数を枛らす詊みは、最良のアむデアではないかもしれたせん。なぜなら、蚘事の最初の郚分の合成デヌタの䟋では、理想的な条件䞋では、それぞれの芪が玔粋な圢匏の完党に䞍適切な掟生属性が明確に瀺されたためですサンプルを線圢分離可胜にするこずができたす。



それではどうするどうやら、掟生的な特城を蚈算する必芁がありたすが、いく぀かの制限がありたす。



たず、゜ヌスフィヌチャの数のしきい倀をどれだけ超えおいるかに応じお、゜ヌスサンプルオブゞェクトの䞀郚のみに察しおそれらを生成しお、掟生フィヌチャの有甚性を評䟡できたす。サブサンプルのサむズをどのようにするかずいう質問には入りたせん。数孊的な統蚈はこの質問によく答えたす。



次に、各掟生属性の有甚性の評䟡は、切り捚おられた機胜によっお実行される必芁がありたす。繰り返したすが、しきい倀の超過の皋床に応じお、最初のしきい倀の数。぀たり、その前に、たずえば、導出された特城の品質を評䟡するために切り捚おられた孊習機胜を備えたk個の最近傍の方法を䜿甚した堎合、固定パラメヌタヌを䜿甚しお䜿甚できたす。たたは、結果のフィヌチャセットを重み付けするために、デフォルトのパラメヌタヌを䜿甚しおサポヌトベクタヌメ゜ッドを実行し、特定の重みを䞋回る列を砎棄したす。たたは、より極端な堎合初期機胜の数には、単玔なRosenbaum Q怜定などの統蚈基準の1぀を単玔に適甚できたす。残念ながら、この皮の基準を適甚しおも機胜を遞択するこずはできたせんが、確率密床分垃に亀互のピヌクがあるか、異なる方向に単玔にバむアスされた䞭倮倀がありたす。



たずえば、クラス1ずクラス-1の結果の属性の倀をそれぞれ等しくしたす。たたはバむアスされた手段の堎合明らかに、どちらの堎合でも、Rosenbaum基準はサンプルがたったく倉わらないず芋なしたす。もちろん、この堎合、Pearson基準は完党に機胜したす。これは、倚数の独立した間隔に分割し、各間隔の倀の数を個別にカりントする必芁があるためです。ただし、同時に、Pearson基準の実行にはより倚くの時間が必芁になりたす。これは、最初に倧たかな近䌌で最適化しようずしおいるパラメヌタヌです。第䞉に、掟生フィヌチャの有甚性を評䟡する品質の䜎䞋を蚱容するずいう事実により、゚ントリのしきい倀もわずかに䜎くなりたす。



[9,9,9,9,9,8,8,8,8,8,8,8,8,7,7,7,7,6,6,5,4,3,2,2,1,1,1,1,1,0,0,0,0,0,0,0,0,0]

[9,8,8,7,7,6,6,6,6,6,6,6,6,5,5,5,5,5,5,5,5,5,5,4,4,4,4,4,4,4,3,3,3,3,3,2,2,1,0]












[1,2,2,3,3,3,4,4,4,4,5,5,5,5,5,6,6,6,6] VS [1,1,1,1,2,2,2,2,2,3,3,3,3,4,4,4,5,5,6]















したがっお、比范的少ない血液で、私たちは印象的な数の最も情報䟡倀のない兆候を取り陀きたす。しかし、残りのもの再び、その数に応じおには、機胜の有甚性のより良い評䟡の方法を適甚できたす。



芁玄するず、残りのより良い評䟡のために、最も情報䟡倀のない兆候の最初の迅速な拒絶のための評䟡の質の䜎䞋に぀いお話しおいる。



たあ、それはおそらく、完了する時間です。䞊蚘のすべおを簡単に芁玄するず、次の点に泚意する䟡倀がありたす。



結論





たあ、それはすべおこの時間です。そしお、はい、レプラコヌンが芪effectivelyの䞭で反䜓制掟をより効果的に芋぀けるのを確かに助けるこずができたす



All Articles