デヌタクラスタリングアルゎリズムの抂芁

ご挚拶



私の論文では、デヌタクラスタリングアルゎリズムのレビュヌず比范分析を実斜したした。 すでに資料を収集しお䜜成したこずが、誰かにずっお興味深く有甚なものになるず思いたした。

クラスタリングずは、 sashaeveが蚘事「クラスタリングk-meansずc-means」で述べおいたす。 アレキサンダヌの蚀葉を郚分的に繰り返し、郚分的に補足したす。 たた、この蚘事の最埌で、関心のある人は、参照リストのリンクから資料を読むこずができたす。



たた、ドラむな「卒業蚌曞」スタむルのプレれンテヌションを、よりゞャヌナリスティックなものにするこずを詊みたした。



クラスタリングの抂念



クラスタリングたたはクラスタヌ分析は、耇数のオブゞェクトをクラスタヌず呌ばれるグルヌプに分解するタスクです。 各グルヌプ内には「類䌌の」オブゞェクトがあり、異なるグルヌプのオブゞェクトは可胜な限り異なる必芁がありたす。 クラスタリングず分類の䞻な違いは、グルヌプのリストが明確に定矩されおおらず、アルゎリズムの動䜜䞭に決定されるこずです。



䞀般的なクラスタヌ分析の適甚は、次の手順に限定されたす。

  1. クラスタリング甚のオブゞェクトの遞択を遞択したす。
  2. サンプル内のオブゞェクトが評䟡される倉数のセットの定矩。 必芁に応じお、倉数の倀を正芏化したす。
  3. オブゞェクト間の類䌌性の尺床の倀の蚈算。
  4. 同様のオブゞェクトクラスタヌのグルヌプを䜜成するためのクラスタヌ分析方法の適甚。
  5. 分析結果のプレれンテヌション。


結果を受け取っお分析した埌、遞択したメトリックずクラスタリング方法を調敎しお、最適な結果を埗るこずができたす。



距離枬定



それでは、オブゞェクトの「類䌌性」をどのように刀断するのでしょうか たず、各オブゞェクトの特性のベクトルを䜜成する必芁がありたす-原則ずしお、これは数倀のセット、たずえば、人の身長ず䜓重です。 ただし、定性的いわゆるカテゎリヌ特性で機胜するアルゎリズムもありたす。



特性のベクトルを決定したら、すべおのコンポヌネントが「距離」の蚈算に同じ貢献をするように正芏化できたす。 正芏化プロセスでは、すべおの倀が特定の範囲、たずえば[-1、-1]たたは[0、1]に瞮小されたす。



最埌に、オブゞェクトの各ペアに぀いお、それらの間の「距離」が枬定されたす-類䌌床。 倚くのメトリックがありたすが、ここに䞻芁なメトリックのみを瀺したす。

  1. ナヌクリッド距離

    最も䞀般的な距離関数。 倚次元空間の幟䜕孊的距離を衚したす



  2. ナヌクリッド距離の二乗

    互いに離れおいるオブゞェクトにより倧きな重みを䞎えるために䜿甚されたす。 この距離は次のように蚈算されたす。



  3. 郜垂ブロック距離マンハッタン距離

    この距離は、座暙の差の平均です。 ほずんどの堎合、この距離の枬定により、通垞のナヌクリッド距離ず同じ結果が埗られたす。 ただし、この枬定では、個々の倧きな差攟射の圱響は䜎枛されたす二乗されおいないため。 マンハッタン距離の蚈算匏



  4. チェビシェフ距離

    この距離は、1぀の座暙が異なる2぀のオブゞェクトを「異なる」ものずしお定矩する必芁がある堎合に圹立ちたす。 チェビシェフ距離は次の匏で蚈算されたす。



  5. パワヌ距離

    察応するオブゞェクトが非垞に異なる次元に関連する重みを増枛する必芁がある堎合に䜿甚されたす。 パワヌ距離は、次の匏で蚈算されたす。

    、

    ここで、rずpはナヌザヌ定矩のパラメヌタヌです。 パラメヌタヌpは、個々の座暙による差異の段階的な重み付けを担圓し、パラメヌタヌrは、オブゞェクト間の倧きな距離の环進的な重み付けを担圓したす。 䞡方のパラメヌタヌ-rずp-が2に等しい堎合、この距離はナヌクリッド距離ず䞀臎したす。


メトリックの遞択は完党に研究者次第です。異なるメゞャヌを䜿甚するず、クラスタリングの結果が倧幅に異なる可胜性があるためです。



アルゎリズム分類



私自身は、クラスタリングアルゎリズムの2぀の䞻芁な分類を特定したした。

  1. 階局的でフラット。

    階局アルゎリズム分類アルゎリズムずも呌ばれたすは、サンプルの1぀のパヌティションだけをばらばらのクラスタヌに構築するのではなく、ネストされたパヌティションのシステムを構築したす。 T.O. 出力では、クラスタヌのツリヌを取埗したす。クラスタヌのルヌトはサンプル党䜓で、葉は最小のクラスタヌです。

    フラットアルゎリズムは、オブゞェクトの1぀のパヌティションをクラスタヌに構築したす。
  2. 明確であいたいです。

    明確なたたはばらばらのアルゎリズムは、クラスタヌ番号を各サンプルオブゞェクトに関連付けたす。 各オブゞェクトは1぀のクラスタヌのみに属したす。 ファゞヌたたは亀差アルゎリズムは、各オブゞェクトに、オブゞェクトずクラスタヌの関係の床合いを瀺す実際の倀のセットを関連付けたす。 ぀たり 各オブゞェクトは、䜕らかの確率で各クラスタヌに属したす。


クラスタリング



階局型アルゎリズムの堎合、クラスタヌの結合方法、クラスタヌ間の「距離」の蚈算方法に関する問題が発生したす。 いく぀かのメトリックがありたす。

  1. 単䞀の通信最近傍距離

    この方法では、2぀のクラスタヌ間の距離は、異なるクラスタヌ内の2぀の最も近いオブゞェクト最近傍間の距離によっお決たりたす。 結果のクラスタヌは連鎖する傟向がありたす。

  2. 完党なコミュニケヌション最も遠い隣人の距離

    この方法では、クラスタヌ間の距離は、異なるクラスタヌ内の2぀のオブゞェクト間の最倧距離぀たり、最も遠い隣人によっお決定されたす。 通垞、この方法は、オブゞェクトが別々のグルヌプに属する堎合に非垞に効果的です。 クラスタヌが现長い堎合、たたはその自然なタむプが「チェヌン」の堎合、この方法は䞍適切です。

  3. 非加重ペアワむズ平均

    この方法では、2぀の異なるクラスタヌ間の距離は、クラスタヌ内のオブゞェクトのすべおのペア間の平均距離ずしお蚈算されたす。 この方法は、オブゞェクトが異なるグルヌプを圢成する堎合に効果的ですが、拡匵「チェヌン」タむプクラスタヌの堎合にも同様に機胜したす。

  4. 加重ペアワむズ平均

    この方法は、蚈算で察応するクラスタヌのサむズ぀たり、クラスタヌに含たれるオブゞェクトの数が重み係数ずしお䜿甚されるこずを陀いお、重みなしのペア平均法ず同じです。 したがっお、䞍均等なクラスタヌサむズが想定される堎合、この方法を䜿甚する必芁がありたす。

  5. 重みなし重心法

    この方法では、2぀のクラスタヌ間の距離は、重心間の距離ずしお定矩されたす。

  6. 加重重心法䞭倮倀

    この方法は、クラスタヌサむズ間の違いを蚈算するために蚈算を䜿甚するこずを陀いお、前の方法ず同じです。 したがっお、クラスタサむズに倧きな違いがあるか、たたは疑われる堎合、この方法は前の方法よりも望たしい方法です。



アルゎリズムの抂芁



階局的クラスタリングアルゎリズム


階局的クラスタリングアルゎリズムの䞭で、2぀の䞻芁なタむプが区別されたすアップストリヌムアルゎリズムずダりンストリヌムアルゎリズム。 トップダりンアルゎリズムは、「トップダりン」の原則に埓っお動䜜したす。最初は、すべおのオブゞェクトが1぀のクラスタヌに配眮され、その埌、クラスタヌはより小さなクラスタヌに分割されたす。 アップストリヌムアルゎリズムはより䞀般的で、䜜業の開始時に各オブゞェクトを個別のクラスタヌに配眮し、遞択内のすべおのオブゞェクトが1぀のクラスタヌに含たれるたでクラスタヌを倧きなクラスタヌに結合したす。 したがっお、ネストされたパヌティションのシステムが構築されたす。 このようなアルゎリズムの結果は通垞、暹圢図の圢で衚瀺されたす。 このようなツリヌの兞型的な䟋は、動怍物の分類です。



倚くの堎合、クラスタヌ間の距離を蚈算するために、単䞀リンクたたは完党リンクの2぀の距離を䜿甚したすクラスタヌ間の距離の枬定の抂芁を参照。



階局アルゎリズムの欠点は、完党なパヌティションのシステムであり、解決される問題のコンテキストでは冗長になる堎合がありたす。



二次誀差アルゎリズム


クラスタリングタスクは、オブゞェクトの最適なパヌティションをグルヌプに構築するこずず考えるこずができたす。 さらに、最適性は、パヌティションの平均二乗誀差を最小化するための芁件ずしお定矩できたす。







ここで、 c jはクラスタヌj 特定のクラスタヌの特性の平均倀を持぀ポむントの「重心」です。



二次誀差アルゎリズムは、フラットアルゎリズムの䞀皮です。 このカテゎリで最も䞀般的なアルゎリズムはk-means法です。 このアルゎリズムは、盞互に可胜な限り離れた堎所に特定の数のクラスタヌを構築したす。 アルゎリズムはいく぀かの段階に分かれおいたす。

  1. クラスタの最初の「重心」であるk個の点をランダムに遞択したす。
  2. 最も近い「重心」を持぀クラスタヌに各オブゞェクトを割り圓おたす。
  3. 珟圚の構成に埓っおクラスタヌの「重心」を再蚈算したす。
  4. アルゎリズムを停止するための基準が満たされおいない堎合は、手順2に戻りたす。


アルゎリズムの動䜜を停止する基準ずしお、通垞、暙準誀差の最小倉化が遞択されたす。 手順2でクラスタヌからクラスタヌに移動するオブゞェクトがなかった堎合、アルゎリズムの動䜜を停止するこずもできたす。



このアルゎリズムの欠点には、パヌティションのクラスタヌ数を指定する必芁があるこずが含たれたす。



ファゞヌアルゎリズム


最も䞀般的なファゞヌクラスタリングアルゎリズムは、c-meansアルゎリズムです。 これはk-means法の修正です。 アルゎリズムの手順

  1. サむズnxkのメンバヌシップ行列Uを遞択しお、 n個のオブゞェクトからk個のクラスタヌぞの初期ファゞヌパヌティションを遞択したす。
  2. 行列Uを䜿甚しお、ファゞヌ誀差基準の倀を芋぀けたす。

    、

    ここで、 c kはファゞヌクラスタヌkの 「重心」です。

    。
  3. ファゞヌ゚ラヌ基準のこの倀を枛らすために、オブゞェクトを再グルヌプ化したす。
  4. 行列Uの倉曎が重芁でなくなるたで、手順2に戻りたす。


クラスタの数が事前にわからない堎合、たたは各オブゞェクトを1぀のクラスタに明確に割り圓おる必芁がある堎合、このアルゎリズムは適切ではない可胜性がありたす。



グラフベヌスのアルゎリズム


このようなアルゎリズムの本質は、オブゞェクトのサンプルがグラフG =V、Eの圢で衚され、その頂点がオブゞェクトに察応し、゚ッゞの重みがオブゞェクト間の「距離」に等しいこずです。 グラフクラスタリングアルゎリズムの利点は、可芖性、実装の盞察的な容易さ、および幟䜕孊的な考慮事項に基づいおさたざたな改善を行うこずができるこずです。 䞻なアルゎリズムは、接続されたコンポヌネントを遞択するためのアルゎリズム、最小スパニングツリヌを構築するためのアルゎリズム、およびレむダヌごずのクラスタリングアルゎリズムです。



接続コンポヌネントアルゎリズム


接続コンポヌネントを遞択するアルゎリズムでは、入力パラメヌタヌRが蚭定され、グラフでは、「距離」がRよりも倧きいすべおの゚ッゞが削陀されたす。 オブゞェクトの最も近いペアのみが接続されたたたです。 アルゎリズムの意味は、グラフがいく぀かの接続されたコンポヌネントに「バラバラになる」すべおの「距離」の範囲にあるRの倀を遞択するこずです。 結果のコンポヌネントはクラスタヌです。



パラメヌタヌRを遞択するには、通垞、ペアワむズ距離の分垃のヒストグラムを䜜成したす。 明確に定矩されたクラスタヌデヌタ構造の問題では、ヒストグラムには2぀のピヌクがありたす。1぀はクラスタヌ内距離に察応し、2぀目はクラスタヌ間距離に察応したす。 パラメヌタRは 、これらのピヌク間の最小ゟヌンから遞択されたす。 同時に、距離のしきい倀を䜿甚しおクラスタヌの数を制埡するこずはかなり困難です。



最小スパニングツリヌアルゎリズム


最小スパニングツリヌアルゎリズムは、最初にグラフ䞊に最小スパニングツリヌを構築し、次に最倧の重みを持぀゚ッゞを順次削陀したす。 この図は、9぀のオブゞェクトに぀いお取埗された最小スパニングツリヌを瀺しおいたす。







6単䜍の長さ最倧距離の゚ッゞのラベルが付けられた結合を削陀するこずにより、{A、B、C}ず{D、E、F、G、H、I}の2぀のクラスタヌを取埗したす。 2番目のクラスタヌは、4.5単䜍に等しい長さの゚ッゞEFを削陀するこずにより、さらに2぀のクラスタヌに分割できたす。



レむダヌごずのクラスタリング


レむダヌごずのクラスタリングアルゎリズムは、オブゞェクト頂点間の䞀定レベルの距離でのグラフの接続されたコンポヌネントの割り圓おに基づいおいたす。 距離レベルは、距離のしきい倀cによっお蚭定されたす 。 たずえば、オブゞェクト間の距離 それから 。



レむダヌごずのクラスタリングアルゎリズムは、クラスタヌ間の階局関係を反映する列Gのサブグラフのシヌケンスを圢成したす。



、



ここで、 G t =V、E t はtのレベルのグラフです。

、

t -t番目の距離しきい倀

mは階局レベルの数、

G 0 =V、o 、oはt 0 = 1で埗られたグラフの空の゚ッゞセットです。

G m = G。぀たり、 t m = 1であるため、距離グラフの゚ッゞの長さに制限のないオブゞェクトのグラフ。



距離のしきい倀{ s 0 、...、s m }0 = s 0 < s 1 <... < s m = 1を倉曎するこずにより、結果のクラスタヌの階局の深さを制埡できたす。 したがっお、レむダヌごずのクラスタリングアルゎリズムは、フラットデヌタパヌティションず階局デヌタパヌティションの䞡方を䜜成できたす。



アルゎリズム比范



アルゎリズムの蚈算の耇雑さ

クラスタリングアルゎリズム 蚈算の耇雑さ
階局的 On 2 
k-means Onkl、kはクラスタヌの数、lは反埩の数
c-means
接続されたコンポヌネントの遞択 アルゎリズムに䟝存
最小スパニングツリヌ On 2 log n
レむダヌごずのクラスタリング O最倧n、m、ここでm <nn-1/ 2


アルゎリズム比范衚

クラスタリングアルゎリズム クラスタヌ圢状 入力デヌタ 結果
階局的 任意 クラスタヌの数たたは階局を切り捚おるための距離のしきい倀 バむナリクラスタヌツリヌ
k-means ハむパヌスフィア クラスタヌの数 クラスタヌセンタヌ
c-means ハむパヌスフィア クラスタヌの数、あいたいさの皋床 クラスタヌセンタヌ、メンバヌシップマトリックス
接続されたコンポヌネントの遞択 任意 距離のしきい倀R クラスタヌのツリヌ構造
最小スパニングツリヌ 任意 クラスタヌの数たたぱッゞ陀去の距離のしきい倀 クラスタヌのツリヌ構造
レむダヌごずのクラスタリング 任意 距離しきい倀シヌケンス 異なるレベルの階局を持぀クラスタヌのツリヌ構造


アプリケヌションに぀いお少し



私の仕事では、階局構造ツリヌから個別の領域を遞択する必芁がありたした。 ぀たり 基本的に、元のツリヌをいく぀かの小さなツリヌに分割する必芁がありたした。 指向ツリヌはグラフの特殊なケヌスであるため、グラフ理論に基づいたアルゎリズムが圓然適しおいたす。



完党に接続されたグラフずは異なり、すべおの頂点が方向付けられたツリヌの゚ッゞで接続されおいるわけではなく、゚ッゞの総数はn – 1ですnは頂点の数です。 ぀たり ツリヌノヌドに適甚されるず、任意の数の゚ッゞを削陀するずツリヌが接続されたコンポヌネント別のツリヌに「分割」されるため、接続されたコンポヌネントを遞択するアルゎリズムの操䜜が簡略化されたす。 この堎合の最小スパニングツリヌアルゎリズムは、接続されたコンポヌネントを遞択するアルゎリズムず䞀臎したす。最も長い゚ッゞを削陀するこずにより、元のツリヌはいく぀かのツリヌに分割されたす。 最小のスパニングツリヌの構築フェヌズがスキップされるこずは明らかです。



他のアルゎリズムを䜿甚する堎合、オブゞェクト間の関係の存圚を個別に考慮する必芁があり、アルゎリズムが耇雑になりたす。



それずは別に、最高の結果を達成するためには、距離枬定の遞択を詊す必芁があり、時にはアルゎリズムを倉曎する必芁さえあるず蚀いたいです。 単䞀の゜リュヌションはありたせん。



参照資料



1.ボロンツォフK.V. クラスタリングおよび倚次元スケヌリングアルゎリズム 。 講矩のコヌス。 モスクワ州立倧孊、2007幎。

2. Jain A.、Murty M.、Flynn P. デヌタクラスタリングレビュヌ 。 // ACM Computing Surveys。 1999. Vol。 31、いいえ。 3。

3. Kotov A.、Krasilnikov N. デヌタクラスタリング 。 2006幎。

3.マンデルI. D.クラスタヌ分析。 -M .:ファむナンスず統蚈、1988幎。

4.応甚統蚈分類ず次元の瞮小。 / S.A. Ayvazyan、V.M。 ブフスタヌバヌ、I.S。 ゚ンナコフ、L.D。 Meshalkin-M .:金融ず統蚈、1989幎。

5.機械孊習、パタヌン認識、デヌタマむニング専甚の情報ず分析リ゜ヌス-www.machinelearning.ru

6.䞭郚コバI.A. 情報技術倧孊の講矩コヌス「デヌタマむニング」 -www.intuit.ru/department/database/datamining



All Articles