相関、共分散、偏差(パート3)





最初の部分では、偏差変換の本質と、距離の2乗の行列への応用について説明しました。 第二に、霧は単純な幾何学的集合のスペクトルにわずかに入れられました。



この記事では、偏差変換の意味を明らかにしようとします。そのために、データ処理と分析に関連する応用問題に目を向けます。 統計を使用した距離行列の偏差の変換が、 分散相関、 分散にどのように関連するかを示します。



7. 1次元座標のセンタリングと正規化



シンプルで理解しやすいもの、つまりデータの中心化と正規化についてウォームアップを実行します。 一連の数字があるとします 。 次に、センタリング操作は、中間点の検出(重心の設定)に削減されます。







元の数値とその重心(平均)の差として新しいセットを作成します。







センタリングは、元の座標の合計が0であるため、元のセットの元の座標系(SSC)への最初のステップです。2番目のステップは、中心座標の平方の合計を1に正規化することです。







これで、固有値Sと正規化された数値(座標)の組み合わせとして、初期セットのSSCを作成できます。







元のセットのポイント間の距離の2乗は、固有ベクトルの成分の2乗に固有値を掛けた差として定義されます。 固有値S 元のセットの分散 (7.3)と等しいことがわかりました



したがって、 任意の数値セットに対して 、独自の座標系を定義できます。つまり、固有値の値(分散)を選択し、元の数値を中央に配置して正規化することにより固有ベクトルの座標を計算します。 かっこいい。



「手で感じる」ことを好む人のための運動。 セット{1、2、3、4}のCCKを構築します。

答え。
固有値(分散):1.25

固有ベクトル:{-1.342、-0.447、0.447、1.342}。



8.多次元座標のセンタリングと正規化



数字のセットの代わりに、ベクターのセット-ペア、トリプル、数字の他の次元が与えられた場合はどうでしょう。 つまり、ポイント(ノード)は1つの座標ではなく、複数の座標によって指定されます。 この場合、SSKを構築する方法は?



はい、距離の二乗の行列を作成し、偏差行列を決定してスペクトルを計算できます。 しかし、私たちはこれについて少し前に学びました。 通常、異なる行動をとりました(そして行動します)。



セットのコンポーネントの表記法を紹介します。 ポイント(ノード、変数、ベクトル、タプル)が与えられます 各ポイントは数値コンポーネントによって特徴付けられます 。 2番目のインデックスに注意してください コンポーネント番号(マトリックス列)、および最初のインデックス -セット(マトリックス行)のポイント(ノード)の番号。



次に何をしますか? そうです-コンポーネントを中央に配置します。 つまり、各列(コンポーネント)に対して重心(平均)を見つけ、それをコンポーネントの値から減算します。











中心データマトリックス(IDC)を取得しました

次のステップは、各コンポーネントの分散を計算して正規化する必要があるかのようです。 しかし、これは行いません。 というのも、この方法では実際に正規化されたベクトルを取得できますが、これらのベクトルが独立している必要があるためです。 正規化操作ではベクトルは回転せず(ベクトルの長さのみが変更されます)、ベクトルを互いに垂直に配置する必要があります。 どうやってやるの?



正しい(しかし今のところ役に立たない)答えは、固有ベクトルと数値(スペクトル)を計算することです。 スペクトルを考慮できるマトリックスを作成しなかったため、役に立たない。 中心データマトリックス(IDC)は正方形ではありません。固有値を計算することはできません。 したがって、WDCに基づいて特定の正方行列を作成する必要があります。 これは、WDCにそれ自体を掛けることで実行できます(2乗)。



しかし、ここで-注意! 非正方行列は、元の行列に転置行列を乗算することにより、2つの方法で2乗できます。 逆もまた同様です-転置されたものに元の値を掛けることにより 得られた2つの行列の次元と意味は異なります。



MCDに転置されたものを掛けると、相関行列が得られます。







この定義(他にもあります)から、相関行列の要素は中心ベクトルのスカラー積であることがわかります。 したがって、主対角線の要素は、これらのベクトルの長さの2乗を反映します。

行列の値は正規化されていません(通常は正規化されていますが、これは目的には必要ありません)。 相関行列の次元は、開始点(ベクトル)の数と一致します。



次に、(8.1)で乗算された行列を再配置し、共分散行列を取得します(ここでも、係数1 /(1-n)を省略します。これは通常、共分散値を正規化します)。







ここでは、コンポーネントが乗算されます(ベクトルではありません)。 したがって、共分散行列の次元は初期成分の数に等しくなります。 数値のペアの場合、共分散行列の次元は2x2で、トリプルの場合-3x3などです。



相関行列と共分散行列の次元が重要なのはなぜですか? トリックとは、相関行列と共分散行列は同じベクトルの積に由来するため、同じ固有値のセット、行列の同じランク (独立次元数)を持つことです。 原則として、ベクトル(ポイント)の数はコンポーネントの数をはるかに超えます。 したがって、行列のランクは共分散行列の次元によって判断されます。



対角共分散要素は、成分の分散を反映しています。 上で見たように、分散と固有値は密接に関連しています。 したがって、最初の近似として、共分散行列の固有値(および相関)は対角要素に等しくなります(コンポーネント間分散がない場合、それらはいずれの近似でも等しくなります)。



タスクが単純に行列(固有値)のスペクトルを見つけることである場合、原則として次元が小さいため、共分散行列について解くのがより便利です。 ただし、初期セットの固有ベクトルを見つける(独自の座標系を定義する)必要がある場合は、ベクトルの乗算を反映するため、相関行列を操作する必要があります。 最適なアルゴリズムは、2つの行列の対角化の組み合わせである可能性があります。まず、共分散の固有値を見つけ、次にそれらに基づいて相関行列の固有ベクトルを決定します。



さて、私たちはこれまでに行ってきたので、 主成分の悪名高い方法は 、ベクトルデータの与えられたセットの共分散/相関行列のスペクトルを正確に計算することにあると言及します。 見つかったスペクトルの成分は、データ楕円体の主軸に沿って配置されています。 これは、主軸がデータの分散(拡散)が最大であり、したがってスペクトルの最大値である軸であるため、考慮事項から得られます。



確かに、負の分散が存在する可能性があり、楕円体(疑似楕円体?)との類推はもはや明らかではありません。



9.距離偏差の行列は、ベクトルの相関行列です



これはすべて問題ありませんが、偏差変換はどこで行われますか?



いくつかのポイント(ノード)を特徴付ける数値(ベクトル)のセットではなく、ポイント間(およびすべての間)の距離のセットを知っている状況を考えてみましょう。 この情報は、セットのSSC(独自の座標系)を決定するのに十分ですか?



最初の部分で答えを出した-はい、まったく。 ここでは、式(1.3 ')で構成された二乗偏差行列と、上記で定義された中心ベクトル相関行列(8.1)が同じ行列であることを示します。



これはどのように起こりましたか? ショックを受けている。 これを検証するには、距離の平方の行列の要素を式に置き換える必要があります







偏差変換式に:







距離の2乗の行列の平均値は、元のセットの分散を反映していることに注意してください(セット内の距離がコンポーネントの2乗の合計である場合)。







(9.1)と(9.3)を(9.2)に代入して、単純な縮小の後、相関行列(8.1)の式に到達します。







したがって、ユークリッド距離行列に偏差演算を適用すると、既知の相関行列が得られることがわかりました。 相関行列のランクは、共分散行列のランク(ユークリッド空間の成分の数)と一致します。 この状況により、距離行列に基づいてスペクトルと開始点の独自の座標系を構築できます。



任意の距離行列(必ずしもユークリッドではない)の場合、潜在的なランク(測定の数)はソースベクトルの数よりも1つ少なくなります。 スペクトル(独自の座標系)の計算により、ポイント(ベクトル)間の距離に影響を与える主要(主要)コンポーネントを決定できます。



たとえば、都市間の距離のマトリックスは明らかにユークリッドではありません-コンポーネント(都市の特性)は指定されていません。 それにもかかわらず、偏差の変換により、そのような行列のスペクトルと都市の独自の座標を決定することができます。



しかし、この記事ではそうではありません。 これですべてです。お時間をいただきありがとうございます。




All Articles