データ分析。 おおよそのセット

データ分析に関する一連の投稿を作成することにしました。 私は数年前からこの(そして、結局のところ非常に興味深い)コンピューターサイエンスの分野で働いています。 近似集合の理論の観点からデータの分析に注目します。



それはどうなるのでしょうか?



ラフ集合の理論は 、不確実性、不正確さ、不確実性を記述するための新しい数学的アプローチとして開発されました[ZdzisławPawlak、1982]。 これは、宇宙の各オブジェクトに何らかの情報(データ、知識)を関連付けるというステートメントに基づいています。 同じ情報によって特徴付けられるオブジェクトは、それらについて利用可能な情報の点で区別できません(類似)。 この方法で生成された識別不能な関係は、近似(ラフ)セットの理論の数学的基礎です。



近似集合の理論の概念の基礎は、集合の近似の操作です。



ここで、近似セットの近似の概念を示します。



例








実際のアプリケーション



近似セットは、属性値テーブル、情報システム、または決定テーブルとも呼ばれるデータテーブルを操作するときに使用されます。 決定表はトリプル=(U、C、D)です。ここで、

Uはたくさんのオブジェクトです

Cは条件属性のセットです

Dは決定属性のセットです。



表の例


うん C D
頭痛 温度 インフルエンザ
U 1 はい 普通の いや
U 2 はい 高い はい
U 3 はい 普通の いや
U 4 はい 非常に高い いや
U 5 いや 高い いや
U 6 いや 非常に高い はい
U 7 いや 高い はい
U 8 いや 非常に高い はい




テーブル分析


セット:

U = {U 1 、U 2 、U 3 、U 4 、U 5 、U 6 、U 7 、U 8 }

C = {頭痛、体温}

D = {Flu}



可能な属性値:

V 頭痛 = {はい、いいえ}

V 温度 = {標準、高、非常に高}

V インフルエンザ = {はい、いいえ}



頭痛属性の値に従ったセットUのパーティションは次のとおりです。



温度属性の値に応じたセットUのパーティションの形式は次のとおりです。



ソリューションInfluenzaの属性の値に応じたセットUのパーティションの形式は次のとおりです。



この表に示されているデータ、たとえばU 5とU 7は矛盾しており、U 6とU 8が繰り返されています。

U 5 いや 高い いや
U 6 いや 非常に高い はい
U 7 いや 高い はい
U 8 いや 非常に高い はい


実際には、近似セットを使用して、「有用な」不正確で矛盾したデータから「抽出」できます。



私たちは何に取り組みますか?



以下の投稿では、この理論を使用したデータ分析の実用的な実装(Python)を示します。




All Articles