データマイニングのトピックがハブでどのように表示されるのか興味がわきました このトピックに関する記事は1つだけ見ました。 このトピックの開発に少し貢献したいと思います。
歴史的に、データマイニングという用語にはいくつかの翻訳オプションがあります。
- データ抽出
- 知識抽出、データマイニング
実装方法について説明する場合、最初のオプションは応用分野に関連し、2番目は数学と科学に関連し、原則としてほとんど重複しません。 アプリケーションの可能性について話す場合-多くのオプションがあります。 そのため、私は最初のオプション(大学での科学研究)と別のオプション(研究、フリーランス)の両方で作業しました。 さらに詳しく考えてみましょう。
データ抽出
データ抽出は、情報を見つけて収集し、さまざまな形式で保存(変換)するプロセスです。 簡単に言えば、データ抽出プログラムはパーサー、グラバー、スパイダー、クローラーなどと呼ばれます。 実際、このようなプログラムは、データ(つまり、知識ではなくデータ)を体系化できるため、すべての人の生活を楽にします。 このようなプログラムは、業界の企業の住所を収集したり、必要なフォーラムからのリンクを作成したり、カタログ全体を解析したり、データベースをコンパイルするための優れたツールとして使用できます。
これを長い間行ってきたので、この意味でデータマイニングのアプリケーションはたくさんあると言えます。 原則として、データは誰の知的財産権を侵害することなくオープンソースから取得されます。
例:
- 国の銀行のリストを編集する
- 学校ベースの編集
- 特定のトピックに関するサイトのリスト
基本的に、これは現時点で必要なものの「リスト」、「カタログ」、「ベース」です。
次の出版物では、実際の例をより詳細に説明します。
知識抽出
「知識抽出」の本質:膨大な量のデータがあり 、 知識を得る必要があります。 実例:外国為替相場に関する多くのデータがあります(多くは1日に約数ギガバイトのテキスト情報です)。 したがって、テキストファイルはデータですが、「在庫Aの下落は在庫Bの下落につながります」という記述は、これらのデータに基づいて既に得られた知識です。 言うまでもなく、この種の知識を得るための便利なツールがあれば、複数のマネージャーが意思決定を行うのに役立ちます。
データマイニングの主なカテゴリ:
- データのクラスタリング(オブジェクトの類似グループへの分離)
- データ分類(定義済みグループへのオブジェクトの割り当て)
- ニューラルネットワーク、遺伝的アルゴリズム(ユニバーサルオプティマイザー)
- 連想ルール(「if ... then ...」を参照するルール)
- 決定木
- 時系列分析
また、回帰、多変量解析、およびその他の分析も含めます。これらは同様の問題を解決するためにも使用できるためです。 これらの各カテゴリには、独自の数学およびアルゴリズム装置があり、特定の範囲の問題を解決できます。
現時点では何がありますか?
正直に言うと、それほど厚くはありませんが、それでも:
- データマイニングは、Microsoft SQL Server 2008 + Microsoft Office 2007用インテリジェントアドインに含まれています。
- Oracleには何かがありますが、私は自分で試したことはありません
- Weka-オープンソースのJavaプロジェクト
- データマイニングに関するサイト -しかし、本当に役立つものは見つかりませんでした:(
残りは、ネットワーク全体に散らばるデータ、例、およびコードのスニペットです。
データマイニングのソースコード
.NET開発者であるため、この言語で実装されたアルゴリズムの例が必要でしたが、90%のケースではC ++(主にLinux)またはJavaでした。 C#(またはVB.NET)の例が不足しているという問題により、私はすべてを自分で書きました。
何よりも、自分が持っているものと、インターネットで見つけたものを体系化したかったのです。 したがって、 Data Mining Source Codeと呼ばれるコードプレックスのオープンソースプロジェクトが登場し、このプロジェクトの簡単な説明として、 「Data Minig Source Code Blog」が登場しました 。 C#、VB.NET、Java、およびJavaScriptにはソースがありますが、ほとんどのソースはC#にあります。 彼には、 C#の数値的手法という追加のプロジェクトがあり、多数の数値的手法を実装しています。
プロジェクトは商業的ではなく、私はそれが好きでした(そして大学で勉強しなければなりませんでした)。だから私はそれらをパブリックドメインに投稿します。 プロジェクトが進行中になり、プログラミングの経験を積む必要のある学生が取り組んでいるので、誰かがソースコードを持っているか、アルゴリズムや方法を学びたいという欲求がある場合は、自分のアイデアに参加して送信できます。
最後に、このトピックがどれだけ面白いか、そして上記のどれをもっと詳しく読みたいですか?