BigDataの背後に人工知能を掛け合わせた信じられないほどの未来があるという事実は、ストルガツキー兄弟とジュールヴェルヌの収集した作品を合わせたものよりも多く書かれています。 正当な理由がないわけではありませんが、それらすべては、たとえばディープラーニングを使用して収集、処理された膨大なデータセットにより、今日のすべての詐欺師を特定し、疑わしい取引を防ぎ、最も収益性の高い市場を予測できると主張しています。 金融業界自体は、賢明な人工知能の制御下で完全に自動化されます。
おそらくこれはある程度でしょう。 すでに今日では、自動化の度合いは10年前には素晴らしいと思われていたレベルに達しました。 すべてがそうです...しかし、あなたが知っているように、「ささいなこと」は多くの驚きをもたらすことができます。 そのような些細なことの1つは、詐欺との戦いで使用される可能性があり、使用されるべきすべてのデータの最大のシェアは、市場予測であるという事実です。 生成される毎日の書き込み、ビデオ、およびその他のデータの量は数十億行であり、オペレーターの助けを借りての分析は実質的に無用です。 誰かがすべてが間違っていると主張するかもしれません、そして、データの大部分は統計的方法によってよく処理される普通のテーブルです。 そして、彼は正しいと思われるでしょう。 TOP-30の銀行は、BigDataの広範な使用について報告しています。 しかし、詳しく見てみると、 アルファバンクによると、主に構造化されたトランザクションデータについて話している。
しかし、構造化されたデータの分析においてさえ、これらの数字の山はすべて、追加の意味を持つ別々の列に隣接していることがわかります。 商品の名前、TINを示さない組織の名前、姓などが含まれます。たとえば、「非構造化データ」としましょう。
もう1つの巨大なレイヤーは、価格表、アパート、自動車などの広告のデータ配列です。 そして、ここでも誰かが言います:「しかし、製品カタログがあるほとんどどこにでも、TN FEA、OKVED-2、その他たくさんあります。」 そして、このコメントにはすでに多くの質問に対する答えが含まれています。 これらのディレクトリはすべて業界固有の不完全なものであり、割り当てに関する完全な説明や規則はありません。また、人間の想像力には境界線がない場合があります。 契約の配列、求人広告、インターネットの投稿など、他の分野に関しては、ディレクトリはまったくありません。
これらすべての問題を組み合わせると、統計的手法、ニューラルネットワークでさえ、意味解析および記号解析の検索および分析システムなしでは、この問題を解決することはまったく不可能であるという事実が認識されます。 簡単な例は、住宅ローンの貸し出しの分野で詐欺と闘うタスク、または中古車を購入するための自動車ローンを発行するタスクです。 私が受け取りたい一連のデータは、誰もが理解できると思います。販売リストにローンを発行する必要があるアパートや車はありますか? また、同じ家や近隣の家の平方メートルあたりのコスト、または同様の車の価格はいくらですか? また、入植地内および大都市圏内などの費用はいくらですか?
「現状のまま」のサイトからデータをダウンロードすることは、技術的に難しい作業ではありません。 このようなデータベースを受け取った後、構造化されていない情報を含む数百万のレコードと、BigDataカテゴリーのデータベース全体があります。 ソーシャルネットワークを分析せずに、証明書に示されている賃金の妥当性を検証するための求人のベースの分析、または若い世代の信頼性の分析は、一般的に不可能な作業です。
最近、ますますさまざまな種類の政府機関がセマンティックデータ分析のトピックに関心を持つようになりました。 例は、セマンティックテキスト分析のサブシステムを含む「AIS連邦税務サービスの分析サブシステム」の開発のために、政府調達Webサイトに2017年5月に掲載された電子オークションです。
残念ながら、何らかの理由で、受賞ストーリーの背後には、これに関連する問題の完全なプールと逃した機会があります。 少なくともそれらのいくつかを理解してみましょう。
1つ目は、データ自体の可用性です。 今日の着信データの量と速度は、オペレーターによる処理の可能性を排除しています。 その結果、非常に高い処理速度で少なくとも80〜90%の回復レベルを備えた自動モードでデータ品質およびデータマイニングタスクのソリューションを提供する市場の製品が緊急に必要になります。 そして、特に、エラーの数は1〜1.5%以内でなければなりません。 注意深い読者は、Hadoopなど、パフォーマンスの低い問題を解決できるさまざまな分散ソリューションがあると言うことができます。 すべては真実ですが、多くの人は、そのようなプロセスが本質的に周期的であることを忘れています。 そして、抽出されたものをディレクトリ、検索インデックスなどに追加する必要があります。 1つのストリーム内で交差しないデータは、別のストリームからのデータと重複する場合があります。 したがって、並列分岐の数を最大最小に維持し、1つのスレッド内のパフォーマンスを最大化する必要があります。
第二に、これは実際に使用される割合です。 一部の西洋の情報源によると、さまざまな国の「暗い」または隠されたデータのシェアは半分以上に達します。 それらの使用が不可能である主な理由は、低品質を背景にした貧弱な構造化です。 ここで、私はすぐに構造化と低品質の問題が2つのまったく異なる問題であることを明確にしたいと思います。 非構造化データをコンポーネントに分解して依存関係を構築することは困難であり、比較することは困難ですが、同時にそれらは本質的に完全に信頼でき有効です。 無効な、または低品質のデータは完全に構造化できますが、「現実の」世界のオブジェクトに対応していません。 たとえば、郵送先住所はフィールドに著しく配置できますが、自然界には存在しません。
第三に、これはロシア語の意味論の分野における西洋のシステム能力の欠如です。 この問題は、データを処理するシステムを選択する際に、アナリスト自身が見落としがちです。 ソリューションプロバイダーとシステムインテグレーターは、これは「多くの国で既にソリューションが存在する」ため、簡単に解決できる問題であることを暖かく約束しています。 しかし、原則として、英語または同じロマンスグループの言語で作業している国際組織であるか、実装が完全にローカライズされていないという事実は黙っています。 私たちの経験では、ロシア市場で知られているセマンティック検索タスクをローカライズしようとする試みはすべて成功しておらず、可能なレベルの60〜70%以下の品質レベルに達しています。
第4に、プロセスのさまざまな参加者が、エンティティの分類規則についてさまざまなアイデアを持っている場合があります。 この場合、情報ランドスケープ内に複数のシステムがあるという事実については話していません。 多くの場合、同じシステム内では、本質的に同じオブジェクトがさまざまな方法で記述および分類されます。 そしてその理由は、一部の従業員の不注意や過失ではありません。 主な理由は、アクションが発生したコンテキストまたは条件にあります。 国家の伝統、異なる文化的規範。 これらの条件でルールを明確に規制することは、単に不可能です。
したがって、ビッグデータ、人工知能などを使用するタスク。 実際には、データサイエンスという用語ではなく、より広い視野が必要です。 また、BigDataの分野でソリューションを設計するプロセスでは、データのクリーニングと抽出の問題に特に注意を払う必要があります。 それ以外の場合、よく知られている言葉に従って、自動化された混乱は依然として混乱です。