データの操作:新しい科学





科学データの量は驚くべき速度で増加しているため、新しい数学的方法と分析方法が必要です。 データセットは、たとえばニューラルネットワーク、天体物理学、または医学に関連する多くの分野でますます複雑になっています。



ノースイースタン大学(米国)の物理学者Alessandro Vespignani(Alessandro Vespignani)は、株式市場の行動のモデリング、選挙結果やその他の統計上の問題の予測に従事しています。 彼はソーシャルネットワークから受信した数テラバイトのデータを自由に使用でき、それらのほとんどすべて[データ]は構造化されていません。



Vespignaniは、収集したデータを処理するために、さまざまな数学的ツールと方法を使用しています。 彼は何百万ものツイートをソートし、キーワードを検索します。 Vespignaniは、ビッグデータ分析に対して効果的に段階的なアプローチを取ります。 しかし、イェール大学の数学者ロナルド・コイフマンは、膨大な量の情報を収集して保存するだけでは不十分であり、適切に編成する必要があり、これには特別な構造が必要であると主張します。



頂点とリブ



13世紀に生まれたケーニヒスベルク市(現在のカリーニングラード)は、プレゴル川の島々と銀行に位置する3つの正式に独立した都市集落で構成され、4つの主要な部分に分かれていました。 これらの4つの土地区画は、7つの橋で相互に接続されていました。 18世紀、数学者のレオンハルトオイラーは当時人気のあった謎に戸惑いました。ケーニヒスベルクの7つの橋すべてを渡り、それぞれの橋を2回踏まずに出発点に戻るにはどうすればよいのでしょうか。



それを解決するために、オイラーは点と線からモデルを構築し、偶数個の橋が各「地球の島」につながる場合にのみ問題が解決することを発見しました。 ケーニヒスベルクには奇数の橋があったため、この旅は不可能でした。



オイラーの考えに基づいて、スタンフォード大学の数学者グンナーカールソンは、面倒なデータセットを頂点とエッジのネットワークとして表すデータマップの構築を開始しました。 このアプローチはトポロジカルデータ分析(TDA)と呼ばれ、Gunnarによれば「非構造化データを構造化して、後で機械学習法を使用して分析できるようにします」。 ビデオで、カールソンはトポロジカル分析が研究者が大きなデータセットを解釈するのにどのように役立つかを説明します。



橋についてのパズルの場合のように、ここではすべてが接続と「接続」されています。 ソーシャルネットワークは、頂点が名前で、エッジが接続である、人々の間の関係のマップです。 カールソンは、このアプローチを他の分野、例えばゲノム配列を扱うために使用できると信じています。 「シーケンスを比較して、違いの数を特定できます。 結果の数値は距離の関数として表すことができ、それらがどれだけ異なるかを示します」とカールソンは説明します。



Carlsson Ayasdiプロジェクトはこのために作成されました。高次元データの表示を単純化します。 多次元データセットに155個の変数がある場合、クエリはどのようになり、すべてを一度に考慮しますか? カールソンは、この作業を暗いガレージでハンマーを見つけることと比較しています。 懐中電灯を持っている場合、ガレージの内容を順番に見て、必要なツールに出くわします。このプロセスは非常に長く、夢中にさせることができます。 ライトを点灯する方がはるかに効率的です。ハンマーと釘の箱の両方がすぐに見つかりますが、それらが必要になるとは思わなかったでしょう。 Ayasdiテクノロジーは電球を照らすだけです。



トポロジカル手法を使用すると、複雑なオブジェクトを平面に投影するようになります。 危険は、シャドウシアターの幻想のようないくつかのパターンが実際には存在しないという事実にあります。 さらに、多くの科学者は、トポロジカル手法は一般に一部のデータセットには適用できないと考えています。 データセットがゆがんでいるか不完全な場合、完全に不正確な結果をもたらす可能性があります。



オッカムのカミソリ



2004年2月、スタンフォード大学の数学者エマニュエルカンデスは、ぼやけた画像を改善する方法を見つけようとしました。 Candesは開発されたアルゴリズムの1つを適用し、わずかな改善が見込まれると予想していましたが、彼は明確なイメージを持っていました。 Candesによると、この確率は、最初の3桁を知っている銀行カード番号の10桁を推測する確率と同じでした。 しかし、それは偶然ではありませんでした。 このメソッドは他の画像でも機能しました。



成功の鍵は、いわば、オッカムのカミソリの数学的バージョンでした。特定のファジー画像を再構築するための数百万の可能なオプションの中で、最も単純なバージョンが最適です。 この発見により、圧縮センシングの手法が生まれました。



今日では、ネットワークを介したビデオ放送で使用されています。 ビデオを送信するときのデータ量は非常に大きいため、圧縮する必要があります。 通常、データを圧縮するには、まずすべてのビットを取得してから、重要でないビットを破棄する必要があります。 圧縮センシング方式を使用すると、事前に保存することなく、重要なビットを判別できます。



「希少疾患の集団をスクリーニングする場合、すべての人の血液検査が必要ですか? 答えはノーです。 望ましい「要因」は非常にまれであるため、つまり、それがまばらであるため、わずかなテストを実行するだけで十分です」とCandesは述べています。 32人のグループに1人が感染しているとします。 分析のためにそれぞれから採血しました。 テストが陰性の場合、感染はありません。 しかし、結果が肯定的な場合、感染者を見つける方法は?



Candesは、サンプルの半分を採取(16)し、再分析できると考えています。 結果が陽性の場合、感染者はこのグループに属し、そうでない場合は別のグループに属します。 その後、グループは再び半分に分割され、テストが繰り返されます。 したがって、それぞれを個別にテストすると、32回ではなく5回のテストで回答が得られます。 これが圧縮センシング方式の本質です。



圧縮センシング方式は、一部のデータが失われたり破損したりしている大規模なデータセットに役立ちます。 良い例は、診療記録の処理であり、その一部は診療所のスタッフによってタイプミスがあります。 別の例としては、顔認識システムがあります。眼鏡をかけたとしても、それでも認識できます。



CandesはCompressed Sensingを称賛しますが、Karlssonはトポロジカルアプローチを採用しています。 ただし、これら2つの方法は互いに補完するだけで、競合することはありません。 「結局のところ、データサイエンスは方法論の総和以上のものです」とVespignaniは主張します。 「いくつかの方法を組み合わせることで、まったく新しいものを作成できます。」



PS最近、私たちは初心者向けの機械学習ソースの選択を公​​開し、ディープラーニングについて話しました もちろん、私たち自身の経験も共有しています。量子通信システムの開発について、そして普通の学生から高度なプログラマーをどのように準備するかについて少しです。



All Articles