データマイニングを使用して大量の科学情報を分析する方法に関する興味深い
記事が New Scientist誌に掲載されました。 目標は、異種の科学記事で貴重な情報を検索することです。 人々はおそらく、自動処理なしではこれらのパターンを自分で検出することはできません。 これは驚くべきことではありません。インターネット上で英語だけで公開された科学文書の量がすでに
1億文書を超えているからです。 これは巨大な情報ノイズであり、有用な情報を抽出することは事実上不可能です。 つまり、人間の心で抽出することは不可能です。
現代科学のデータマイニングなしでは不可能であることは明らかです。 たとえば、大型ハドロン衝突型加速器からのペタバイトの情報は、特定の理論によって想定される効果の有無を判断するために、数か月/数年間処理されます。 しかし、ここでは、隠されたパターン、偶然の一致を検索するための、さまざまな著者の科学的結果のより「微妙な」分析について話しています。
たとえば、KnITと呼ばれるカリフォルニア州のスーパーコンピューターは、こうしたタスクに常に取り組んでいます。 彼は1時間あたり50,000件の科学論文を分析しています。 彼が
p53と
呼ばれるタンパク質に関連するすべての情報を具体的に分析し、それと相互作用する酵素に関するすべてのデータを探した
としましょう。それらはキナーゼと呼ばれます。
タンパク質p53は非常に重要であり、「ゲノムの守護者」と考えられており、体内の癌性腫瘍の発生を抑制します。 スーパーコンピューターは、p53タンパク質の新しい未発見のキナーゼの存在を示す可能性のあるすべての参考文献について科学論文を検索しました。 テストタスクとして、彼は2003年まで科学的な研究を分析し、次の10年間で実際に発見された7つのキナーゼを発見しました。 つまり、システムは実際の科学的発見を行えることを確認しました。 さらに、彼女はさらに2つのキナーゼを発見しました。 最初の実験室の実験では、スーパーコンピューターによって行われた仮定の妥当性が確認されました(ただし、科学者グループは、保証のために実験を繰り返したいと考えています)。
IBMとBaylor College of MedicineのKnIT開発者は、最近、ニューヨーク知識発見とデータマイニング会議でこの主題に関する講演を行いました。 彼らの主なポイントは、人間の科学者は新しい情報を生成するのにより適しているのに対し、コンピューターはこの巨大な生成データ配列をすべて分析するのにより適しているということです。
もちろん、KnITは、積極的な研究が行われているこの分野での唯一の開発ではありません。 たとえば、マンチェスター・システムの
イブの著者は、彼女がすでにマラリアの新しい治療法を見つけたと主張しています。 このプログラムは科学的研究を研究しませんでしたが、それ自体がこの分野の実験をエミュレートし、さまざまな種類の薬物を試しました。