スーパーコンピューターは遺伝学を守る

プログラム「 Intel with 5 weeks 」の新しい投稿を見越して、ロシアのいくつかの開発の例に関する高性能システム(HPC)の使用について語る興味深いテキストを読むことを提案します。



画像



5月、インテルは32コアテストプランコンテストを開催し、科学者コミュニティがマルチコアコンピューティングシステムでアプリケーションをテストできるようにしました。ロシアからの5人の勝者の中にはすでに3つのチームがいます。 以下は、ファイナリストの仕事の背後にある複雑で美しい数学についてのいくつかの言葉です。



Anton Pankratovは、 Institute of Mathematical Problems of Biologyで働いており、多くのタスクを扱っています(研究所のメインページに完全なリストがあります):生体高分子の主要構造の研究から、生体分子システムのダイナミクスのモデリング、ニューラルネットワークモデルおよび生物多様性の問題まで。



画像



彼の同僚であるRuslan Tetuyev Antonとともに、相同遺伝子配列の認識のために遺伝データを処理および分析するためのスペクトル法に取り組んでいます。 あなたが最後の文を理解していなければ、それは怖くありません-実際に彼らの興味の範囲外の誰もが危機にwhatしているものを理解していません。



画像 ダミーの遺伝学:DNAは非常に長いポリマーであり、多数の建築用レンガ(ヌクレオチド)で構成されています。 ヌクレオチドは基本的に4つの繰り返し核酸塩基を持っています:アデニン、チミン、グアニン、シトシン、略して-A、T、G、およびC.深刻な遺伝学的研究は化学プロセスをバイパスし、これらの4文字を直接操作します。地球:ATCGATTG、これは進行中のDNAコードのようです。 これらの配列は非常に長いため、継続的かつ継続的です:約2億2,000ヌクレオチドペアの長さを持つ、最も長い人間の染色体、ナンバーワン。



現代の計算遺伝学の主要な問題の1つは、パターン認識、つまりDNAの反復部分を見つけることです。 人間のゲノム全体を単純に書き留めることは一つのことです。その中の繰り返しまたは類似の部分を見つけて、それらの間の接続、関係を確立しようとすることはまったく異なります。 これは、アントンのメンターによって開始され、偉大なロシアの数学者パフヌティチェビシェフの仕事に基づいて、IMPB研究所の20年間のプロジェクトを継続して、アントンのチームが行っていることです。 「NASCAメソッドと呼ばれる数値分析スペクトル比較アプローチ:スペクトル分析を近似する方法です」と、アントン母校のVorobyovy Goryにあるモスクワ州立大学の太陽が降り注ぐ第2の建物を歩きながら、アントンは言います。



「近似理論に多大な貢献をしたチェビシェフ直交多項式の式を使用すると、文字と文字の直接対応を確立する動的プログラミングの一般に受け入れられている方法では不可能な非常に大きなシーケンスを処理できます。」 これは「相同性」、つまり類似性ですが、正確な対応ではありません。アントンチームは、DNAコード内で類似するが正確ではない繰り返しを探しています。 「アルファベットのテキストから抽出し、その統計プロファイルに切り替えました。個々の文字A、T、G、Cは表示されなくなりましたが、テキストに沿ってスペクトル分析を近似して処理できる統計が表示されます。」



画像

150万ペアのヌクレオチドのシーケンスを考慮したマトリックスのフラグメント。 マトリックスの各カラーピクセルは単一の繰り返しではなく、500核酸塩基の繰り返しです。 同様のセグメントは赤でマークされ(赤の対角線はもちろん、それ自体で閉じられているマトリックスの繰り返しです)、逆のシーケンスは緑で表示されます。



このマップは、ゲノム研究のための既製の科学ツールです。 アントンのチームは、よく知られている方法を使用して検出するのが非常に難しい繰り返しすでに発見しています:「Ruslanは私たちの発見を遺伝情報研究所のデータベースに送りました。そして、この方法が現代の遺伝学



「私たちはモスクワ州立大学のインテル研究所を通じて競争について学びました。 私たちが開発した分解係数を計算する方法のおかげで、私たちの方法は非常によく並列化されているため、マルチコアアーキテクチャに興味があります。 現在の作業の実装では、一般的なOpenMPおよびIntel IPPパッケージを使用し、マルチコアアーキテクチャ上でほぼ直線的に高速化します。 Intel 32コアテストシステムでは、プログラムのアルゴリズム部分の27倍の高速化を達成しました。



画像



「現在、Intelが提供するリモート32コアマシンでアルゴリズムをテストしている間に、多くのことを学びました。 並列プログラミングにより、美しいソリューションを考えて努力することができます。」



ノボシビルスク州立大学のEkaterina Zhmudも、非常に美しいコードのためにマルチコアシステムを使用しています。 「私たちのプロジェクトはコーディング理論に関連しており、Q値コードの自己同型グループを計算するアルゴリズムに取り組んでいます。 これはあまり明確ではありませんが、一般に自己同型のグループは現代の暗号化で広く使用されており、現在では技術の世界でますます重要な部分になっています。 このプロジェクトの作業の私の部分は、組み合わせオブジェクトの対称グループ、オプションでコードの発見に関するものです。 将来的には、暗号科学者が使用できる特別なツールを作成する予定です。」



画像

写真:: Maya Shelkovnikova



アントンのチームと同様に、キャサリンはマトリックスを使用してコードを検証します。 個々の行列行または行の一部を個別に表示できるため、アルゴリズムを非常に並列化できます。 「 vTuneスレッドチェッカーを使用して、コードの並列化を分析します」とキャサリンは付け加えます。



アントンパンクラトフと彼のチームは、Intelのテストおよび最適化ツールの使用を検討していますが、「これまでのところ、プログラムのデバッグに特別なツールを使用していません。非常に慎重に作成するだけです。 私たちの観察は、メモリが高性能コンピューティングシステムのボトルネックであるという従来の知識を確認するものであるため、インデックス付け、情報圧縮を使用します。 Intelの支援は組織的な意味でも重要でした。2006年に並列コンピューティングに関する会議に参加し、そこで既存のツールと並列プログラミング環境を重視しました。」



ロシアのインテルの教育プログラムのディレクターであるアレクセイ・ニコラエフは、テーマを次のように要約しています。 これらの組み合わせにより、新しい方法論的側面を発見し、新しい知識を与え、教育運動の最も効果的な方法を決定することができます。



* * *



画像 このテキストは、 Intel Galaxyプロジェクトから引用されています。



+ そして午後には、「 Intel with 5 weeks 」プログラムの一環として、スーパーコンピューター(HPC)のトピックに関する別の資料が投稿されます。そうすれば、すでに難しい質問の準備を始めることができます。



継続する。



All Articles