ゲノミクス用コンピューター

モスクワ州立大学生物工学および生物情報学部、進化ゲノミクス研究室研究員、セルゲイ・ナウメンコ ロモノソフは、ポストナウカに、実験室、ゲノムデータの処理に使用されるスーパーコンピューター、およびこの点で解決しなければならない問題について話した。





2003年には、1990年代初頭に始まったHuman Genomeプロジェクトが完了しました。これにより、ヒトゲノムの配列が決定されましたが、まだギャップがあります。

以下は、研究のダイナミクスを示すプレートです。







2003年には、1990年代初頭に始まったヒトゲノムプロジェクトが完了しました。 ゲノムを配列するために、それは30億ドルを費やされ、科学者の多大な努力が国際プロジェクトに集まった。 現在、高性能シーケンス用の新しいデバイスの発明により状況が変わりました。低コストで2週間で10ゲノムを読み取ることができます。 微生物学者のコンスタンチン・セヴェリノフは、科学者が外部の企業にさまざまな実用的および実験的タスクを外部委託する際の例として、ヨーロッパとアメリカの経験を引用して、これについてすでに話しました。



現在、バイオインフォマティクスが直面している主な問題は、特別なコンピューターの作成とそのメンテナンスです。 これには、そのアーキテクチャを担当する専門家が必要です。 しかし、ロシアにはそのような人はほとんどいません。 なぜ必要なのか:個人的な責任者を選択しない場合、アーキテクチャは、ゲノムデータの処理タスクに適さない可能性がある既存のソリューションに基づいて形成されるためです。



しかし、アーキテクトとコンピューターがいると、新しいタスクが発生します。



1.使用するオペレーティングシステムを決定する必要があります。

モスクワ州立大学の生物工学およびコンピューターサイエンス学部の進化ゲノミクスの研究室で言う。 Lomonosovは、CERNとFERMILABをリードするRedhat Enterprise Linuxの工業用ディストリビューションに基づいて開発されたScientific Linuxの略です。



2.ファイルシステムの使用の問題。 繰り返しになりますが、モスクワ州立大学はLustreファイルシステム(特にLomonosovの非常に強力なスーパーコンピューターで通常使用され、ディスクアレイに負荷を分散できる拡張ファイルシステム)とOCFS2、XFSを使用します。



3.システムを監視するタスク。 モスクワ州立大学では、これはナギオスです。 このようなシステムは、何かが壊れているかオフになっているかを管理者がすぐに知るために必要です。



4.ノードの構成の問題。 MSUのPuppetシステムによって解決され、すべてのノードの構成を自動的に構成できます。



さらに、専門家のための上記のすべては一般的な場所ですが、生物学者がこの問題に遭遇すると、彼らはそれをゼロから解決し始めます。 ロシアでは、実験室にシーケンサーを装備するプロセスが始まったばかりであり、これが起こると、生物学者はナウメンコが認めているように、ラップトップより強力なものを処理できないため、シーケンスデータを処理するための機器の問題が発生します。

そして、これから、彼らは助けを求めてベンダーに頼るか、原子水素爆弾の計算の時からそのようなコンピューターを使用していた物理学者に頼らざるを得ません。 しかし、彼らのコンピューターは生物学者の仕事には適していません。



モスクワ州立大学の進化ゲノミクス研究室のコンピューターとスーパーコンピューターを区別するのは、スーパーコンピューター(それらのリストはsupercomputers.ruにあります)は、膨大な数のプロセッサー、プロセッサー間の非常に高速な接続ネットワーク、比較的小さなデータストレージを備えた強力なコンピューターです。 また、生物学者には、データを処理し、大量のデータを収容でき、高速でデータを送信できるが、計算能力が比較的低いコンピューターが必要です。 つまり、その中のプロセッサの数は、データストレージの数に匹敵します。



このようなコンピューターはモスクワ州立大学の研究室にあります。 これには、約500テラバイトのディスクアレイが含まれています。これは、Lomonosovスーパーコンピューターのディスクメディアの約3分の1であり、約300〜400コアが含まれています。





コンピューターロモノソフ



モスクワ州立大学の進化ゲノミクス研究室のコンピューターは、次のタスクを解決します:2つのシーケンサーからデータを受信し、短い読み取り、注釈、つまりコーディングタンパク質と非コーディングタンパク質にマーキングし、生データ処理タスクからデノボゲノムも生成します。それはシーケンサーから来ています。



これらの問題を解決するには、大きなメモリを持つノードを作成する必要がありました-de novoゲノムを構築するには、大量のRAM-512ギガバイトのRAMが必要です。



奇妙なことに、直接問題となっている問題は、モスクワ州立大学でさえ中断があり、コンピューターシステム全体に5分から30分まで電力を供給するために強力な無停電電源装置を設置する必要がある電気の問題です。

高性能シーケンサーの登場により、特定の遺伝子の一部ではなく、完全なゲノムレベルで安価なゲノムデータを取得できるようになりました。これにより、進化ゲノムおよび医学ゲノムのまったく新しい可能性が開かれました。 人口を取得し、すぐに20〜50個のサンプルのゲノムを読み取り、これらの生物の遺伝子型に基づいて、人口全体の遺伝学を確認できます。 医学では、予測のために、多くの繰り返しが必要です。つまり、何かについて話すことができるように、50〜100人の患者をシーケンスする必要があります。 したがって、シーケンサーが必要であり、そのような膨大な量のデータを処理する必要があります。

したがって、現在、生物学者はデータの意味を理解するために、再学習し、プログラムを書くことを学び、統計を研究する必要があります。



「いつかこの時代は過ぎ去り、実験を計画し、どのデータを受信する必要があるか、何が必要でないかを理解するより合理的なアプローチに取って代わられるかもしれませんが、今では可能性がすべて配列され、すべてのデータが手を差し伸べて処理を試みることができます。 したがって、これに関連して、コンピューターの必要性は、より成熟した研究方法論が開発されるまで増加します」 と、 Sergey Naumenko 氏は言います。



All Articles