実用的なバイオインフォマティクス

ロシアのセグメントでは、バイオインフォマティクスに関する情報が非常に不足していることがわかりました。 需要があるかどうかはわかりませんが、読者に導入部分を提供したいと思います。これは、実用的なバイオインフォマティクスと呼ぶことができます。 この章では、私がフレーズを避けたくないときに、今まで行かなければならなかったパスを説明したいと思います。ここにFASTQファイルがあり、ゲノムブラウザのベッドグラフを作成します。 興味深いことについて話し続けるために、定義と主要なデータ処理プログラムを斜めに見ていきたいと思います。それなしでは、同じ言語を話すことは困難です。



まず、いくつかの定義。 染色体は、1から約10e8までの1次元の座標軸であると想定しています。 軸の長さは染色体の長さに依存します。 各軸ポイントは整数です。 生物学者と化学者は多数の実験を実施し、彼らのおかげで染色体の部分を非常に正確に記述することができました(約90%)。 これらの説明は注釈と呼ばれます。 アブストラクトには、染色体の長さ、染色体の個々のセクションの座標に関する情報が含まれています。最もよく知られているのは、遺伝子、 イントロンエクソンです。 これらのセクションは非常に多数ありますが、それらの主な特性は、これらが座標軸上にあるセグメントまたはセグメントのセットであることです。 一部のセグメントには他のセグメントが含まれるか、何らかの方法で交差します。 ここに、人間やマウスなどのゲノムの注釈を見ることができるサイトのセットがあります。



化学者と一緒に生物学者が実験を行い、細胞に対する操作の結果、比較的小さなDNAまたはRNAの断片を含むソリューションを取得します(違いの詳細や同じ、 ヌクレオチドのシーケンスだけに行きたくありません)。 このソリューションは、出力が小さなラインであるシーケンス装置を通過します。 これらの線は、溶液中のDNAまたはRNAの断片の端です。 機器から取得される文字列の長さは36〜50塩基(ヌクレオチド単位の文字列の長さ)だけである場合がありますが、現時点では200を超えないようです。これらのセグメントは、シーケンス機器から取得され、ヌクレオチド配列によって決定され、リード(英語の読み取りから-を読む」)。 リードがヌクレオチドの配列によってのみ特徴付けられ、ゲノム上の位置によって特徴付けられないことは注目に値します。 時々、これらの配列は、ヌクレオチドの位置、この位置にある確率に対応する一連の確率によって補足されます。 FASTAファイルは確率のないファイルであり、FASTQは確率のあるファイルです。



さらに、実験の結果であるDNAまたはRNAの断片に応じて、2つのChIP-seqまたはRNA-seqシーケンス技術のいずれかがそれぞれ実行されます。 それらの詳細については、 http://en.wikipedia.org/wiki/DNA_sequencingをご覧ください



高価なシーケンスマシンが機能し、FAST A / Qファイルで結果を生成した後、結果の配列をゲノムで見つける必要があります。 ChIP-seqでは、 ボウタイプログラムによって自宅で可能な非常に高速な検索が行われ、わずか5分で数百万の読み取りが見つかりました。 つまり 彼女は、長さが36〜50文字の文字列のエントリを検索します。この文字列は、合計で最大10の文字列に含まれる少なくとも4つのアルファベット文字で構成されています。 少なくとも売上高が使用された理由:A / TG / Cアルファベットの標準的な使用に加えて、可能性のある文字を置き換えるために記号Nが追加されることがよくあります(詳細については、 http://genome.ucsc.edu/FAQ/FAQdownloads.html#download5を参照してください )。 プログラムには多くのパラメーターがあります。 したがって、たとえば、1行(読み取り)または2行(最大3つのエラー)でエラーを解決できます。 彼女は、ゲノム内の読み取りの1つのオカレンスではなく、多くを検索できます。 たとえば、1つのエラーを含む読み取りがゲノムで明確に見つかり、2つまたは3つのエラーがゲノムの多くの部分で見つかった場合、最初の結果のみが表示されます。 ゲノムの読み取りを見つけるこのプロセスは、英語マッピングからのマッピング(アライメントとも呼ばれます)と呼ばれます。 このようなクイック検索のアルゴリズムは非常に興味深いですが、これに別の記事を捧げるか、開発者のサイトから英語の記事へのリンクを見つけることができます。 オンラインで作成される多くのマッピングプログラムとサイトがあります。 Googleのブラスト、エランド+ゲノムというキーワードで、追加情報を見つけることができます。



RNA-seqの場合、手順はもう少し複雑で、ChIP-seqマッピングが実行され、ChIP-seqの間に検出されなかった読み取りが処理されます。 作業にボウタイを積極的に使用する優れたプログラムはtophatと呼ばれます。 それによって生成されたスプライシングアイソフォームの結果として、読み取りの一部はゲノムのさまざまな場所に配置できます。 たとえば、最初の15文字がゲノムの一部にあり、他の11文字が別の部分にある場合があります。 読み取りを1つのエクソンの終わりと別のエクソンの始めに部分に分割することを、スプライスジャンクションと呼びます。 Tophatを使用すると、それらを見つけることができ、既存の遺伝子の新しい可能なアイソフォームも識別できます。



これらのプログラムの結果は、FAST A / Qファイルからの情報と、対応する染色体ヘリックスの座標に関する情報を含むsam / bamファイルです。 ライブラリからsam / bamファイルまでのプロセスは、多くの場合パイプラインプロシージャと呼ばれ、多くの研究所ではストリーム上にあるため、デフォルトでインストールされるパラメーターとプログラムバージョンを尋ねる必要があります。 一般的に、ここで入門部分が終了し、研究の番が来ます。 これからは、同じ座標である程度の確実性を持つデータがあることに注意してください:座標軸、注釈、対応する座標で読み取ります。



均一性と連続性、複雑さの単純な明確化からデータの分析を開始し、読み取りを特定のグループ(ノイズ、ゼロレベル、濃縮)に分割するのに役立つ複雑な統計計算で終わります。 将来、特定のデータを合理的に破棄できるように、データ分析が必要です。



導入部分に興味がある場合は、各段階でさらに詳しく説明します。 残念ながら、簡単な導入部分はすでに写真のない数ページのドライテキストを取り込んでいるので、この章で書かれたプログラムとメカニズムについてはあえて説明しませんでした。 私自身は、統計について簡単に触れた最後の段落に最も惹かれています。 そのようなデータを扱うための既存のライブラリとメカニズムを奉献したいと思います。 Habrで説明されているデータマイニング(さまざまな種類のクラスタリング)に含まれるメソッドをここに添付できます。 制御なしでデータの分析にポアソン分布を適用する方法、ポアソンの複雑なチェーン、f検定を適用して、ゲノムの読み取りが豊富なサイトを見つける方法(ディアラックデルタ関数)? 既製のライブラリは、間隔boost.intervals、boost.iclの操作に役立ちますか?



そしてもちろん、このトピックが興味深い場合、誰かが掘る方法と場所、重要なこと、それを補足することができます。 または多分彼は彼自身を書きます。 この段階で数学とプログラミングなしで生物学的問題を解決することは、すでに絶対に不可能です。 www.seqanswers.comには、同様の問題を議論する英語のリソースがあります。 しかし、完成品の説明からさらに進んで、これらのプログラムで数学的および統計的手法を使用することの妥当性と、新しい手法を使用する可能性について議論したいと思います。



作業の現在の段階で、研究とノイズの両方で興味深い読み取りをフィルター処理できるパラメーターを見つけようとしました。 制御がなければ、このタスクは非常に重要です。 将来、シーケンスのためにライブラリにコントロールを追加することが決定されました。これにより、エラーのレベルを測定できるようになりますが、統計情報はまだ解放されません。



All Articles