実甚的なバむオむンフォマティクス、パヌト4。 ZINBAを䜿甚する準備をする

バむオむンフォマティクス 珟代のデヌタ分析の䞖界では、1぀の方法たたは1぀のアプロヌチのみを䜿甚するこずは、遅かれ早かれ、あなたがどれだけ間違えたかずいう事実に出くわすこずを意味したす。 デヌタ分析のためにさたざたな方法が組み合わされ、結果が比范され、比范に基づいおより正確な予枬がすでに行われおいたす。 ZINBAプログラムはたさにそのようなアプロヌチを䜿甚しおいたす。 開発者は、DNA seq実隓を分析するためのさたざたな方法を1぀のパッケヌゞにたずめたした。 このパッケヌゞは、統蚈デヌタ凊理プログラムR甚に䜜成されおいたす。ZINBAは䜕をしたすか それらの䞀郚が増幅された堎合でも、たずえば化孊的に、たたはさたざたな皋床の信号察雑音比を持っおいる堎合でも、さたざたな濃瞮領域を怜出したす。



最初は、 ZINBA゜フトりェア補品に関するレビュヌ蚘事を䜜成する予定でしたが、䜿甚されおいる方法に぀いお詳しく読むほど、アルゎリズムず定矩を深く掘り䞋げたす。 そしお、将来、圌が埗た知識を抂説したずき、圌はデヌタがすでに耇数の蚘事で収集されおおり、玹介なしでは問題の本質に觊れるこずは難しいずいう事実に気づきたした。 このトピックでは、ZINBAプログラムの説明で蚀及した蚘事から短い抜粋を提䟛し、自分のコメントで補足したす。 私はあなたのコメントが真実の底に到達するのを䞀緒に埅ちたす。

芏制生物孊の広範な蚈画は、ゲノムが遺䌝子発珟のさたざたなメカニズムをどのように゚ンコヌドするかを孊ぶこずです。 コヌディングずこれらのメカニズムの関係は、クロマチン免疫沈降 ChIP ず遺䌝子発珟RNA-seqを䜿甚しお、ゲノム党䜓でタンパク質結合郚䜍を芋぀ける可胜性によっお明らかにされおいたす。 蚌拠を探す必芁はありたせん; DNA芁玠の癟科事兞プロゞェクトENCODE [1]があり、その枠組みの䞭でゲノムの機胜芁玠のほずんどが認識されおいたす。 最初のステップはマむクロアレむ法を䜿甚しお行われたしたが、ディヌプDNAシヌケンシングChIP-seqおよびDNA-seq、時にはNGS次䞖代シヌケンシングずいう甚語が䜿甚されるは、このテクノロゞヌに远い぀き、远い越されたした。

RNA-seqずChIP-seqには次のプラスの違いがありたす。正確性、特異性、枬定感床が向䞊し、ゲノム党䜓をすぐに調べるこずができたす。 䞀般に、RNA-seqずChIP-seqは、マむクロチップなどの先行補品ずいく぀かの類䌌点がありたすが、詳现は倧きく異なりたす。 しかし、シヌケンシングには䟝然ずしお倚くの困難が䌎いたすが、これらの問題はマむクロチップよりもはるかに優れおいたす。 切断されるDNAフラグメントがかなり短いずいう事実により、フラグメントはゲノム内で数回発生する可胜性があり、DNAの反埩郚分の䞀郚であるか、たたはいく぀かの開始郚䜍の共通フラグメントであるこずが刀明したす。

デヌタ凊理では、ChIP反応を濃瞮ずしお考慮する必芁があるず考えられおいたす。 通垞、調補されたDNA溶液䞭の玄60〜99の断片がバックグラりンドであり、残りの1〜40は、タンパク質が抗䜓を架橋できる断片に関連しおいるためです[2]。 シヌケンス化されるのは、゜リュヌションのこの最小郚分です。 濃瞮床を蚈算するずきは、汚染レベルが高いずいう事実を考慮する必芁がありたす。 いく぀かの堎合、ゲノムあたりのリヌド数は比范にならないほど少ないです。たずえば、哺乳類ゲノムの堎合、リヌドのリヌド数はゲノムの党長の1未満です。 デヌタのシヌケンスには、明らかに新しいアルゎリズムず゜フトりェアが必芁です。



図 1



このスラむドは、ChIP-seqおよびRNA-seq分析の階局を暡匏的に瀺しおいたす。 通垞、分析はすべおのステップをボトムアップで行いたす。 回路の各レベルで異なるプログラムが適甚され、ChIP-seqずRNA-seq専甚のプログラムに時々分けられたす。 あるプログラムの出力は、別のプログラムぞの入力パむプラむンです。 図からわかるように、すべおのプログラムは、転写産物のアセンブリを陀き、ゲノムの読み取りの定矩マップ読み取りを最初に通過したす。 リヌドがゲノム䞊に配眮された埌、そのようなプログラムの出力は、Aggregate and identityプログラムの入力に送信されたす。 たずえば、既知の泚釈で濃瞮領域を決定したり、密床を読み取ったりしたす。 たた、これらのプログラムには、結合郚䜍DNA-seqの堎合ず転写アむ゜フォヌムの新しい未探玢フラグメントChIP-seqの堎合の䞡方の埌続分析が含たれる堎合がありたす。 以䞋は、より高いレベルの分析です。 それには、 保守的な動機や発珟レベルの決定が含たれ、新しい遺䌝子モデルの発芋に぀ながる可胜性がありたす。 統合レベルIntegrateは、珟圚のデヌタ凊理では、以前に取埗した結果を䜿甚できるこずを瀺しおいたす必ずしも珟圚の実隓、実隓宀、たたは囜の䞀郚ずしおではありたせん。

それでは、ゲノム䞊でリヌドが芋぀かった埌、私たちは䜕を埗たすか このデヌタはどのように芋え、どのように互いに異なるのですか DNAには1぀たたは別のタンパク質が結合できる結合郚䜍があり、これらの郚䜍を結合郚䜍たたは単に郚䜍ず呌びたす。 たずえば、CTCFサむトずは、 CTCFタンパク質をこの領域に固定できるこずを意味したす。 科孊者は、CTCFタンパク質に察する抗䜓を発芋し、その抗䜓を䜿甚するこずで、察応するDNAのセクションを沈殿させるこずができたした。 しかし、すでに知っおいるように、特別なセクションずずもに、任意の抗䜓を抗䜓に付着させるこずができたす。 他の方法も同様に機胜したす。タンパク質がDNAに結合し、抗䜓がタンパク質に結合し、DNAセクションの遞択のみが倉化したす。 したがっお、遞択されたセクションの詳现はマヌクを残し、各メ゜ッドの描画のランドスケヌプには独自の特城がありたす。CTCFメ゜ッドのように、どこか狭いピヌク、グラフa。 䟋えば、RNAポリメラヌれII法、グラフbのように、隣接する領域が広い急峻なピヌク。 ヒストン修食が沈殿するず、連続的な「フリンゞ」が埗られたす。これは、ヒストンの配眮の特異性によるものです図c。 グラフでは、染色䜓䞊の座暙がx軞に沿っおプロットされ、読み取りの密床がy軞に沿っおプロットされたす。 図のデヌタは[4]から取埗されたす。



図 2



背景の存圚により、アルゎリズムは「制埡」に基づいお経隓的にそれを評䟡しようずしたす。 制埡は、特別な免疫前の抗䜓を䜿甚した初期゜リュヌションで行われる远加の実隓であり、䜕にも接続する必芁はありたせんが、ランダムに接続したす。 この接続の結果は、任意の背景です。 䞀郚のアルゎリズムは、受信したデヌタのみに基づいお、制埡なしで、可胜な背景をシミュレヌトしたす。 バックグラりンドレベルは、取埗元の现胞ず組織の皮類、および堆積方法などに䟝存するため、どちらのアプロヌチを遞択した堎合でもコントロヌルの有無にかかわらず、バックグラりンドリヌドの分垃を完党に統䞀するこずはできたせん。 。 増幅PCRおよびシヌケンシングに適甚される技術は、人工濃瞮アヌティファクトを远加したり、あるセクションを別のセクションよりも増幅したりするこずもできたす。 各実隓の充実した領域を芋぀けるこずができるアルゎリズムがありたす。 各アルゎリズムは実隓に察応するデヌタに察しお先鋭化されおいたすが、アルゎリズムの基瀎ずなる仮定は、DNA-seq [2]を䜿甚しお怜出された濃瞮領域の可胜なセットに垞に適合するずは限りたせん。

以䞋では、デヌタを比范するために、ZIMBAに関する新しい蚘事のグラフがありたす。 同様のグラフは、最初の図ず2番目の図のスケヌルの違いによりがやけおいたすが、DNAシヌケンス技術に関する䞊蚘の説明ず䞀臎しおいるように芋えたす図2を参照。





図 3



前のグラフに加えお、図3は次のDNA-seq実隓の状況を瀺しおいたすDNase感受性サンプルDNase-seq[5]およびホルムアルデヒドを䜿甚したタンパク質の分離/固定FAIRE-seq[6]。

DNAは二重らせんです。 このフレヌズ自䜓は人気がありたすが、忘れられがちです。 私たちの堎合、それはどういう意味ですか そしお、ゲノム䞊の読み取りを怜玢するプログラムが、染色䜓䞊の座暙ず、この読み取りがスパむラルストランドのどちらの偎であるかを瀺したす。 スパむラルは、ポゞティブセンスずノンポゞティブナンセンス/アンチセンスに分けられたす。 リヌドを取埗するメカニズムは、ほずんどのリヌドがDNAに関連するタンパク質に察しお2぀の異なる偎面に䜍眮するようなものです。 さらに、ほずんどの堎合、読み取りは察応するスパむラルの5 '端に配眮されたす。 したがっお、䞡偎の読み取りは、タンパク質結合郚䜍の䞭心になる傟向がありたす。 図4はこれを暡匏的に瀺しおいたす。赀い点は5 '端からの読み取りであり、䞭倮はDNAに結合したタンパク質です。





図 4



したがっお、タンパク質-DNA結合郚䜍の䞭心を芋぀けるために、次のグラフを䜜成したす。 これを行うために、「y」軞で正ず負の読み取り回数の差を先送りし、「x」軞で染色䜓に察応する読み取り座暙を先送りしたす。 図5では、読み取りはプラス偎に赀で、マむナス偎に青で瀺されおいたす。 結果ずしお埗られるグラフは、タンパク質結合郚䜍の䞭心に非垞に近いれロず亀差したす図5の䞋のグラフを参照。 ヌクレオチドたで結合郚䜍を決定するアルゎリズムが存圚したす。



図 5



このトピックでは、研究の䞻題である資料を簡単に玹介しようずしたした。 察応するDNA-seq実隓のランドスケヌプの違いが瀺され、タンパク質結合郚䜍の䞭心を近䌌的に芋぀ける方法が説明されたした。 巚倧な仕事が埅ち構えおいたすZINBAの仕事に぀いおの議論を始めるためには、颚景に䟝存するアルゎリズムの違いを理解し、ピヌクを芋぀けお、それらを人為的なものず区別し、ピヌクの近くにあるゲノムのどの領域が濃瞮されおいるず考えられるかを芋぀けなければなりたせん。



1. Birney、E.、et al。、ENCODEパむロットプロゞェクトによるヒトゲノムの1の機胜芁玠の同定ず分析。 Nature、2007.4477146p。 799-816。

2. Pepke、S.、B。Wold、およびA. Mortazavi、ChIP-seqおよびRNA-seq研究甚の蚈算。 Nat Methods、2009.611 Supplp。 S22-32。

3. Barski、A.およびK. Zhao、ChIP-Seqによるゲノム䜍眮分析。 J Cell Biochem、2009.1071p。 11-8。

4. Barski、A.、et al。、ヒトゲノムにおけるヒストンメチル化の高解像床プロファむリング。 Cell、2007.1294p。 823-37。

5.ボむル、APおよびTSフレむ、クロマチンおよび遺䌝子調節゚レメントの高解像床マッピング研究。 ゚ピゲノミクス、2009.12p。 319-329。

6. Giresi、PGおよびJD Lieb、FAIRE芏制芁玠のホルムアルデヒド支揎分離を䜿甚した、真栞生物クロマチンからの掻性調節芁玠の分離。 方法、2009.483p。 233-9。



レビュヌは、オハむオ州シンシナティのアンドレむ・カルタショフによっお䜜成されたした。porter@ porter.st

Ekaterina Morozova、ekaterina @ porter.stにより修正。



All Articles