DNAメチル化とバイオインフォマティクス

バイオインフォマティクス 、特にChip-SeqおよびRNA-Seq技術に関するポルタの紹介記事を読んだ後、バイオインフォマティクスに関するロシア語の記事、特に「実用的な」コンポーネントを可能な限り補充するというアイデアが本当に気に入りました。 したがって、 Illumina 450K Human Methylationテクノロジーを使用してメチローマを分析するためのパイプラインの概要を説明します。



生物の生存期間中、そのDNAのヌクレオチド配列は一般に変化しません(遺伝子、ゲノム、DNAの詳細については、たとえばこの記事を参照してください )。 それにもかかわらず、ゲノム、その仕事、さらには継承に影響を与えることができるプロセスがあります。 これらのプロセスは、エピジェネティックな変化と呼ばれます。



主なエピジェネティックなメカニズムの1つはDNAメチル化です。 メチル化は、メチル基(-CH3)をヌクレオチドCに結合することによるDNA分子の変化であり、Cの後にヌクレオチドGが必要です。ヌクレオチド配列-CG-は、CpGジヌクレオチドまたはCpG部位と呼ばれます。 メチル化はすべての細胞で同時に起こるわけではないため、特定のCpG部位のメチル化の割合について語っています。



DNAメチル化は、遺伝子発現を調節する重要なメカニズムの1つです。 さまざまな種類の癌、第1種および第2種の糖尿病、統合失調症などの疾患は、メチル化プロファイルの変化に関連していることが示されています。 したがって、ゲノムのメチル化プロファイルを分析できることが重要です。



現在、メチル化プロファイルの定量的測定にはいくつかの方法が普及しています。 最も一般的なものの1つは、イルミナのマイクロチップシリーズです。 Illumina 450K Infinium Arrayチップの説明と、その助けを借りて得られたデータの分析について詳しく説明します。



450Kチップは、ゲノム全体にほぼ均等に分布する約486,000のCpG部位のメチル化レベルを測定します。 チップの機能の生物学的および化学的詳細に入ることなく、この技術を次のように簡単に説明できます。 各CpGサイトは、2つの蛍光サンプルを使用して測定されます。 サンプルの蛍光シグナルは、テストサンプルのメチル化および非メチル化CpG部位の数にそれぞれ比例します。 このチップでは、一度に最大12個の生体サンプルをテストできます。



そのため、出力には、行の数がCpGサイトの数に等しく、列の数が分析された生体サンプルの数に等しい値のテーブルがあります。 この瞬間から、適切なバイオインフォマティクスが始まります。



R言語とBioconductorライブラリを使用してデータを分析するためのパイプラインには、おおよそ次の項目があります(Bioconductorの対応するパッケージが示されています)。



1.測定スケール(ベータまたはM値)を選択します。 詳細はこちら



2.カラーバランスの調整(カラーチャンネルバランス調整)。 一部のCpGサイトは同じ色のサンプルを使用して測定され、一部は2つのサンプルを使用して測定されます。 この問題は、各生体サンプルの2つのサンプルの信号を正規化することで解消されます。



3.バックグラウンド補正。 チップ上の生体サンプルの各スロットには、異なるデフォルトの背景があります。 したがって、サンプル間で値を均等にするには、バックグラウンド補正が必要です。



4.サンプル間の正規化(サンプル間の正規化)。 最も一般的に使用されるのは、分位正規化とSVN正規化( lumiパッケージ)です。



5.主成分分析を使用したグループ効果(バッチ効果)のテスト。



6.ピーク補正



7. ComBatおよびSVAパッケージを使用したグループ効果補正。



8.線形モデル、順列、または仮説検定用の従来の検定( limmaおよびmulttestパッケージ )を使用した統計的有意性の検定。



9.さまざまな機械学習アルゴリズムを使用したデータ分析(リストに記載しませんが、可能性の大洋があります)。



10.遺伝子発現およびSNP (メチル化量的形質遺伝子座 )に関するデータとの相関。 matrixEQTLパッケージをお勧めします。



混乱をおaび申し上げます。これは、1つの短いレビュー記事ですべてを提示しようとした結果です。 興味のある方は、パイプラインを構築するプロセスについて、Rのサンプルコードを含む詳細な記事で説明します。



All Articles