シーケンスされた生物のゲノム-データベースエラー

シーケンスされた生物のゲノムを含む最も有名なベースであるNCBIには、多数の系統的エラーが含まれています。 このため、これらのデータの使用は実際には不可能であり、さらに、突然変異のメカニズム(したがって進化)を研究することは不可能です。この場合、自然突然変異ではなく、配列決定中の人為的エラーが研究されるためです。 したがって、このデータを使用する前に、このデータベースを改良する必要があります。



そして、これは骨の折れる仕事であり、単一の望ましい生物を解決することは不可能です。 したがって、NCBIに似た独自のロシア語ソースを作成したいが、更新された情報が必要な人を見つけたいと思います。



この記事では、NCBIにあるゲノムのエラーの広がりと、それ自体がどのように見えるか、およびそれらを修正するいくつかの方法を示しています。







ゲノムはどこにありますか?



ftp ftp.ncbi.nih.gov/genomes/には、すべてのシーケンスされたゲノムがあります。 そして、ftp.ncbi.nih.gov / genomes / Bacteria /バクテリアのゲノム-ここから始める価値があります。



ファイルall.fna.tar.gzが必要です。これには、約2000個の細菌のゲノムが含まれています。 ゲノムとは何ですか? これはDNAのチェーンです-文字A、T、C、G。ダウンロード、アンパック-ラテン語で種の名前を持つディレクトリの束を取得します。 内部では、原則として、いくつかのNCファイル_ ######-各ファイルには個別のいわゆるファイルがあります。 遺伝子座-DNA鎖(染色体またはプラスミド)。



簡単にするために、RNAを扱います。タンパク質では処理が少し難しいからです。 これを行うには、さらに2つのファイルが必要です。

1. all.rnt.tar.gz-特定の遺伝子座のすべてのRNAのリストと場所(開始、終了、方向)が含まれています

2. all.frn.tar.gz-DNAから実際にカットされたRNAのリストが含まれます(これがRNAであっても驚かないでください-UのTの置換はありません-これはRNAを作成するDNAコードであるため)



前処理する方法



これらのファイルは処理にあまり便利ではありません。 .fnaファイルには、最初の行にコメントが含まれ、次に70文字の各行にDNAコードが含まれ、その後に改行が含まれます。 当然、これは検索には適していません。ハイフンなしで1行に貼り付け、コメントを除外する必要があります。 この方法で処理されたファイルには、拡張子.fna.txtが付けられます



さらに、もう1つのニュアンスがあります。RNAはDNAから右から左へ、またはその逆に転写できます。DNAは二重らせんなので、右から左へはDNAの1つの鎖からの転写を意味します。 。



これは、たとえば、ファイルall.rnt.tar.gzで負の方向が示されているRNAを見つけるために-受信した.fna.txtファイルではなく検索する必要があるため、何も見つからないことを意味します。 リバースファイルを作成する必要があります(拡張子.fna_.txtを付けましょう)。 一番下の行は、.fna.txtファイルを取得することです。最後から1文字ずつ読み取り、補完的な置換を行います。



T = A; G = C; A = T; C = G; M = K; RはYです。 W = W; S = s; Y = R; K = M; V = B; H = D; D = H; B = v



最初の4つはわかりやすく、よく知られています。 残りは非常に予想外です:)、それらはまれですが、そうです。 それらの本質は、シーケンス中にGとAを区別できない場合、Rが設定されるなどです。



エラーまたはクロス分析を見つける



このプロセスにクロス分析という名前を付けました。 関心のある.frnファイルからのこの本質は、1つのRNAのコードを取得することです。 そして、.fna.txtおよび.fna_.txtファイルのセット全体で一致するものを探しています。



試合はいくらだと思いますか? 十分。 また、対応するレコードが.rntファイルに表示されないことが判明する場合があります。 そして、ほとんどの場合、ファイルの最初と最後はそうではなく、1または3の位置だけシフトされることがわかります。 別の方向があるかもしれません。 Ile RNAであることが示されたときに、より重大なエラーに遭遇しましたが、実際にはMet RNAです。



これらのエラーの数では、ほぼ50%です。 このような誤ったデータをどのように処理できますか、わかりません。 NCBIの人々がこのような単純なクロス分析を行わない理由-私も知りません。



しかし、生物学者がこのデータを信頼していると判断する誤った結論をいくつ推定するのでしょうか?



同時に、エラーが修正されると、同じ方法で、ここで説明するタイプの実験を行うことができます。多くのこと。



最も簡単な例



Chlamydophila pneumoniae TW-183のシーケンスされた生物を発見します。 タグ「CpBt08」を検索します。これは補数(266485..266557)を示します-これはそれぞれ開始と終了です。 GeneID:3284349へのリンクもあります。 さらにリンクFASTAがあります-シーケンスはそこに示されています



CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC



それは真実ではありません-実際にはそうあるべきです



GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA



(そして、それは実際に完全なDNAシーケンスであり、間違って識別されるだけです)



次に置く



 CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC
   GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA




違いはシフトにあることがわかります。



なんで?



次に、別の生物Chlamydophila pneumoniae CWL029に移動して、タグCPnt08を探します。 同様に、遺伝子を見つけます



GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA



これは単なる別のシーケンスだと思いますか? 、いや-これは同じですが、シフトします。 もちろん、問題はどちらが正しいかです。 そして、ここで最悪の部分は、自動的に解決するのが難しいということです。 誤り率とRNA配列が何であるかの知識に基づいて決定する必要があります。 ただし、tRNAの場合、位置34-36のアンチコドンとCCAの末端(すべてのtRNAが持つべき)の存在を確認するためのより具体的な基準があります。



PSエラーを探したり、修正したり、私のものと似た実験をしたりすることに興味がある人ですが、他のデータについては、個人的なメッセージで連絡してください。



All Articles