UMLを使用して原核生物の進化的体系を実験し、間接的に科学者の心理学を実験する

この記事は、 原核生物または「複数種起源」の進化的分類学に関する他の2つの興味深い結果の続きであり、配列決定された生物のゲノムはデータベースのエラーです。



その後、この件に関して興味のある人と専門家の両方からフィードバックを受け取ることができました。 また、見ることができるように、かなり活発な議論がありました。 一方で、受け取ったコメントに返信したいと思います。



一方、新しい実験を行います。 そして、そのようなことに興味のある人をこれに連れてくることが望ましいでしょう。 時間がない場合-空きプロセッサ時間があるかもしれません:)?







NCBIポジション



NCBIで働いているKalobokのおかげで、「NCBIの人々がこのような単純な相互分析を実行しない」理由を見つけることができました( シーケンスされた生物のゲノム-データベースのエラーを参照)。 カロボックとの会話はあまり楽しくなかったと言わざるを得ません。 最初は、多くのコメンテーターのように、彼は可能な限りのあらゆる方法で私に教えようとしました。



苦情の本質は、データの不適切な使用に関連しています。そこで修正する必要はありません。データを正しく使用するだけです。知識のレベルから判断すると、このトピックについて議論する理由はあまりありません。まず、異なる生物のゲノムをまったく比較できるかどうかを把握します。 "、" 34-35-36に関する情報を最初に入手しましょう。そうではないと答えます 専門家は中等教育を受けた学生ではないことをもう一度理解してみてください。しかし、私は彼らが不完全なデータの半分以上をドライブしていると疑うつもりはありません。むしろ、素人が間違っていると思います "、" NCBIは主に生物学者を対象としていることを忘れないでください。彼らは利用可能なデータとツールに完全に満足しています。 "、" 記事を読んだ後の細菌ゲノムのグループのボスの意見は次のとおりです。はい、非常に単純です...このような作業は過去20年間行われています。 そして、これは孤独な職人です



まあ、そのようなこと。 おそらく、議論を導くためにそのような口調で拘束された人はほとんどいなかったでしょう。 しかし、悲しいかな、これらは生物学の卒業証書(生物物理学、生化学者など)を取得し、プログラミングを少し理解し始め、今では立派な場所で働いている人々の現在のモラルです。



この邪悪な世界で生き残る方法:)



適切な卒業証書は持っていないが、自分の分野ではなく狭い知識を持っている人に何をすべきですか? 悲しいかな、彼とは常に関係があります。あなたの投稿は才能のある生徒の慢に満ちている 」から始まり、 有益で愛用的な口調を含むようになります 「、」 >そして、彼らは寺院で$をひねります-彼らはそうではありません、それは通常の仕事です。リンクを追加すると、卒業証書を入力することができます;真実、著者との議論は物事がそれ以上先に進まないことを示しています



しかし、ここでの主なことは、いくつかの心理的なポイントを理解することです。 卒業証書と暖かい場所を持つ男-ベルトなし。 適切な知識がなくても(広範な側面ではなく、この特定のタスクで)、彼は「対談者に対する優位性」の精神で発言することができます。 原則として議論は本質的に行われませんが、対話者の最も弱い議論、または意図的な推測が求められ、次に「息子、読んで、これを教える」ことが推奨され、原則として、問題に関係なく、強い議論は無視され、その後、あなたは卒業証書であり、誰があなたのお母さんとお父さんですか。



私はこれに、10年の間に何度も何度も会いました。 私のアドバイスは簡単です-無視してください。 挑発にだまされてはならず、彼らがあなたに言うことを教えないでください-あなたはそれを必要としません。 最初のそのようなケースは私の学校で、たとえば「マスターとマルガリータ」や「戦争と平和」のナターシャ・ロストヴァについての文学的なキャラクターについて話しました。 それから彼らは、私が読んでいないものについて否定的に話すことができる方法を教えてくれました。 それから私は誘惑されて「Masters ...」を読んだ後、私はこの主題に関するすべての綿密さで話すことができました。 ナターシャ(私は小説を斜めにしか読まなかった)の方が簡単だった、彼らはエッセイを書いた-そこで彼は、この少女にそのような重要な注意を払うべきではないと確信して書いた-それは価値がない。 この評価は優れていて、「すべてが引用に非常に根拠がありますが、ロシアの魂の現れとして、反対側から見る価値があるかもしれません...」という形式のコメントがありました。 それだけの価値はない、と私は言った、そして成人期に入った:)



時間が経つにつれて、私はあなたがそれをウィスカに費やした時間を気の毒に思いました。 なぜあなたは文学を尋ねるのですか-それからすべてが1対1で、それ以来、すべてが定められています-それらはあなたを導くか、あなた自身で決めるでしょう。



そしてまだ-上記のすべては、そのような議論を避ける必要があることを意味するものではありません。 自分を相手のように振る舞わせないでください(多くの場合、簡単ではありません)-彼の言葉で真実の粒を探してください、それは本当に粒です、しかし、あなたの敵があなたと議論をしているなら-彼はすでに興味があり、時々彼は何かを与えますあなたに役立つ-フィルタリングすることができます。



ただし、この叙情的な余談については謝罪してください。 さらにポイントに。



何がNCBIになったのですか?



予想通り、彼らは間違いを認めましたが、良い顔の鉱山でそうしました:)



" ftpから取得したデータは、研究者によって送信された元のシーケンスと注釈です。NCBIによってまだ検証されておらず、かなり多くのエラーが発生する可能性があります[マーク付き]このレコードは、最終的なNCBIレビューの対象ではありません...検証されたデータでも、チェックの100%の信頼性がないため、および歴史的な理由の両方で、このようなエラーが発生する可能性があります(多くの古い記録では、提出者のデータの信頼性に依存しており、追加のチェックを行わなかったため、まだ嘘をついています)。そのようなデータは定期的に見直されます ...生物学者の1人は、何らかの理由でゲノムの生データを使用した場合、単に手動で調整しただけだと明確に述べました。しかし、おそらく、tRNAdbを使用したはずです[これは別のデータベースです。修正]。 "



ところで、別の同志が答えた。彼は、データをチェックするための標準プログラムはtRNAの正確​​性をチェックしないだけだと言っている。計算能力が非常に高価だからだ。待って。



したがって、歌詞は歌詞ですが、事実は事実であることが判明しました。 非生物学者のプログラマーを長期間「攻撃」することができますが、実際にはNCBIからのデータの50%以上が検証されていないという事実があります-信頼できる認識された事実があります。 これはNCBIの批判と見なされるべきではありません-彼らは多くの良い情報を含んでおり、それはエラーがあっても貴重です。 これは、過去の記事のコメントで物語を語った生物学者への情報のためだけです。



彼らはこのデータを修正しようとしているようですが、これは彼らにとって優先事項ではありません。 これらのエラーの多くは、修正されていることに気づいた場合、気づかれません。 しかし、彼らが自分でそれを修正した場合、 彼らは他人からのエラーのリストを信用しません。



バグ修正はお待ちしておりません。 しかし、これなしで何ができるでしょうか?



この記事の主な批判: 原核生物または「複数種起源」の進化的分類学に関する興味深い結果は 、「 1つの遺伝子を尺度と見なすことはできない 」という主張にありました 。 私はこれに完全に同意し、新しい実験でこれを修正する必要があります。



いくつかの数字。 現在、NCBIには約2,000の細菌ゲノムがあります。 実験の準備として、この方法でラベル付けされたすべてのtRNAを選択しました。 彼らは4万以上のユニークなバリエーションであることが判明しました。 しかし、悲しいかな、それらの間には多くの間違いがあります。



しかし、完全なエラー修正の段階はスキップできると思いました。 どうやってやるの? 示されたtRNAを、長さおよび配列の最後のCCAの終わりの存在によってソートしました。 CCA配列はどのtRNAにも必要であり、長さは74から96ヌクレオチドであると言わなければなりません。



NCBIには、1ヌクレオチドからのtRNA、または1300を超えるまでの多くの奇跡があります:)(笑わずには言えません)。 したがって、最大70で100を超える長さのシーケンスと、CCAで終わらないシーケンスを削除しました。



それらは約20,000個あり、これらはNCBIからのエラーを含まない最も可能性の高いtRNAです。 tRNAの残りの半分を使用すると、後で把握できます。



実際、計画された実験では、この特定の配列が長さ70〜100ヌクレオチドを含むかどうかに違いはありません。 なんで? 2000個の細菌のゲノムを再確認するつもりなので、本当にそのような配列がありますか?エラーは除外されます。 そして、tRNAは実際には2番目のものかどうかです。 主なことは、DNAの重要な生物が異なる生物で一致することです。 ゲノム内の70〜100の配列長の一致は偶然とはほど遠いものです。 すでに長さが10を超えた後、偶然の偶然性はゼロに近づき、70-100で、これはすでに偶然に異なる生物で単純に一致することができないゲノムの重要な部分です。



したがって、私は今何をしています。 私はこれらの20,000個のtRNAを取り、それらの中にどのバクテリアが存在するかを見つけます。 配列が1つの生物にのみ存在する場合、これは興味深いことではありません。 そして、おそらくこれは誤ったシーケンスです。 したがって、かなりの割合のエラーが排除されます。



シーケンスが複数の生物にある場合、これは2つの生物間の1つの関連付け(接続)です。



次に、それをうまく視覚化する方法の問題が出てきました。 アイデアはこれです-本体はクラスです。 ツリー形式の現在の系統分類学は、クラス間の継承です。



tRNAはクラスプロパティであり、異なる生物におけるこれらのプロパティの集合は、水平方向の遺伝子導入(同じ関連性)です。



対応するコードのスケルトンを生成したら、UMLを使用してこれを自動的に表示し、クラス図でこれらすべての関係を視覚的に確認できます。



問題は何ですか?



問題はCPU時間です。 2000個の細菌ゲノムに20,000個のtRNAが存在するための基盤を作りました。 1日あたり約100のtRNAのみが処理されます。 したがって、プロセッサ時間に興味を持ち支援してくれる人に感謝します-割り当てられていないプロジェクトなど:



誰かが興味を持っている場合は、個人的なメッセージを書いてください-あなたは約50GBのハードドライブ上の場所が必要です、私は何が何であるかを説明するための少しの時間を必要とし、その後、処理のために100tRNAのパケットを送信し、処理後に結果を送信します。



All Articles