耇雑さに぀いおバむオむンフォマティクスに぀いお知っおおくべきこず

ランダムな通行人に生物孊ずは䜕かを尋ねるず、圌はおそらく「野生生物の科孊」のようなものに答えるでしょう。 コンピュヌタヌサむ゚ンスに぀いおは、コンピュヌタヌず情報を扱うず蚀うでしょう。 抌し付けがたしいこずを恐れず、3番目の質問をした堎合-バむオむンフォマティクスずは䜕ですか -ここで圌はおそらく混乱しおいたす。 それは論理的です誰もがEPAMでさえこの知識の領域に぀いお知っおいるわけではありたせん-私たちの䌚瀟にはバむオむンフォマティクスがありたす。 この科孊がなぜ人類党般、特にEPAMに必芁なのかを考えおみたしょう。結局、突然、路䞊でこれに぀いお尋ねられたす。







生物孊がコンピュヌタヌサむ゚ンスなしで察凊するのをやめた理由ず、がんはそれず䜕の関係があるのか



研究を行うために、生物孊者がテストを受けお顕埮鏡を通しお芋るだけではもはや䞍十分です。 珟代の生物孊は膚倧な量のデヌタを扱っおいたす。 倚くの堎合、それらを手動で凊理するこずは単に䞍可胜であるため、倚くの生物孊的タスクは蚈算手法によっお解決されたす。 私たちは遠くたで行きたせん。DNA分子は非垞に小さいので、光孊顕埮鏡で調べるこずは䞍可胜です。 そしお、電子的に可胜であれば、すべお同じように、芖芚怜査は倚くの問題の解決に圹立ちたせん。



人間のDNAは30億個のヌクレオチドで構成されおいたす。寿呜だけでは、それらすべおを手動で分析しお適切なサむトを芋぀けるには䞍十分です。 たあ、それは十分かもしれたせん-1぀の分子を分析するのに1぀の人生-しかし、それは長すぎ、高䟡で非生産的であるため、ゲノムはコンピュヌタヌず蚈算を䜿甚しお分析されたす。



バむオむンフォマティクス-これは、生物孊的デヌタを分析するためのコンピュヌタヌメ゜ッドのセットです。DNAおよびタンパク質の構造、顕埮鏡写真、シグナル、実隓結果のデヌタベヌスなどを読み取りたす。







適切な治療法を芋぀けるために、時にはDNAシヌケンシングが必芁です。 異なる遺䌝性障害たたは環境の圱響によっお匕き起こされる同じ病気は、異なる方法で治療する必芁がありたす。 たた、ゲノムには、疟患の発症ずは関係のない領域がありたすが、たずえば、特定の皮類の治療や薬物に察する反応の原因ずなっおいたす。 したがっお、同じ疟患を持぀異なる人々は、同じ治療に察しお異なる反応を瀺す堎合がありたす。



バむオむンフォマティクスも新薬の開発に必芁です。 それらの分子は特定の構造を持ち、特定のタンパク質たたはDNA郚䜍に結合する必芁がありたす。 数倀的手法は、そのような分子の構造をモデル化するのに圹立ちたす。



バむオむンフォマティクスの成果は、医孊、䞻にがん治療で広く䜿甚されおいたす。 他の病気の玠因に関する情報はDNAで暗号化されおいたすが、ほずんどは癌治療に取り組んでいたす。 この分野は、最も有望で、経枈的に魅力的で、重芁であり、最も難しいず考えられおいたす。



EPAMのバむオむンフォマティクス



EPAMでは、生呜科孊郚門がバむオむンフォマティクスに関䞎しおいたす。 圌らは、スタヌトアップから䞖界の倧手䌁業たで、あらゆる芏暡の補薬䌚瀟、生物孊およびバむオテクノロゞヌ研究所向けの゜フトりェアを開発しおいたす。 このタスクに察凊するには、生物孊に粟通しおいる人だけが、アルゎリズムずプログラムを䜜成するこずができたす。



バむオむンフォマティクスはハむブリッドの専門家です。 知識が圌らにずっお䞻芁なものであるず蚀うこずは困難です生物孊たたはコンピュヌタヌ科孊。 これが問題であれば、圌らは䞡方を知る必芁がありたす。 たず第䞀に、おそらく、分析的な考え方ず倚くを孊ぶ意欲が重芁です。 EPAMには、コンピュヌタヌサむ゚ンスを孊んだ生物孊者ず、生物孊をさらに研究した数孊者のプログラマヌがいたす。



バむオむンフォマティクスになる方法



開発者のマリア・ズ゚バ



「暙準的なIT教育を受けた埌、EPAM Javaラボコヌスで勉匷したした。そこで、機械孊習ずデヌタサむ゚ンスに興味を持ちたした。 私が研究宀を卒業したずき、圌らは私に蚀った「ラむフサむ゚ンスに行く、圌らはバむオむンフォマティクスに携わっおおり、人々を募集しおいるだけだ」。 私はcなわけではありたせん。それから初めお「バむオむンフォマティクス」ずいう蚀葉を聞きたした。 私はりィキペディアでそれに぀いお読んで行きたした。



その埌、新人グルヌプ党䜓がナニットに採甚され、䞀緒にバむオむンフォマティクスを研究したした。 DNAずRNAに぀いおの孊校のカリキュラムを繰り返すこずから始め、バむオむンフォマティクスに存圚する問題、その解決策ずアルゎリズムぞのアプロヌチを培底的に分析し、専門の゜フトりェアで動䜜するこずを孊びたした。



Gennady Zakharov、ビゞネスアナリスト



「私は教育孊の生物物理孊者です。2012幎に遺䌝孊の博士号を擁護したした。 しばらくの間、圌は科孊で働き、研究に埓事しおいたした-そしお、私は今日たで続けたす。 生産に科孊的知識を適甚する機䌚が生じたずき、私はすぐにそれを぀かみたした。



ビゞネスアナリストにずっお、非垞に具䜓的な仕事がありたす。 䟋えば、経枈的な問題は私を通り過ぎたす。私はむしろ䞻題分野の専門家です。 私は顧客が私たちに䜕を望んでいるかを理解し、問題を理解し、高レベルのドキュメントを䜜成する必芁がありたす。 プロゞェクトの過皋で、私は開発者ず顧客ず連絡を取り合い、䞡者が確信できるようにしたす。チヌムは必芁なこずを行いたす。 実際、私は顧客の蚀語-生物孊者ずバむオむンフォマティクス-から開発者の蚀語ぞ、たたはその逆の翻蚳者です。」



ゲノムの読み方



EPAMバむオむンフォマティクスプロゞェクトの本質を理解するには、たずゲノムの配列を理解する必芁がありたす。 事実、私たちが話すプロゞェクトは、ゲノムの読み取りに盎接関係しおいるずいうこずです。 説明のためにバむオむンフォマティクスを芋おみたしょう。



バむオむンフォマティクス郚門長のミハむル・アルペロビッチ



「戊争ず平和の1䞇枚のコピヌがあるず想像しおください。 あなたはそれらをシュレッダヌに通し、それらをよく混ぜ、このヒヌプから玙の束をランダムに匕き出し、それらから゜ヌステキストを収集しようずしおいたす。 さらに、戊争ず平和の原皿がありたす。 収集したテキストは、タむプミスをキャッチするためにそれず比范する必芁がありたすそしお間違いなくそうなりたす。 最近のシヌケンシングマシンによるDNAの読み取りずほが同じ方法。 DNAは现胞栞から分離され、300〜500ヌクレオチドペアのフラグメントに分割されたすDNAのヌクレオチドはペアで互いにリンクされおいるこずを芚えおいたす。 分子は断片化されおいたす。なぜなら、珟代の機械は最初から最埌たでゲノムを読み取るこずができないからです。 シヌケンスが長すぎるため、読み取るず゚ラヌが蓄積されたす。



シュレッダヌ埌の「戊争ず平和」を思い出したす。 小説の元のテキストを埩元するには、小説のすべおの郚分を読み、正しい順序で配眮する必芁がありたす。 私たちは小さな断片に぀いお本を数回読んだこずがわかりたした。 DNAに぀いおも同じです。シヌケンサヌは、シヌケンスの各セクションを耇数のオヌバヌラップで読み取りたす。これは、1぀ではなく倚くのDNA分子を分析するためです。



結果のフラグメントは敎列されたす-それらのそれぞれは参照ゲノムに「適甚」され、参照のどのセクションが読み取られたフラグメントに察応するかを理解しようずしたす。 次に、アラむメントされたフラグメントにバリ゚ヌションが芋぀かりたす-参照ゲノムからの読み取りの有意差参照原皿ず比范した本のタむプミス。 これは、プログラムによっお実行されたす-オプション呌び出し元英語のバリアント呌び出し元から-突然倉異の怜出噚。 これは分析の最も難しい郚分です。そのため、オプション呌び出し元にはさたざたなプログラムがあり、それらは垞に改善され、新しいプログラムが開発されおいたす。



芋぀かった突然倉異の倧郚分は䞭立であり、䜕にも圱響したせん。 しかし、遺䌝性疟患の玠因たたはさたざたな皮類の治療に反応する胜力が暗号化されおいるものがありたす。」







分析のために、倚くの现胞が存圚するサンプルを採取したす。したがっお、DNA现胞の完党なセットのコピヌです。 ゚ラヌの可胜性を最小限に抑えるために、小さなDNAフラグメントはそれぞれ数回読み取られたす。 少なくずも1぀の重倧な倉異を芋逃した堎合、患者を間違った蚺断にしたり、間違った治療を凊方したりできたす。 各DNAフラグメントを1回読み取るのは小さすぎたす。1回の読み取りは間違っおいる可胜性があり、それに぀いおはわかりたせん。 同じフラグメントを2回読み取り、1぀の正しい結果ず1぀の誀った結果が埗られた堎合、どの読み取り倀が正しいかを理解するこずは困難です。 そしお、100の枬定倀があり、そのうち95の枬定倀で同じ結果が埗られた堎合、それが真実であるこずを理解したす。



ゞェンナディ・ザカロフ



「がんを分析するには、健康な现胞ず病気の现胞の䞡方をシヌケンスする必芁がありたす。 がんは、现胞が生涯にわたっお蓄積する突然倉異の結果ずしお発生したす。 その成長ず分裂の原因ずなるメカニズムが现胞内で悪化した堎合、现胞は䜓の必芁性に関係なく無期限に分裂し始めたす。぀たり、癌性腫瘍になりたす。 癌の正確な原因を理解するために、健康な組織ず癌性腫瘍のサンプルが患者から採取されたす。 䞡方のサンプルをシヌケンスし、結果を比范し、䞀方が他方ずどのように異なるかを芋぀けたす。぀たり、癌现胞でどの分子メカニズムが砎壊されたかを芋぀けたす。 これに基づいお、「故障」のある现胞に察しお効果的な医薬品が遞択されたす。



バむオむンフォマティクス生産ずオヌプン゜ヌス



EPAMのバむオむンフォマティクス郚門には、生産プロゞェクトずオヌプン゜ヌスプロゞェクトの䞡方がありたす。 さらに、本番プロゞェクトの䞀郚をオヌプン゜ヌスに開発でき、オヌプン゜ヌスプロゞェクトを本番の䞀郚にできたすたずえば、オヌプン゜ヌスEPAM補品をクラむアントのむンフラストラクチャに統合する必芁がある堎合。



プロゞェクト番号1オプション呌び出し元



倧手補薬䌚瀟であるクラむアントの1぀に察しお、EPAMはオプション呌び出しプログラムを近代化したした。 その特城は、他の同様のプログラムがアクセスできない突然倉異を芋぀けるこずができるこずです。 圓初、プログラムはPerlで蚘述されおおり、耇雑なロゞックを備えおいたした。 EPAMでは、プログラムはJavaで曞き盎され、最適化されたした。珟圚では、30倍ではないにしおも20倍速く動䜜したす。



プログラムの゜ヌスコヌドはGitHubで入手できたす 。



プロゞェクト23D分子ビュヌアヌ



3Dで分子の構造を芖芚化する倚くのデスクトップおよびWebアプリケヌションがありたす。 分子が宇宙でどのように芋えるかを想像するこずは、䟋えば、薬を開発するために重芁です。 指瀺されたアクションを持぀薬物を合成する必芁があるずしたす。 たず、この薬物の分子を蚭蚈し、必芁に応じお目的のタンパク質ず正確に盞互䜜甚するこずを確認する必芁がありたす。 生呜では、分子は3次元であるため、3次元構造の圢でも分析されたす。



分子の3D衚瀺のために、EPAMは最初はブラりザりィンドりでのみ機胜するオンラむンツヌルを䜜成したした。 次に、このツヌルに基づいお、HTC Viveバヌチャルリアリティグラスで分子を芖芚化できるバヌゞョンを開発したした。 コントロヌラヌはグラスに取り付けられおおり、このコントロヌラヌを䜿甚しお、分子を回転、移動、別の分子に眮き換え、分子の個々の郚分を回転させるこずができたす。 これらすべおを3Dで行うこずは、フラットモニタヌよりもはるかに䟿利です。 EPAMバむオむンフォマティクスプロゞェクトのこの郚分は、バヌチャルリアリティ、拡匵珟実、およびゲヌム゚クスペリ゚ンス配信ず連携しお行われたした。



このプログラムは、GitHubで公開する準備が敎ったずころですが、デモバヌゞョンを衚瀺できるリンクがあれば提䟛されたす。



このアプリケヌションの動䜜がビデオからどのように芋えるかを知るこずができたす。



プロゞェクト3NGB Genomic Browser



ゲノムブラりザヌは、DNAの個々の読み取り倀、バリ゚ヌション、およびゲノムを分析するためのナヌティリティによっお生成されたその他の情報を芖芚化したす。 枬定倀が参照ゲノムず比范され、倉異が芋぀かった堎合、科孊者は機械ずアルゎリズムが正しく機胜したかどうかを確認する必芁がありたす。 それは、ゲノム内で倉異がどの皋床正確に特定されおいるか、患者に察しおどのような蚺断が行われるか、たたはどの治療が凊方されるかによっお異なりたす。 したがっお、臚床蚺断では、科孊者が機械の動䜜を制埡する必芁があり、ゲノムブラりザヌはこれを支揎したす。



バむオむンフォマティクスの開発者は、アルゎリズムの操䜜における゚ラヌを芋぀け、それらを改善する方法を理解するために、ゲノムブラりザヌが耇雑なケヌスを分析するのを支揎したす。



EPAM の新しいゲノムブラりザヌ NGBNew Genome BrowserはWeb䞊で動䜜したすが、速床ず機胜はデスクトップ版に劣りたせん。 これは、垂堎に欠けおいた補品です。以前のオンラむンツヌルの動䜜は遅く、デスクトップツヌルよりも実行できたせんでした。 珟圚、倚くのお客様がセキュリティ䞊の理由からWebアプリケヌションを遞択しおいたす。 オンラむンツヌルを䜿甚するず、科孊者の仕事甚コンピュヌタヌに䜕もむンストヌルしないでください。 䌁業ポヌタルにアクセスしお、䞖界䞭のどこからでも圌ず仕事をするこずができたす。 科孊者は、皌働しおいるコンピュヌタヌをどこにでも持ち運んで、必芁なすべおのデヌタをダりンロヌドする必芁はありたせん。







Gennady Zakharov、ビゞネスアナリスト



「私は顧客ずしおオヌプン゜ヌスナヌティリティに郚分的に取り組んでいたした。タスクを蚭定したした。 私は垂堎で最良の゜リュヌションを研究し、それらの長所ず短所を分析し、それらを改善する方法を探したした。 私たちは、デスクトップ゜リュヌションず同等以䞊にWeb゜リュヌションを䜜成し、同時にそれらに固有の䜕かを远加する必芁がありたした。



3D分子ビュヌアヌでは、これは仮想珟実で機胜し、ゲノムブラりザヌでは、バリ゚ヌションを䜿甚しお䜜業が改善されたした。 突然倉異は耇雑です。 がん现胞の再配列は、時には巚倧な領域に圱響を䞎えたす。 䜙分な染色䜓がそれらの䞭に珟れ、染色䜓の断片ず染色䜓党䜓が消えるか、ランダムな順序で融合したす。 ゲノムの個々の断片は10〜20回コピヌできたす。 そのようなデヌタは、第䞀に、枬定倀から取埗するこずがより難しく、第二に、芖芚化するこずがより困難です。



このような広範な構造倉化に関する情報を正しく読み取るビゞュアラむザヌを開発したした。 たた、染色䜓の接觊時に、この接觊によりハむブリッドタンパク質が圢成されたかどうかを瀺す芖芚化セットを䜜成したした。 拡匵された倉動が耇数のタンパク質に圱響する堎合、クリックしお、そのような倉動の結果ずしお䜕が起こるかを蚈算できたす。どのハむブリッドタンパク質が取埗されたす。 他のビゞュアラむザヌでは、科孊者はこの情報を手動で、ワンクリックでNGBで远跡する必芁がありたした。



バむオむンフォマティクスの研究方法



バむオむンフォマティクスは、生物孊ずコンピュヌタヌサむ゚ンスの䞡方を理解する必芁があるハむブリッドスペシャリストであるず既に述べたした。 これには、自己教育が重芁な圹割を果たしたす。 もちろん、EPAMにはバむオむンフォマティクスの入門コヌスがありたすが、プロゞェクトでこの知識を必芁ずする埓業員向けに蚭蚈されおいたす。 クラスはサンクトペテルブルクでのみ開催されたす。 それでも、バむオむンフォマティクスに興味がある堎合は、次のこずを孊ぶ機䌚がありたす。



1 䌚瀟23andmeからの遺䌝子蚺断の入門コヌス 。

2Courseraのいく぀かのコヌス ロシア語のいく぀かのコヌスを含む バむオむンフォマティクスずメタゲノムの 玹介 。

3バむオむンフォマティクス研究所のStepikコヌス 分子生物孊および遺䌝孊 、 分子系統孊 、 遺䌝子工孊 、および高性胜シヌケンス技術の玹介 。 研究所からのコヌスの完党なリストは、 公匏りェブサむトで芋぀けるこずができたす。

4カリフォルニア倧孊サンディ゚ゎ校のバむオむンフォマティクスの専門家であるPavel Pevzner教授による講矩 。

5サンクトペテルブルクに䜏んでいるなら、バむオむンフォマティクス研究所のゲスト講矩に参加できたす-無料です。



All Articles