バむオむンフォマティクスのアルゎリズムの問​​題。 Yandexでの講矩

デヌタアナリストず科孊者がお互いにタスクに぀いお話し合い、盞互䜜甚する方法を探すむベントのデヌタサむ゚ンスシリヌズに぀いおは既に䜕床か蚀及したした。 䌚議の1぀はバむオむンフォマティクスに捧げられたした。 これは、開発者にずっお未解決のタスクがたくさんある業界の玠晎らしい䟋です。







カットの䞋には、モスクワ州立倧孊の力孊孊郚ずデヌタ分析孊郚の卒業生であるむグナット・コレスニチェンコによる講矩の写しがありたす。 Ignatは珟圚、Yandexの分散コンピュヌティングテクノロゞヌサヌビスの䞻芁な開発者です。






ここのプログラマは誰ですか 聎衆の玄半分。 私のレポヌトはあなたのためです。



レポヌトの目的は次のずおりです。デヌタの取埗方法ず配眮方法を正確に説明したす。 物語はアンドレむの物語より少し深くなるでしょう。 これを行うには、生物孊に぀いお少し思い出させる必芁がありたす。 少なくずもプログラマヌが生物孊を知らないこずを願っおいたす。



そしお、この分野でどのアルゎリズム的に耇雑な問題が解決されおいるのか興味を持たせるために、それが玠晎らしいこずを理解し、バむオむンフォマティクスに取り組み、人々が耇雑な問題を解決するのを助ける必芁があるこずを䌝えようずしたす。 明らかに、生物孊者自身がアルゎリズムの問​​題に察凊するこずはできたせん。



mehmatを卒業したした。 私は数孊者で、Yandexで働いおいたす。 私はプログラマヌであり、YTシステムに取り組んでおり 、Yandexで内郚むンフラストラクチャを行っおいたす。数千台のマシン甚のクラスタヌがありたす。 Yandexが収集するすべおのデヌタはこれらのクラスタヌに栌玍され、すべおが凊理されたすペタバむトのデヌタ。これに぀いおは少し理解しおいたす。 私ぱビノムの共同創立者でもありたす。 そこで私は同じ技術的な仕事に埓事しおいたした。 私の目暙は、これらのアルゎリズムずプログラムがどのように機胜するかを理解し、それを最も自動的に行う方法を教えるこずで、ナヌザヌがりェブサむトにデヌタをアップロヌドし、ボタンを抌すず、クラスタヌが展開され、すべおが迅速に蚈算され、最小化され、デヌタが人には思えたでしょう。



この技術的な問題を解決しおいる間、問題のデヌタずその凊理方法を把握する必芁がありたした。 今日は、孊んだこずの䞀郚を説明したす。



Gelfandのビデオは 、このむベントの発衚でFacebookに投皿されたした。 誰が芋たしたか 䞀人。 ゲルファンドはあなたを䞍満に芋おいたす。







私たちはDNAを䜿っお䜜業したすが、DNAに぀いお少しコンテキストが欲しいので、现胞から始めたす。 分子生物孊の科孊ずしおのバむオむンフォマティクスが现胞内のすべおのプロセスに関心を持っおいるこずは明らかですが、本日は技術面、デヌタに぀いおさらに詳しくお話ししたす。もちろん、コアおよび近くのコンポヌネントのみに関心がありたす。



コアにはDNAが含たれおいたす。 栞小䜓がありたす。 アンドレむが瀺したヒストンずずもに、それはある意味で芏制ず゚ピゞェネティクスの原因ずなっおいたす。 2番目の重芁な郚分がありたす-リボ゜ヌム、栞の呚りの折り畳み、いわゆる小胞䜓。 リボ゜ヌムず呌ばれる分子の特別な耇合䜓がありたす。 タンパク質を䜜るために最初にDNAから差し匕くDNAの断片からになりたす。



3番目の郚分はクロマチンです。すべおのDNAが浮遊しおいるすべおの物質が芋぀かりたす。 ぎっしり詰たっおいたすが、それでも倚くの異なる調節分子がありたす。 たあ、膜がありたす-保護、栄逊、现胞が通信する方法。



セルには他にも倚くの機胜がありたす。 それらに぀いおは話したせん。教科曞で読むこずができたす。







次に、情報、DNA、およびRNAに぀いお説明したす。 2぀の䞻芁な分子がありたすデオキシリボ栞酞およびリボ栞酞。 これらは同じタむプの分子です。 ワト゜ンずマックリックはか぀おこの分子の構造を発芋したした。 面癜い話、自䌝を読むこずができたす、圌はすべおに぀いお非垞に矎しく曞きたす。 それは二重らせんであり、人気のある絵、人気のある流行語です。



それは4぀の倧きな分子、数十個の原子の耇合䜓で構成されおいたす。 これらはグアニン、シトシン、アデニンおよびチミンです。 さらに、チミンの代わりにRNAではりラシルになりたす。 DNAからRNAを䜜成するず、「T」の代わりに「U」の文字が衚瀺されたす。 私たちの4぀の文字がDNAに含たれおいるこずを知るこずは重芁です。 私たちは抂しお圌らず䞀緒に仕事をしたす。



DNAはより高い構造を持っおいたす。 これは単なるスパむラルではなく、䜕らかの圢で存圚しおいたす。 ヒストンずいう特別な耇合䜓の呚りを枊巻いおいたす。 次に、ヒストンがいく぀かの繊維にねじれ、そこから文字Xがすでに構築されおいたす。これは、生物孊の教科曞で芋た矎しい写真です。 通垞、圌らはヒストンに぀いお話さない、圌らは15幎前には蚀わなかったが、圌らは文字Hを瀺す。それはそのように配眮され、DNAはそこにunningな方法でねじれおいる。



ヒストンは芏制に責任がありたす。 DNAを䜿っおある皮のRNAを読みたいず思うず、うたくいかないかもしれたせん。 あるいは、䜕かが倉化しお、読み始められるかもしれたせん。



そしお、これらすべおに取り付ける方法を知っおいるリス、それを広げる方法を知っおいる、あなたが読むためにそれを匕き出すリスがありたす。 二次構造は、DNAのどの郚分からRNAタンパク質を䜜成できるかを理解するために非垞に重芁です。







タンパク質ずは䜕ですか 现胞の䞻な掻力、すべおの生物の倚様性は、䞻にタンパク質に起因しおいたす。 事実、タンパク質には非垞に高い倉動性がありたす。 これは、巚倧な分子の山に参加する非垞に倚様な分子の巚倧なクラスです。 それらは非垞に異なる構造を持っおいるため、この耇雑な化孊反応はすべお现胞内で起こりたす。



タンパク質に぀いお知っおおくべきこずは䜕ですか 化合物ブロックはアミノ酞です。 私たちの䜓内のアミノ酞、私たちの䞖界では20個。 圌らはもう少しいるず蚀いたすが、私たちの䜓には20がありたす。圌らは特定のラテン文字も持っおいたす。 タンパク質は右に暡匏的に描かれ、その始たりが曞き出され、どの文字が存圚するかが瀺されたす。 私は生物孊者ではありたせん。VたたはMが䜕であるか芚えおいたせん。生物孊者は文字の意味をすぐに蚀うこずができたす。



タンパク質の構造にはいく぀かのレベルがあり、単玔にシヌケンスずしお芋るこずができたす。バむオむンフォマティクスの堎合、倚くの堎合はそのように芋えたす。 アヌサヌはより耇雑な二次および䞉次構造に関心がありたすが。



これを䞀連の文字ず芋なしたす。 二次および䞉次構造。 そのようならせん、アルファらせんがあり、それらは写真ではっきりず芋えたす。 ベヌタシヌトもあり、かなり平らな郚分に䞊べる方法を知っおいたす。これらのアルファスパむラルずベヌタシヌトを収集する特別な郚分がありたす。







さらに、アンドレむが蚀ったこずは、分子生物孊の䞭心的な教矩です。 それは、翻蚳ず転写があり、RNA、DNA、およびタンパク質が異なる方向に関䞎する、より倚くの異なる逆プロセス、垂盎があるずいう事実にありたす。 しかし、今日は攟送ず文字起こしのみを芋おいきたす。 右偎には、真栞生物の现胞、特にヒトにおけるこのこずを説明するかなり完党な図がありたす。



遺䌝子はありたすか 生物孊の教科曞では、これは遺䌝の単䜍であるず曞いおいたす。 私たちにずっお、DNAを芋るず、遺䌝子はそれほど単玔ではないサむトです。 pHに倉換されるわけではありたせんが、タンパク質はRNAから䜜られたす。 すべおが少し間違っおいたす。 たず、このセクションには、切り取られた領域、むントロンがありたす。 たた、埌でタンパク質に゚ンコヌドされる゚ク゜ンがありたす。 DNAを30億文字で芋るず、これは䞀般的なフレヌズです-重芁な領域は2しかありたせん。 遺䌝子のコヌディングを担圓しおいるのはわずか2です。 そしお、我々ぱク゜ンに぀いお話しおいる。



より倚くのむントロンを取埗するず、2ではなく20が埗られたす。 そしお残りの80は遺䌝子間領域であり、明らかにある皋床芏制に参加しおいたす。 しかし、歎史的にそうであるように、いく぀かは本圓に必芁ありたせん。



次のこずが起こりたす。遺䌝子の前に特定のプロモヌタヌがあり、このプロモヌタヌの䞊に特別な分子がありたす。これは、DNAからRNAを読み取っおRNAを生成するタンパク質です。



さらにRNAから、倉換は別の分子によっお行われ、それにより䞍必芁なむントロンが切り取られたす。 既補のメッセンゞャヌRNAを取埗しお、そこからタンパク質をブロヌドキャストしたす。 この堎合、「3」および「5」は切り取られたす-゚ンコヌドされおいない端。 RNAからタンパク質を䜜るずき、実際にはトリプレットがあり、いく぀かのシヌケンスを開始できたす。 圌女の前のすべおは単にスキップされたす。 现胞は座っお、これをスキップし、開始コドンからすべおを始めたす。



私はコドンずいう蚀葉を䜿いたした。 コドンずは䜕ですか ゚ンコヌドはどのように機胜したすか ロゞックは簡単です。 DNAには、A、C、T、Gの4぀の文字がありたす。タンパク質には20の文字、20のアミノ酞がありたす。 4぀のうち20を䜜成する必芁がありたすが、これが盎接機胜しないこずは明らかであり、䜕らかの方法で゚ンコヌドする必芁がありたす。 コヌディングに携わっおいる科孊者の芳点から芋るず、このデバむスは非垞にシンプルで愚かなコヌディングであり、簡単に考え出すこずができたす。 しかし、生物孊の芳点から、これを達成するこずは容易ではありたせんでした。



3文字のDNAが読み取られおおり、各文字の3぀組は特定のアミノ酞を゚ンコヌドしおいたす。 文字64のトリプレットず20個のアミノ酞を64個のバリアントに゚ンコヌドできたす。 ゚ンコヌドは冗長です。 同じものを゚ンコヌドするさたざたなトリプレットがありたす。



攟送ず文字起こしに぀いお今日知っおおく必芁があるのはこれだけです。



アンドレむは、メタゲノミクス、さたざたなオヌミックに぀いお倚くのこずを話したした。 過去50〜100幎の科孊者は、生物孊だけでなく、现胞内で䜕が起こっおいるのか、どのプロセスがあり、どのような化孊が存圚するのかを非垞に積極的に研究しおいたす。 そしお、圌らはこの問題で非垞にうたくいった。 圌らは完党な絵ず理解を持っおいないかもしれたせんが、倚くのこずを知っおいたす。



異なる物質の盞互倉換の倧きな地図がありたす。 特に、ほずんどの芁玠はタンパク質であり、䞀般的に现胞内で起こるこずを蚘述しおいたす。







ここに小さな断片がありたすが、倧きな絵があり、科孊者はそれを描くのが奜きです。 私たちの前にあるのは、セルで行われるすべおの抂略的な簡略化されたスキヌムです。



すべおの分子は倚かれ少なかれ垞に现胞内に存圚するこずを理解するこずが重芁です-問題は濃床にありたす。 垞に、どこかでDNAが展開し、そこから䜕かが読み取られたす。読み取られるものは、さたざたなタンパク質の濃床に倧きく䟝存したす。 そしお、现胞の生涯は芏制です。 あなたはもっず倧きくなり、䜕かが他のプロセスよりも倧きくなり、圌は䜕かをもっず攟送し始め、新しいタンパク質が珟れ、圌は䜕らかのプロセスに参加し、私を生産するのに十分だず蚀っお、圌は新しいタンパク質を生みたした。その生産に干枉し始めたした。 このようなフィヌドバックルヌププロセスは、セル内に倚数存圚し、䞀般的にここに衚瀺されたす。



これらのA、C、T、Gからデヌタはどこから来たすか アンドレむは、あなたにそれらを読むシヌケンサヌがあるず蚀いたした。 これらのデバむスがどのように配眮され、䜕を読んでいるのかをさらに詳しく理解したしょう。



70幎代埌半に発明され、1989幎にプロゞェクト「Human Genome」を開始できる叀兞的なサンガヌ法がありたす。 2001幎たでにプロゞェクトは完了し、30億文字の「参照」者のシヌケンスを組み立おるこずができたした。 23個の染色䜓すべおを分析し、各染色䜓にA、C、T、Gの文字が䜕であるかを認識したした。



Sengerの方法は良奜で信頌性が高く、科孊者は圌を信頌しおいたすが、圌は非垞に遅いです。 1977幎、それは恐ろしい恐怖でした。あなたは攟射性溶液ず手袋の物質で䜜業し、鉛の小さなものの埌ろにいお、詊隓管のどこかに䜕かを泚ぎたした。 これらの挔習の3時間埌、誀っお間違った堎所に䜕かを泚がなかった堎合、200ヌクレオチドのDNAを認識できる写真が埗られたす。



プロセスが迅速に自動化されたこずは明らかであり、自動化の過皋でテクノロゞヌが少し倉化したした。 2000幎代半ばたでには、400文字ごずに高䟡な科孊者の3時間の䜜業を費やすこずなく、シヌケンスを迅速か぀安䟡に実行できる新しいテクノロゞヌが倚数登堎したした。



アンドレむが最埌に語った技術は、ミニナノポアです。 科孊界では、この技術が䞻流になるかどうかに぀いおただ疑問があるように思えたす。 しかし、それは確かに私たちにずっお新しい境界線を開きたす。



以前の技術はすべおかなり正確であるず考えられおおり、゚ラヌはほずんどありたせん。割合ず割合に぀いお説明しおいたす。 このテクノロゞヌには10〜20の倧幅な゚ラヌがありたすが、倧きなアむデアを読むこずができたす。 倧芏暡なアプリケヌションでは、これは本圓に必芁なようです。



゚ラヌも少ないテクノロゞヌに仕䞊げるこずができるかどうかは䞍明です。 しかし、可胜であれば、それは非垞にクヌルです。



シヌケンス凊理、これがどのように行われるかに぀いおの党䜓像。 圌らはあなたからサンプルを採取し、血液怜査、唟液の分析、たたは特別なピンセットで登り、骚髄の断片を取埗したす。非垞に痛みを䌎う怖い手順です。 さらにサンプルに沿っお、いく぀かの化孊反応が行われたす。これにより、䞍芁なすべおが削陀され、サンプルに存圚するDNAのみが条件付きで残されたす。



次に、DNA断片化を行い、小さな断片を取埗しおさらに䌝播し、より倚くの断片が存圚するようにしたす。 これは倚くのテクノロゞヌで必芁です。 次に、シヌケンサヌにデヌタを送信し、䜕らかの方法ですべおを読み取りたす。



出力は垞に同じfastqファむルです。 すべおのデバむスはさたざたな方法で動䜜し、長さも゚ラヌの皮類も異なりたす。このデヌタを䜿甚する堎合は、゚ラヌの皮類、そのようなデヌタを正しく凊理する方法を理解するこずが重芁です。 すべおに同じメ゜ッドを適甚するず、信頌できないダヌティデヌタが埗られたす。



Sengerメ゜ッドに぀いお簡単に説明したす。 アむデアはずおも矎しいです。 DNA配列があり、それを繁殖させお、詊隓管に浮かせたす。 次に、それが䜕で構成されおいるかを理解したす。 そこには特別なリスが食べられたす。 おそらくすべおのDNAがそこに浮かぶこずもありたすが、それを分解する方法を知っおいる分子も浮くでしょう。



科孊者には非垞に簡単な方法がありたす。 圌らはどのようにしおDNAを䜿っおそのようなこずをするこずを孊びたしたか 圌らは、自然がどのように现胞内で同じこずをしおいるのかを芋お、自分たちがしおいるタンパク質を理解し、それらを手に入れお、今やDNAを耇補できるようになりたした。 耇補に関䞎するタンパク質を取り、それらを詊隓管に入れるだけです。 そこにすべおが起こりたす。



圌らはこれらのリスを投げ、そしお私たちのACTGも投げたす。 その䞭には、特別なものがマヌクされおおり、読み取り時にDNAに接着されるず、それ以䞊接着できなくなりたす。 このすべおを投げ、揺さぶり、しばらく攟眮するず、興味のある未読の元のDNAの断片が埗られたす。 私たちはランダムに䜕かを貌り付けたすが、垌望は長さごずに䜕かが貌り付けられるこずです。この瞬間に停止するTTRが貌り付けられ、すべおが停止したす。



より特別なタグ付きACTG、蛍光。 特別な方法でそれらを照らすず、それらは緑、青、赀、たたは黄色になりたす。 次に、これらすべおがゲルに投げ蟌たれ、そこで質量で分配され、匷調衚瀺され、右のように写真が撮られたす。 さらに䞋から䞊に向かっおカりントするこずができたす短く、高く、䜎くなりたす。







その結果、fastqファむルを取埗したす。 倖芳は右偎に描かれおいたす。 これは、プログラマがすでに困惑しおいるはずのテキスト圢匏です。圧瞮できるのに、なぜテキスト圢匏で保存するのですか それで起こった。 実際、それらはそのようなファむルに保存されおおり、KZIPでそれを抌すだけです。 ファむルには4行のデヌタが含たれたす。最初に、読み取り、読み取りの1぀のIDが来たす。 そこで読たれた手玙。 それからいく぀かの技術的なラむン、そしお4番目のラむンは品質です。 すべおのデバむスは、読み物にどれだけ自信があるかの指暙を提䟛できたす。 さらに、デヌタを操䜜するずきは、これを考慮する必芁がありたす。



ほずんどのアルゎリズムの本質は、ランダムな断片を䜕床も䜕床も読み取り、倧きなカバレッゞで読み取るこずです。 次に、元のDNAがどのように芋えるかを理解する必芁がありたす。 人々がヒトゲノムプロゞェクトを始めたずき、圌らは実際に他の組み立おられたゲノムを持っおいなかったこずは明らかです。 バクテリアはそれからすでに収集するこずを孊びたした。 そしお、それはひどい仕事でした。 あなたは人間のゲノムを持っおいたす、それは30億文字を持っおいたす。 長さ300から400の断片を手に入れたので、今床はそのような断片がどのシヌケンスから埗られたのかを理解する必芁がありたす。 怖いですね。



アルゎリズムに぀いお話したしょう。 NGSを䜿甚しおどのような問題が解決され、アルゎリズムの芳点からどのように解決されたすか







最初のタスクは、ゲノムの組み立おです。 それに぀いお、あなたは6ヶ月の講矩コヌスを読むこずができたす、倚くの資料がありたす。 ここでどのアルゎリズムが䜿甚されおいるのか、なぜ難しくお興味深いのかを理解できるように、䞀般的なアむデアのみを抂説したす。



ゲノムアセンブリのタスクは䜕ですか リヌドはfastq圢匏で提䟛され、数癟䞇たたは数千䞇がありたす。 たずえば、1぀の染色䜓を収集したす。 そしお、収集したいゲノムたたは染色䜓を取埗する必芁がありたす。



さお、プログラマヌの芳点から、このタスクはどのように定匏化されたすか ACTG文字の短い文字列があり、品質、重量のいく぀かの指暙がありたす。 そしお、それらを収集するずき、答えにはただ制限がありたす。 生物孊者がヒトゲノムを収集したずき、圌らは11番目の染色䜓䞊にそのような遺䌝子が存圚するこずを知っおいたした。長い研究の結果、それらを調べ、他の方法でそれらが存圚するこずがわかりたした。 そしお、私はこれを考慮に入れたいです。 䜕かを収集しおからそれを芋぀けるのは愚かなこずでしょう-アルゎリズムがそう決定したので、私たちが確信しおいるこずのために、䜕らかの理由でありたせん。



すべおの短い行にわたっお䜕らかのスヌパヌラむンを取埗する必芁がありたす。 そしお、できるだけ小さくしたいず考えおいたす。 それ以倖の堎合は、すべおのフラグメントを簡単に貌り付けお、誰にも合わないものを取埗できたす。 すべおの入力ラむンは染色䜓から取埗されおいるため、この染色䜓を芋぀ける必芁があるこずを意味したす。 十分に倧きなカバレッゞでこれを行った堎合-条件付きで、各シフトにいく぀かの線がありたす-そしお最短のものを収集し、これが私たちのゲノムになりたす。 䞊蚘は垞に真実であるずは限らず、そのような凊方で䜕かを倱うか芋逃すこずができるさたざたな理由がありたす。 しかし、これはすべおの人に適した十分な近䌌倀です。







タスクの簡略化された䟋。 長さ16よりも短いスヌパヌストリングをたずめるず、次のようになりたす。 CCTAの最埌の行に最埌から2番目の行を貌り付け、それらからの文字TAが重なりたした。 したがっお、2぀の文字を保存したした。 その埌、最初の行をスピヌカヌに接着したした。 TGAC , . , . .



. , , , NP-. , , : . : , - ? 2 10 — .



しかし、良いニュヌスがありたす。 , - . .



: . . , , , .



, , . 100 . , , . , , scaffold'. , .



. 80- 90-, , . 60- 70-, . , . -, , . , 80- , . , . .



? Overlap-Layout-Consensus. overlay-, , , , .



Overlay- — . , — — , .







. 5, , .



, , . , , — . , overlap. , . , , , , . , .



1990 , , , . . , , overlay . , — . . overlay, .



, . , , . . , overlay.



, , , 100 1000. , , , .



, . . , , , . , . , , , .



, . , , , . , , . overlay , , , .



- . , .



. , 1989 . -, , , -, .



: , . , , , , . , .



, , . , k = 4, , , k= 4, , . - , . , , — , - - , - . .



— .



, k . , k = 2, , .



, , , , . , , .



. : , . . : , . - .



: , , , . , . , , .



, . . , , , , . , .



, . — , , , , . , , , . , .



, , , . : , . — . - , . , , . , , , , . . . , , , .



, , — . , , , , . , , .







. , . , .



? . , , , 
 , , . , , .







, , — . ? , . , . , , . . , , . , , . , . , .



, , - , , . , - , . , , , . , , - , - . - . .



: -, , -, . 10 . — - . , , , , , . .



machine learning. , , , .



.







. , , — . , , , , , , . - - , , , , , . - , , , , , . - , . , , , , .



, , - , . , . , , , . , , , - . . , : , — . . . .



. , , ? - , , , . , , , , , , . — , , , : , .



, . , , , -. . , , . , , , , .



, , , . , . , : , , , , , , . -, , , . -, , , . , - , , , , . , , , . , . , , .



結論ずしお、バむオむンフォマティクスを孊びたい堎合は、講矩を芖聎しお䜕かを読むこずができたす。たたは、専門の機関、たずえば、コンピュヌタサむ゚ンス孊郚の経枈孊郚などに留孊するこずもできたす。2016幎には、党䜓ずしおバむオむンフォマティクスの修士課皋が䞀般にオヌプンしたした。「生物孊ず医孊におけるデヌタ分析」ず呌ばれたすが、コヌスを開くず、䞀般的にはバむオむンフォマティクスになりたす。



たた、バむオむンフォマティクススクヌルもありたす。これもFBBず䞀緒にやっおいたす。サンクトペテルブルクにバむオむンフォマティクス研究所がありたす。䞀般に、倚くの異なるオプションがありたす。どうもありがずう。



All Articles