倚項匏時間でのベルトりェむ問題の可解性に぀いお

孊生は、特にバむオむンフォマティクスコヌスを受講するこずにより、環状道路の問題を知るこずができたす。特に、プログラマヌにずっお最高の品質ず粟神に最も近いものの1぀は、カリフォルニア倧孊サンディ゚ゎ校のコヌスラのバむオむンフォマティクスPavel Pevznerコヌスです。 この問題は、ステヌトメントの単玔さ、実際的な重芁性、および単玔なコヌディングでそれを解決する明らかな胜力ではただ解決されおいないず考えられるずいう事実によっお泚目を集めおいたす。 この方法で問題が提起されたす。 倚項匏時間で点のセットの座暙を埩元するこずは可胜ですか $むンラむン$ X $むンラむン$ それらの間のすべおのペアワむズ距離のセットがわかっおいる堎合 $むンラむン$ \デルタX $むンラむン$ 



この䞀芋単玔なタスクは、ただ蚈算幟䜕孊の未解決問題のリストにありたす。 さらに、状況は倚次元空間のポむント、特に曲線のポむントにも関係したせん。すべおのポむントが敎数座暙を持ち、同じラむンにロヌカラむズされる堎合、問題はすでに最も簡単なオプションです。



このタスクが数孊者によっお課題ずしお認識されおからほが半䞖玀Shamos、1975で、いく぀かの結果が埗られたした。 1次元の問題に察しお2぀のケヌスが考えられたす。



  1. ポむントは盎線䞊にありたすタヌンパむクの問題
  2. ポむントは円䞊にありたすベルトりェむの問題


これらの2぀のケヌスは、理由のために異なる名前を受け取りたした-それらを解決するのに異なる努力が必芁です。 実際、最初の問題は十分に迅速に15幎で解決され、バックトラッキングアルゎリズムが構築されたした。これにより、平均で2次時間で解が埩元されたす。 $むンラむン$ On ^ 2 \ log n$むンラむン$ どこで $むンラむン$ n $むンラむン$ -ポむント数Skiena、1990; 2番目のタスクの堎合、これはこれたで行われおおらず、提案された最適なアルゎリズムは指数関数的な蚈算の耇雑さを持っおいたす $むンラむン$ On ^ n \ log n$むンラむン$ Lemke、2003。 䞋の画像は、異なるポむント数のセットの解を埗るためにコンピュヌタヌがどれくらいの時間動䜜するかを瀺しおいたす。







぀たり、心理的に蚱容できる時間10秒以内で、倚くの $むンラむン$ X $むンラむン$ タヌンパむクケヌスでは最倧1䞇ポむント、ベルトりェむケヌスでは最倧10ポむントです。これは実際の甚途にはたったく䟡倀がありたせん。



少し説明。 タヌンパむクの問題は、実甚的な芳点から、぀たり遭遇するデヌタの倧郚分に぀いお解決されるず考えられおいたす。 この堎合、解を埗るための時間が指数関数的に無芖される特別なデヌタセットがあるずいう事実に察する玔粋な数孊者の反察 $むンラむン$ O2 ^ n \ log n$むンラむン$ チャン、1982。 タヌンパむクずは察照的に、指数アルゎリズムのベルトりェむ問題は、䜕らかの方法で解決されたずは芋なされたせん。



バむオむンフォマティクスの芳点から環状道路問題を解決するこずの重芁性



20䞖玀の終わりに、非リボ゜ヌム合成経路ず呌ばれる生䜓分子合成の新しい経路が発芋されたした。 埓来の合成ルヌトずの䞻な違いは、最終的な合成結果がDNAにたったく゚ンコヌドされおいないこずです。 代わりに、これらのオブゞェクトを収集できる「ツヌル」倚くの異なるシンセタヌれのコヌドのみがDNAに曞き蟌たれたす。 したがっお、バむオマシン゚ンゞニアリングは倧幅に匷化されおおり、わずか20皮類の暙準郚品タンパク質構成ずも呌ばれる暙準アミノ酞で動䜜する単䞀タむプのコレクタヌリボ゜ヌムの代わりに、500を超える暙準郚品および非暙準郚品で動䜜できる他の倚くのタむプのコレクタヌが登堎したす非タンパク質構成アミノ酞ずそのさたざたな修食。 たた、これらのアセンブラは、パヌツをチェヌンに接続するだけでなく、非垞に耇雑な構造呚期的、分岐、および倚くのサむクルず分岐を持぀構造を取埗できたす。 これはすべお、その生掻のさたざたなケヌスで现胞の兵噚庫を倧幅に増加させたす。 そのような構造の生物孊的掻性は高く、特異性䜜甚の遞択性もさたざたな特性-制限されおいたせん。 英語の文献におけるこれらの现胞産物のクラスは、NRP非リボ゜ヌム産物、たたは非リボ゜ヌムペプチドず呌ばれおいたす。 生物孊者は、非垞に効果的であり、特異性による副䜜甚のない新しい薬理孊的補剀を芋぀けるこずができるのは、たさにそのような现胞代謝の産物であるこずを望んでいたす。



唯䞀の質問は、NRPをどのように、どこで探すかです。 それらは非垞に効果的であるため、现胞はそれらを倧量に生産する必芁が党くなく、その濃床は無芖できる。 そのため、玄1の䜎い粟床ず膚倧な詊薬ず時間コストを䌎う化孊抜出法は圹に立ちたせん。 次。 これらはDNAに゚ンコヌドされおいないため、ゲノムのデコヌド䞭に蓄積されたすべおのデヌタベヌス、およびバむオむンフォマティクスずゲノミクスのすべおの方法も圹に立たないこずを意味したす。 䜕かを芋぀ける唯䞀の方法は、物理的方法、぀たり質量分析によるものです。 さらに、珟代の分光蚈での物質の怜出レベルは非垞に高いため、重芁でない量、合蚈>〜800分子アトモル範囲、たたは濃床を芋぀けるこずができたす $むンラむン$ 10 ^ {-18} $むンラむン$ 



」



質量分析蚈はどのように機胜したすか 装眮の䜜業宀では、分子は砎片に分解されたす倖郚衝突による頻床は䜎くなりたすが、盞互の衝突による頻床が高くなりたす。 これらのフラグメントはむオン化され、倖郚の電磁堎で加速および分離されたす。 分離は、怜出噚に到達する時間、たたは磁堎の回転角のいずれかで発生したす。これは、フラグメントの質量が倧きく、電荷が䜎いため、䞍噚甚になるためです。 したがっお、質量分析蚈は断片の質量を「蚈量」したす。 さらに、「質量」は、同じ質量より正確には、1぀の倀 $むンラむン$ m / z $むンラむン$ さらにフラグメンテヌションを進め、さらに分離したす。 2段質量分析蚈は広く分垃しおおり、タンデム質量分析蚈ず呌ばれおいたす。倚段質量分析蚈は非垞にたれであり、単に $むンラむン$ ms ^ n $むンラむン$ どこで $むンラむン$ n $むンラむン$ -ステヌゞの数。 そしお、ここで、その構造を知るために、どのようにしお、あらゆる分子のあらゆる皮類のフラグメントの質量だけを知るずいうタスクが珟れたすか そこで、それぞれ線圢ペプチドず環状ペプチドに぀いお、タヌンパむクずベルトりェむの問題になりたした。



環状ペプチドの䟋を䜿甚しお、生䜓分子の構造を埩元するタスクが瀺された問題にどのように軜枛されるかに぀いお、さらに詳しく説明したす。







断片化の最初の段階での環状ペプチドABCDは、DA結合たたはAB、BCたたはCDのいずれかによっお4箇所で切断され、4぀の可胜な線圢ペプチドABCD、BCDA、CDABたたはDABCを圢成したす。 膚倧な数の同䞀のペプチドが分光蚈を通過するため、出力には4぀のタむプすべおのフラグメントがありたす。 さらに、すべおのフラグメントは同じ質量を持ち、最初の段階で分離できないこずに泚意しおください。 2番目の段階では、線圢フラグメントABCDを3぀の堎所で分割し、異なる質量AずBCD、ABずCD、ABCずDの小さなフラグメントを圢成し、察応する質量スペクトルを圢成したす。 このスペクトルでは、フラグメントの質量がx軞に沿っお、特定の質量を持぀小さなフラグメントの数がy軞に沿っおプロットされたす。 同様に、BCDA、CDAB、DABCの残りの3぀の線圢フラグメントのスペクトルが圢成されたす。 4぀の倧きなフラグメントすべおが第2ステヌゞに枡されるため、それらのすべおのスペクトルが合蚈されたす。 合蚈、結果はある皋床の質量です $ inline $ \ {m_1 ^ {n_1}、m_2 ^ {n_2}、..、m_q ^ {n_q} \} $ inline $ どこで $むンラむン$ m_i $むンラむン$ -いく぀かの質量、および $むンラむン$ n_i $むンラむン$ -その繰り返しの頻床。 ただし、異なる質量が同じ質量を持぀可胜性があるため、この質量がどのフラグメントに属し、このフラグメントが䞀意であるかどうかはわかりたせん。 ペプチドの結合が互いに離れおいるほど、ペプチドフラグメントの質量は倧きくなりたす。 ぀たり、環状ペプチドの芁玠の順序を埩元するタスクは、ベルトりェむの問題になりたす。 $むンラむン$ X $むンラむン$ ペプチドの結合、および倚数の芁玠 $むンラむン$ \デルタX $むンラむン$ -結合間のフラグメントの塊。



ベルトりェむ問題を解決するための倚項匏時間を備えたアルゎリズムの存圚の予枬



私の経隓ず、この問題を解決しようずした人や実際に䜕かをした人ずのコミュニケヌションから、倧倚数の人が䞀般的な堎合、たたはこのような狭い範囲の敎数デヌタのいずれかで解決しようずしおいるこずに気付きたした1、 50。 どちらのオプションも倱敗する運呜にありたす。 䞀般的な堎合、䞀次元の堎合のベルトりェむ問題の解決策の総数が蚌明されたした。 $むンラむン$ S_1n$むンラむン$ 倀による制限Lemke、2003

$$ディスプレむ$$ e ^ {2 ^ {\ frac {\ ln n} {\ ln \ ln n} + o1}} \ leq S_1n\ leq \ frac {1} {2} n ^ {n-2} $$ディスプレむ$$





これは、挞近線に指数関数的な数の解が存圚するこずを意味したす $むンラむン$ n \右矢印\ infty $むンラむン$ 。 明らかに、゜リュヌションの数が指数関数的に増加した堎合、それらの受信時間はそれ以䞊遅くなるこずはありたせん。 ぀たり、䞀般的な堎合、倚項匏時間解を取埗するこずは䞍可胜です。 狭い範囲の敎数デヌタに関しおは、すべおを実隓的にチェックできたす。培底的な怜玢によっお解決策を探すコヌドを曞くのはそれほど難しくないからです。 小さい方に $むンラむン$ n $むンラむン$ このようなコヌドはそれほど長くかかりたせん。 そのようなコヌドのテスト結果は、そのようなデヌタ条件の䞋で、任意のセットの異なる゜リュヌションの総数が衚瀺されたす $むンラむン$ \デルタX $むンラむン$ すでに小さい $むンラむン$ n $むンラむン$ たた、非垞に劇的に成長しおいたす。



これらの事実に぀いお孊んだ埌、あなたは条件に達し、このタスクをあきらめるこずができたす。 これが、ベルトりェむの問題が未解決のたたであるず考えられる理由の1぀であるず認めたす。 ただし、抜け穎は存圚したす。 指数関数であるこずを思い出しおください $むンラむン$ e ^ {\ alpha x} $むンラむン$ 非垞に興味深い動䜜をしたす。 最初は、非垞にゆっくりず成長し、0から1に無限に倧きな間隔で䞊昇したす。 $ inline $ \ infty $ inline $ 0にするず、その成長はたすたす加速したす。 ただし、倀が䜎いほど $むンラむン$ \ alpha $むンラむン$ 倀が倧きいほど $むンラむン$ x $むンラむン$ 関数の結果が蚭定倀をステップオヌバヌするように $むンラむン$ y = \ xi $むンラむン$ 。 そのような倀ずしお、数字を遞択するず䟿利です $むンラむン$ \ xi = 2 $むンラむン$ 、圌の前に唯䞀の解決策、圌の埌に倚くの決定がありたす。 質問 そしお、誰がどのデヌタが入力に到達するかに関する決定の数の䟝存性をチェックしたしたか はい、したした。 クロアチアの女性数孊者Tamara DakisDakic、2000による玠晎らしいphD論文があり、倚項匏時間で問題を解決するために入力デヌタが満たすべき条件を決定したした。 最も重芁なのは、゜リュヌションの䞀意性ず入力デヌタのセットに重耇がないこずです。 $むンラむン$ \デルタX $むンラむン$ 。 圌女の博士論文のレベルは非垞に高いです。 この孊生がタヌンパむクの問題だけに限定したのは残念ですが、もし圌女が環状道路の問題に関心を向けおいたら、それは長い間解決されおいたず確信しおいたす。



倚項匏時間解法ベルトりェむ問題を䌎うアルゎリズムの取埗



偶然に目的のアルゎリズムを構築できるデヌタを芋぀けるこずができたした。 远加のアむデアが必芁でした。 䞻なアむデアは、環状ペプチドのスペクトルは、単䞀の環切断で圢成されるすべおの線圢ペプチドのスペクトルの合蚈であるずいう芳察䞊蚘参照から生たれたした。 ペプチド内のアミノ酞配列は、このような線圢ペプチドから埩元できるため、スペクトル内のラむンの総数は重芁です $むンラむン$ n $むンラむン$ 回どこ $むンラむン$ n $むンラむン$ -ペプチド内のアミノ酞の数が過剰です。 問題は、シヌケンスを埩元する機胜を倱わないために、どの行をスペクトルから陀倖するかだけです。 䞡方のタスク質量スペクトルからの環状ペプチド配列の埩元ずベルトりェむの問題は数孊的に同型なので、倚くのタスクを間匕くこずも可胜です。 $むンラむン$ \デルタX $むンラむン$ 。



間䌐䜜業 $むンラむン$ \デルタX $むンラむン$ セットのロヌカル察称性を䜿甚しお構築された $むンラむン$ \デルタX $むンラむン$ Fomin、2016a。





定理は、䞡方の操䜜がセットを間匕くこずを蚌明したした $むンラむン$ \デルタX $むンラむン$ 、ただし、゜リュヌションを埩元するのに十分な芁玠が残っおいたす $むンラむン$ X $むンラむン$ 。 これらの操䜜を䜿甚しお、アルゎリズムが構築され、c ++で実装され、ベルトりェむの問題を解決したしたFomin、2016b。 このアルゎリズムは、埓来のバックトラッキングアルゎリズムずほずんど異なりたせん぀たり、可胜なオプションを列挙しお解決策を構築し、構築䞭に゚ラヌが発生した堎合に戻りたす。 唯䞀の違いは、セットを絞り蟌むこずです $むンラむン$ \デルタX $むンラむン$ 私たちをテストするためのオプションはかなり少なくなりたす。



これがいく぀の䟋です $むンラむン$ \デルタX $むンラむン$ 間䌐䞭。







ランダムに生成された長さの環状ペプチドに぀いお蚈算実隓が行われた $むンラむン$ n $むンラむン$ 10〜1000個のアミノ酞察数目盛の瞊軞。 察数目盛の暪軞は、さたざたな操䜜によっお間匕きされたセット内の芁玠の数を瀺したす $むンラむン$ \デルタX $むンラむン$ 単䜍で $むンラむン$ n $むンラむン$ 。 そのような衚珟は絶察に珍しいので、䟋によっおどのように読たれるかを解読したす。 巊の図を芋おください。 ペプチドに長さを持たせたす $むンラむン$ n = 100 $むンラむン$ 。 圌にずっお、セット内の芁玠の数 $むンラむン$ \デルタX $むンラむン$ 等しい $むンラむン$ n ^ 2 = 10000 $むンラむン$ これは䞊の砎線の点です $むンラむン$ y = n ^ 2 $むンラむン$  セットから削陀した埌 $むンラむン$ \デルタX $むンラむン$ 繰り返し芁玠、芁玠数 $むンラむン$ \デルタX $むンラむン$ に枛少 $むンラむン$ n_D \箄n ^ {1.9} \箄6300 $むンラむン$ 十字付きの円。 察称化の埌、芁玠の数は $むンラむン$ n_S \箄n ^ {1.75} \箄3100 $むンラむン$ 黒䞞、および郚分解による畳み蟌み埌 $むンラむン$ n_C \箄n ^ {1.35} \箄500 $むンラむン$ クロス。 合蚈、セットの合蚈ボリュヌム $むンラむン$ \デルタX $むンラむン$ わずか20倍に削枛されたした。 同じ長さのペプチドですが、右の図では、収瞮は $むンラむン$ n ^ 2 = 10000 $むンラむン$ 前に $むンラむン$ N_C \箄n \箄100 $むンラむン$ 、぀たり100回。



巊図のテストケヌスの生成は、耇補のレベルが $むンラむン$ k_ {dup} $むンラむン$ で $むンラむン$ \デルタX $むンラむン$ 0.1から0.3の範囲で、右偎の堎合は0.1未満でした。 耇補のレベルは次のように定矩されたす $ inline $ k_ {dup} = 2- \ log {N_u} / \ log {n} $ inline $ どこで $むンラむン$ N_u $むンラむン$ -セット内の䞀意の芁玠の数 $むンラむン$ \デルタX $むンラむン$ 。 そのような定矩は自然な結果をもたらしたすセットに重耇がない堎合 $むンラむン$ \デルタX $むンラむン$ その力は $むンラむン$ N_u = n ^ 2 $むンラむン$ そしお $むンラむン$ k_ {dup} = 0 $むンラむン$ 可胜な限り最高の耇補で $むンラむン$ N_u = n $むンラむン$ そしお $むンラむン$ k_ {dup} = 1 $むンラむン$ 。 異なるレベルの耇補を提䟛できるようにする方法に぀いおは、少し埌で説明したす。 図は、耇補のレベルが䜎いほど、間匕きされるこずを瀺しおいたす $むンラむン$ \デルタX $むンラむン$ で $むンラむン$ k_ {dup} <0.1 $むンラむン$ 間匕きされた芁玠の数 $むンラむン$ \デルタX $むンラむン$ 䞀般的にその限界に達する $むンラむン$ On ^ 2\右矢印On$むンラむン$ 、間匕きされたセットでは $むンラむン$ On$むンラむン$ 芁玠を取埗できたせん操䜜には、 $むンラむン$ n $むンラむン$ 芁玠。 セットの力を狭めるずいう事実 $むンラむン$ \デルタX $むンラむン$ 䞋限倀を蚭定するこずは非垞に重芁です。゜リュヌションを取埗する蚈算の耇雑さを劇的に倉えるのは圌です。



間匕き操䜜をバックトラッキングアルゎリズムに挿入し、ベルトりェむの問題を解決した埌、タマラダキスがタヌンパむクの問題に関しお話したこずの完党な類䌌物が明らかになりたした。 思い出させおください。 圌女は、タヌンパむク問題では、解が䞀意であり、重耇がない堎合、倚項匏時間で解を埗るこずができるず蚀いたした。 $むンラむン$ \デルタX $むンラむン$ 。 重耇を完党になくす必芁はなく実際のデヌタではほずんど䞍可胜です、そのレベルは非垞に小さくなりたす。 次の図は、ペプチドの長さず耇補のレベルに応じお、ベルトりェむの問題の解決に必芁な時間を瀺しおいたす $むンラむン$ \デルタX $むンラむン$ 。







図では、暪座暙ず瞊座暙の䞡方が察数目盛で瀺されおいたす。 これにより、カりント時間のシヌケンスぞの䟝存性を明確に確認できたす $むンラむン$ T = fn$むンラむン$ 指数関数盎線たたは倚項匏察数曲線。 図に芋られるように、䜎レベルの耇補右図では、解は倚項匏時間で埗られたす。 さお、より正確には、解は二次時間で埗られたす。 これは、間匕き操䜜によっおセットのパワヌが䞋限に䜎䞋した堎合に発生したす。 $むンラむン$ On ^ 2\右矢印On$むンラむン$ 、残っおいるポむントはほずんどなく、オプションの繰り返しが単䞀になるず戻り、本質的にアルゎリズムはオプションの繰り返しを停止したすが、残っおいるものから゜リュヌションを構築したす。



PSさお、耇補の異なるレベルでのセットの生成に関する最埌の秘密を明らかにしたす。 これは、デヌタ衚瀺の粟床が異なるためです。 デヌタが䜎い粟床敎数ぞの䞞めなどで生成された堎合、重耇のレベルは0.3以䞊になりたす。 たずえば、小数点以䞋3桁たでの粟床でデヌタが生成された堎合、耇補のレベルは急激に䜎䞋し、0.1未満になりたす。 そしお、ここから最埌の最も重芁な発蚀が続きたす。



実際のデヌタの堎合、枬定の粟床がたすたす向䞊する状況では、ベルトりェむの問題はリアルタむムで解決可胜になりたす。





文孊



1. Dakic、T.2000。 タヌンパむク問題に぀いお。 博士論文、サむモンフレむザヌ倧孊。

2.フォミン。 E.2016aシヌケンス問題のn ^ 2ステップのn ^ 2ペアワむズ距離のマルチセットからのポむントセットの再構築ぞの簡単なアプロヌチI.理論。 J Comput Biol。 2016、239769-75。

3.フォミン。 E.2016bシヌケンス問題のn ^ 2ステップにおけるn ^ 2ペアワむズ距離のマルチセットからのポむントセットの再構築ぞの簡単なアプロヌチII。 アルゎリズム。 J Comput Biol。 2016、2312934-942。

4. Lemke、P.、Skiena、S.、およびSmith、W.2003。 点間距離からセットを再構築したす。 離散および蚈算幟䜕孊アルゎリズムず組み合わせ論、25597–631。

5. Skiena、S.、Smith、W。、およびLemke、P.1990。 点間距離からセットを再構築したす。 蚈算幟䜕孊に関する第6回ACMシンポゞりムの議事録、332〜339ペヌゞ。 カリフォルニア州バヌクレヌ

6. Zhang、Z.1982。郚分ダむゞェストマッピングアルゎリズムの指数関数的な䟋。 J. Comp。 バむオ 1、235〜240。



All Articles