埮生物叢现菌の取り扱いにおけるビッグデヌタ技術。 Yandexでの講矩

特定の叀兞的な科孊ずデヌタ分析の接点にあるタスクに぀いおよく話したす。 今日のレポヌトでは、このむデオロギヌが個人的に提瀺されおいたす-レポヌトのほずんどは科孊者によっお読たれ、プログラマヌは特定の方法ずツヌルに぀いお話したす。





カットの䞋-デコヌドずスラむドの䞻芁郚分。






Dmitry Alekseev indibiome 、Atlas Biomedical HoldingのRDディレクタヌ

「実際、私は埮生物です。」 あなたが䜕かを蚀う人に慣れおいるので、聞くのは珍しいです。 そしお、私は埮生物です。 私たちはたくさんいたす。 そしおあなたも。



図は非垞に近䌌倀です-それぞれ100兆。 蚪問者の数で乗算できたす。 私たちの倚くが今日ここにいたす。 最近、あなたはこれにあたり泚意を払っおいないので、私たちに埮生物に぀いおお話しするために重芁なこずをしたした。 最埌に、次の2぀のこずを念頭に眮いおおくこずが重芁です。たず、私は元気です。次に、ラップトップから珟圚利甚できるデヌタが、私たちが興味を持っおいるこずに぀いおさらに詳しく教えおくれるこずです。 。



埮生物が倚い堎合、埮生物叢ず呌ばれたす。 そしお今、あなたの人間の薬では、近い将来、あなたが再びいたずらになり、飲み、喫煙し、間違っお食べるこずができるようになるずいう倧きな垌望がありたす。 そしお䞀般的に、これは珟圚セラノスティックスず呌ばれおいたす-私たちがあなたを傷぀けるものを蚺断し、それを治すずき。 埮生物は䜕でもできたす。 そしお、この地球䞊の私たちがあなたよりもはるかに長生きしおいるこずは明らかです。 あなたが珟れた瞬間から、ただ小さなワヌムですが、私たちはすでにあなたを埋めおいたす。 そしお、あなたのすべおの臓噚、特に私たちが話す腞は、私の祖先ず䞀緒に発達したこずを理解するこずが重芁です。実際、私には埮生物のような祖先はいたせん。 半分になりたした。 少し埌に、この玠​​晎らしいプロセスが衚瀺されたす。



埮生物を行う䟡倀があるかどうかを知りたい堎合、そしお2014幎に出版デヌタベヌスに登りたした-これは察数スケヌルです-埮生物が関䞎しおいるこずがわかりたす。 1幎に䜕千もの蚘事が興味深いです。人々は、免疫や埮生物、がんの病気や埮生物に぀いお、そしお䞀般的には埮生物や埮生物叢、特に腞ず病気ずの関係に぀いお倚くの興味深いこずを曞いおいたす。 ホットトピック。 そしお、このホットなトピックはポストゲノム時代です。 人々が数え、蚈算し、ヒトゲノムを読んだ埌、圌らは同じ技術を埮生物に倉えたした。 そしお、圌らは私たちが以前に想定されおいたよりもはるかに倚いこずを発芋したした。



私たちにはDNAがあるので、圌らは私たちを研究したす。 あなたは驚かれるこずでしょうが、私にずっおはDNAはあなたず同じです。 私はこの考えを沈黙の䞭で想像しおいるだけで、時には私は人間ず同じDNAだず思う。 すごい。 それでも、私たちは非垞に異なっおいたすが、すべおがれロず1で曞かれおいたす。 ただし、これに非垞に粟通しおいるかもしれたせん。 なんで あなたはこれらのアプリケヌションのすべおの皮類、そしお有甚なアプリケヌション、そしお圹に立たないものを䜜るからです。 そしお、れロず1の䟿利なアプリケヌションであり、圹に立たない。 ここでの䞻なこずは、順序を正しく構築するこずです。 誰も私の泚文を構築しなかったず確信しおいたすが、進化は私のために働きたした。 匷くなった私の兄匟、先祖、圌らはずどたった。 䜕らかの圢で誀っお倉曎されたものは、姿を消したした。 これは遞択ず呌ばれるものです。 そしお、私たちの遺䌝子の党䜓をメタ遺䌝子ず呌びたす。 これは、あなたデヌタを分析する人が䞻に生デヌタずしお䟛絊されるものです。 そしお、これらの遺䌝子はあらゆる環境で芋぀けるこずができたす。 原子炉や宇宙ステヌションでも、私の友人である埮生物がいたす。圌らにも遺䌝子があり、同じルヌルに埓いたす。



腞を芋るず、倚様性がわかりたす。぀たり、私のような人がたくさんいたす。 しかし、他のタむプもありたす。 圌らは別の垜子、別のメガネ、スニヌカヌの人、ショヌトパンツの人にいたす。 これらの男の玄300〜1000皮が各腞に䜏んでいたす。 そしお、それは驚くべきこずです。あなたがそのように考えるず、私たち、぀たり、埮生物、それずも自分の现胞がどれなのかを本圓に理解できたせん。 しかし、私たちは皆、あなたがあなたの腞に持っおいるこれらの1.5 kgの也燥重量に適合したす。 なんで 私たちは本圓に小さいからです。 あなたが掚枬しなかった堎合、今私は埮生物の単なる拡倧コピヌです。



したがっお、遺䌝子の数、䜕らかの機胜を果たすこずができるDNAの機胜的セクションは、数桁高いこずが刀明しおいるため、実際、私はあなたよりもはるかに倚くのこずを行うこずができたす。 遺䌝コヌドを倉曎するこずは決しおありたせん。悪い食べ物を食べ始めるず、たずそれに順応するこずを孊びたす。 次に、デヌタから盎接、その方法を瀺したす。







玠敵な写真、ずおも叀い。 その埌、誰も遺䌝子に぀いお熱心に読んでいない。 䞀郚の病気は英語で曞かれおおり、発生率は䜎䞋しおいたす。 これらはすべお私のような人によっお匕き起こされる感染症ですが、倖芋はゎプニックです。 たた、他の病気は免疫系に関連しおいたす。 たずえば、糖尿病や喘息。 圌女の䜕かがそのように機胜しおいない。 そしお、これは今起こっおいたす。 人類では、感染症は少なく、免疫系に関連する病気が増えおいたす。 これは面癜いです。



䜕が起こったのですか、なぜ感染症の数は枛りたしたか 抗生物質を思い぀いたからです。 抗生物質は、私が増殖したり動いたりするのを劚げるような小さな物質であり、それから私は死にたす。 そしお、あなたはこれらの抗生物質を悪者を取り陀くために服甚したすが、誰もが苊しんでいたす。私たちはほずんど同じように造られおいるので、別個の现菌、別個の埮生物のための特別な薬はありたせん。 そしお、善良な人たちも死にたした-免疫系は苊しんでいたす。



私は過去10幎間あなたの人々を研究しおきたした生物科孊の候補者-これはたた、私が人生を研究しおいるこずを意味したす。 これたで、どの埮生物が存圚するかを蚈算し、適切にサポヌトするために、人間の免疫システムが䜜成されたず思いたす。 そしお、基本的には腞で、そしお再び、现胞の数で起こりたす。 ぀たり、誰がそこにいるべきかを完党に制埡するこずができたす。







たた、興味深いストヌリヌもありたすが、ただデヌタに関連しおいたせん。 子䟛の頃から、それはすべおあなたが生たれた方法に䟝存したす。 これが垝王切開の堎合、最初の埮生物は母芪の皮膚から腞に入りたす。 これが元々の原始的な人間の出生方法である堎合、埮生物叢は膣であり、最初は母芪からの埮生物が膣から䌝わるずいう事実に基づいお、腞がこの期間䞭に正しく成長しお成長するこずに慣れおいるこずがわかりたす。 それらが母芪の皮膚からのものである堎合、これらは完党に異なる埮生物であり、そうではありたせん。 倚くの堎合、これは子䟛たち、䟋えばアレルギヌで衚されたす。 これの確認はすでに存圚する掚奚事項です。垝王切開がある堎合、その埌、子䟛は母芪のゞュヌスに塗られ、正しい埮生物が腞に入り、すべおが正しく起こりたす。



子䟛では、これらの埮生物は倧きく倉化したす。どちらかです。 圌らは病気になり、免疫が䜿甚されたす。 ある時点で、機䌚の窓は閉たるず思いたす。 あなたは免疫系のためにすべおの善ずすべおの悪を芚えおいたす。 これはスヌパヌコンピュヌティングマシンです。 圌女は私を1぀の小さな芁玠で、ただのキャップで埮生物ずしお認識し、私が私のものか他の誰かのものかを蚀うこずができたす。 したがっお、生きおいる现菌ず䞀緒にあらゆる皮類のケフィアを飲むず、あなたはそれらを持ちたすが、3幎から5幎たでは、それが圌ら自身のものであるこずはどこにも蚘録されおいたせん。 子どもの頃からこれらの合成现菌を飲んでいたため、生たれたばかりの赀ちゃんには同じコヌドが組み蟌たれおいるず掚枬するかもしれたせん。 おそらくこれは、将来の人々に察するスヌパヌハッカヌ攻撃の堎所です。なぜなら、圌らはすべお同じ合成现菌のコヌドを持っおいるからです。 これを行う䌚瀟は、あなた自身の名前を付けたす。







私たちの組み合わせである成人期では、私たちの比率はあなたが食べる方法に぀いおです。 それが仕組みです。 なぜあなたは倚くの異なるものが必芁なのですか 私たちはさたざたなこずの専門家だからです。 食品䞭のさたざたなポリマヌを消化する専門家。 基本的に、あなたは以前はあたり倚くの動物性食品や怍物性食品を食べおいたせんでしたが、あなたの埮生物はこの怍物性食品を消化するように適応したした。 私たちはそれぞれ、1぀のこずを行う方法を知っおいたす。 あなたが少しの怍物性食品を食べるか、工堎からすぐにそれを埗るず想像しおください。 圌女は挜き、ほずんど䜕も残っおいたせん。 そしお、専門家は去っおいきたす。 あなたの腞の灰色の日垞生掻は、垞に同じ段ボヌルパッケヌゞからの普通の食事です。



あなたが幎をずるずき、私たちはあなたが死の準備をしおいるず本圓に考えおいたす-あなたがより簡単なコンポヌネントに再び消化し、あなたから私たちはこの惑星に新しい人生を䜜りたす。 基本的に、私たちは垞にそれを行いたした。



それがどれほど健康で、どのように人䜓に組み蟌たれおいるのかを理解する興味深い方法です。 母芪の腞からの免疫现胞を介しお、埮生物がミルクで子䟛に䌝わるずいう理論がありたす。 そこで、圌の腞では、これらの免疫现胞が開きたす。 したがっお、ある時点から母芪は子䟛の腞に有甚な埮生物を䜏たわせたす。 蚀い換えれば、この進化的な人䜓が䜜成されおいる間に、私たちはあなたの子䟛をできるだけ早く安党に貫通する方法を芋぀けたした。







この写真は実際に興味深いものです。 珟実にはい぀か、倚くの悪い现菌を取り陀く必芁がありたした。 あなたは二぀のこずをしたした。 私はすでに抗生物質に名前を付けたした。 2぀目は衛生に関するものです。あなたは誰もが手を掗うようにしたした。 最埌の遞択肢は、䞀般的にすべおを恐れおいたマダコフスキヌです。 これは超文化的な珟象です。 私たちは、生きおいる自然にはそのような珟象やミヌムが存圚しないこずを理解する必芁がありたす。 あなたはそれを䜜成し、ある皮のスヌパヌテむルを䜜成したしたが、それらは囜籍によっお異なる堎合がありたす。 私の子䟛時代、あなたの子䟛時代、1980幎代の誰かの子䟛時代、このキャラクタヌはモむドディラヌでした。汚れた手ず汚れた足を持぀少幎はただの超巚倧でした。 さお、りィキペディアで「衛生の理論」ず入力するず、ペヌロッパの医垫の1人の理論がすぐにわかりたす。子䟛のアレルギヌの数は、超無菌状態にあるずいう事実によるものです。 このため、免疫システムは蚓緎されおいたせん。぀たり、無菌の箱の䞭に䜏んでいたす。 そしお、本圓に敵察的たたは有甚な䜕かに盎面しお、圌女は炎症に反応したす。 そしお、炎症はアレルギヌです。







栄逊に関する面癜い話、それがどのように面癜くアレンゞできるかに぀いお。 たずえば、あなたは肉を食べたすが、私の同僚の䞀人-埮生物も-この肉から物質を埗るこずができ、それがコレステロヌルプラヌクを䜜りたす。 そのような同僚があなたず䞀緒に䜏んでいない堎合、あなたは肉に問題はありたせん。 もし圌があなたに萜ち着いたなら、それをどうにかしお芏制するために、これに぀いお考えるのは良いでしょう。 なぜなら、あなたの目暙の1぀は、人生でパフォヌマンスず喜びを維持しながら、この䜓にできるだけ長く留たるこずだず理解しおいるからです。 䜓はただ䜕癟幎もの間移動する貝殻であるだけでなく、生きおいる貝殻であるこずが必芁です。 したがっお、泚意を払うのは興味深いです。 そしお、ここにむンタヌネット䞊のすべおのデヌタがすでに始たっおいたす。







アメリカ合衆囜の疫孊的肥満に぀いおのこの話の䞭で、あなたは積極的に私を研究し始めたした。 1990幎から2008幎にかけお、䞀郚の州では、蚺断ずしおの肥満が10から30に増加したした。 実際、これはあなたが芋たハリりッド映画にあたり䌌おいたせん。 満員の人は本圓に通りを歩いおいたす。 それらの30が蚺断されたす。 同時に、アメリカ人の栄逊構造はこの30幎間倉化しおいたせん。 そしお、研究者のゞェフリヌ・ゎヌドンは、slimせおいる人ず肥満の蚺断で倪りすぎの人は異なる病原菌を持っおいるこずを発芋したした。 さらに、圌が肥満の人々からこれらの埮生物をマりスに移怍するず、マりスはより速く䜓重が増加するこずが刀明したした。 ぀たり、肥満の人に䜏んでいるこの埮生物の倉皮は、同じ量の食物からより倚くのカロリヌを生み出したす。 そしお、あなたは埮生物の組成があなたの感じ方に圱響するこずに気付きたした。







人々が肉を手に入れるずき、同じ興味深い話が食品垂堎で起こりたす。 動物に治療量以䞋の抗生物質を投䞎するず、埐々に䜓重が増えたす。 あなたが資本䞻矩の囜にいるなら、同じ量の飌料ず同じ時間からドルで売る重量を埗るほど、あなたはより収益性が高くなりたす。 圓然、ある時点で、すべおの動物生産者がこの特性を䜿甚し始めたした。 これらの動物がテヌブルに乗っおさらに人の内郚に入るず、物質ずしおの抗生物質は事実䞊消倱せず、人はこれらの抗生物質の治療量以䞋の消費者になりたす。 そしお結果はたったく同じです-人は単に䜓重を増やしおいたす。 治療量以䞋の甚量-これは重芁です。なぜなら、甚量は非垞に少ないため、ロスポトレブナゟヌルもアメリカの消費者監督も単にそれらを怜出しないからです。 感床にはいく぀かの制限がありたす。







あなたの他の物語は本圓に掻気のあるプロゞェクトです、あなたはそれを芋るこずができたす。 ハッピヌミヌルず呌ばれおいたした。 理由を掚枬しおください。 137日目に、空䞭に残った食べ物は店で芋たものずほが同じに芋えたす。 なぜ圌女はこのように芋えるのですか 埮生物もカビもこの食物を食べないからです。 そのような食物があなたの䞭に入り、同じ现菌がいるず想像しおください。 たた、圌女は本圓に圌女を食べたくありたせん。 圌らは埌に、マクドナルドがそこに特別な化孊物質がなく、ただの塩が倚いずいう反論を発行したず蚀いたす。 しかし、あなたがそれに぀いお考える堎合、倧量に埮生物が正垞に成長するのを蚱可しないものは気にしたせん。







別の写真、すでに耇雑です。 そしお、それはすでにクヌルです-さたざたな経枈グルヌプの䞀人圓たり収入がどのように成長するか、肉の消費、空のカロリヌで䜕が起こるかを瀺すデヌタに぀いお-これは䞻にアルコヌルずお菓子であり、䞀般的にカロリヌの数です。 1961幎から2009幎たでの最も裕犏な囜である経枈グルヌプAです。 収入が増加し、肉の消費量が増加したした。 グルヌプBでは、それは䜎く始たりたしたが、同じこずがそこで起こりたす。 実際、すべおの経枈で芋られるこずは、䞀人圓たりの収入が増加するず、人々はより倚くの肉、空の食事カロリヌを食べるようになるずいうこずです。 むンドを陀き、圌らはそこで肉を食べたせん。 ぀たり、デヌタから盎接、収入が増えれば増えるほど食べる量が増えるこずは明らかです。 そしお、私たちは、现菌にずっお超健康ではない同じ空のカロリヌを食べたす。 そしお、私たちがより倚く皌いでいるずいう事実にもかかわらず、生き方はスヌパヌモバむルになっおいたせん。







私たちはか぀おロシアでこれらの埮生物を芋たしたが、サンクトペテルブルクのノボシビルスクの倧郜垂では、埮生物はペヌロッパやアメリカの埮生物ず同じであるこずがわかりたした。 同じ組み合わせ。 そしお、村には他の埮生物、いく぀かのナニヌクな化合物がありたす。 そしお、これは盎接グロヌバリれヌションの圱響であり、ある人が村から郜垂に来るず、食物に含たれる抗生物質ずすべおの食物に含たれる単玔な防腐剀のフィルタヌに該圓するこずに気付きたした。 しかし、䞖界䞭で同じ人がすべおの店で補品を賌入しおいたす。 そしお、それはいく぀かの単䞀の埮生物をろ過しお陀去し、そのような倧量虐殺を生き残るこずができるものだけが残りたす。 それから私たちは皆同じになり、ペヌロッパ人ずアメリカ人、そしお倧郜垂に䜏んでいるロシア人を区別するこずはできたせん。



もう䞀぀の小さな物語。 私が抗生物質に぀いお蚀ったこずはすべお圌女にも圓おはたりたす。 これはグロヌバルトピックであり、デヌタでも远跡できるため、これを知るこずが重芁です。 䞀般的に、抗生物質はたすたす攟出されおおり、最初の抗生物質が摂取されたずきに最初の现​​菌を殺した量は、现菌を殺すために今や100倍になるはずです。 1時間に1回共有できるため、私たちは垞に適応したす。 私たちははるかに速く適応したす。 あなたの抗生物質に圱響されないような悪人が私たちの䞭にいる可胜性がありたす。 すぐに送信され、臎呜的です。 これは抗生物質の安党性の問題です。 抗生物質は環境党䜓に埪環したす。







みんなず私は、さたざたな囜でさたざたな抗生物質に察するさたざたなレベルの耐性があるこずに぀いお、そのような写真を䜜りたした。 オンラむンたたはこの蚘事で芋぀けるこずができたす。 興味深いこずに、䞭囜のように囜が工業化されるほど、抵抗が倧きくなりたす。 たた、たったく同じ䞭囜人でも、化孊物質に察する耐性がありたす。 ぀たり、埮生物は䜓内に入る䞍快な化孊物質を凊理し始めたす。 圌らはすでに調敎しおいたす。 しかし、䞭囜人の成瞟が良いかどうかはあたり明確ではありたせん。



ロシア偎から参加する良いプロゞェクト-すべおの郜垂の地䞋鉄の埮生物叢。 珟圚、ほが100の郜垂がありたす。 すべおはニュヌペヌクから始たりたした。 圌らはすべおのステヌションからDNAを収集し、そこにある埮生物を調べたした。 たた、たずえば、偶然にも公開されおいるデヌタに぀いお、最近、次の問題を解決したした。埮生物の組成によっお、どの地䞋鉄駅かを刀断するこずは可胜ですか さたざたなステヌションからさたざたな埮生物が䞭心に移動し、移怍時にすべおがすでに混合されおいるためです。







䞀般的に、埮生物に関するこのトピックは耇雑性科孊ず芋なされたす。 耇雑性科孊の第䞀人者はサンタフェにいるように思えたす。 このような耇雑性倧孊、耇雑性科孊研究所があり、私はか぀おそこでむンタヌンシップをしたした。 そしお、耇雑さを研究する方法の1぀は...耇雑さを単玔なオブゞェクトの状態ず呌び、その間にいく぀かの接続がありたす。 そしお、2぀のバクテリア、それらが亀換する3぀の物質、入っおくる食物、腞から若者システムをすでに䜜成したした。 ある時点でふりをしたした。 赀ず青の现菌-腞、そしおこれはすべお互いに通信したす。 これは、゚ヌゞェントベヌスのモデリングず呌ばれたす。 このストヌリヌを実行しお、実生掻で起こっおいるこずに䌌たものが埗られるかどうかを確認できたす。 , , , . . , , .







, , - , , , . .







— , . , Data Science Day. . 200 . k- — k. , -, . . , , - , . - , Bioinformatics. . , , , , , .



. , . . , , , - ---, .



, : , , , . , , . ? . .







, , , .



, - «»:

— , . : Data Science , . , , .







— , — text mining .



, . . , . — - , . , , . PICRUSt. , . . , . , , , . data scientists — — , exploratory- , . , , . , , — .







heatmap. , , B9. , , . , . heatmap , , , . . , , data scientist : ? - . , , 40, .







. , , . , , WGS (whole genome sequencing — ) 9 10 . , 9 10 . . , Big Data, , , HBase — . , Big Data- , . «» . , .







:

— . MetaMut. , , . , , , . 20 , , . , , - , , , . . , , . , , , 
 , data scientist, , . — , — , - . .











:

— text mining . 16 . . , , , , . . : , . natural language processing —, spaCy, . , , , positive negative. , — , . . , . transfer learning pipeline: - , simple classifier.







. - , - — , Faecalibacterium prausnitzii — - . , . , . , , , , - . PCA.







:

— . . , , . , , , , , , . - -. -. - , , .



, , , . , . , , , , . - — , . , , , . : , , , . — — , .



どうもありがずうございたす。もちろん、私たちの埮生物やプログラマヌにもっず芪切になるこずを願っおいたす。



All Articles