探玢的情報怜玢の方法に関するテヌマ別モデリング。 Yandexでの講矩

最近、モスクワはOpen Data ScienceコミュニティずYandexが䞻催するData Fest䌚議を䞻催したした。 この投皿では、Data Festを䜿甚した䞀連のレポヌト拡匵を開始したす。 最初のレポヌトは、機械孊習のスペシャリストであり、デヌタ分析孊郚の教垫であるコンスタンチン・ノォロンツォフ博士によっお執筆されたした。





怜玢機胜はYandexたたはGoogleを実行したすか 残念ながら、ただです。 怜玢結果には正しいず芋なされないタむプの怜玢がありたす。 そしお、ポむントは関連性すらありたせんが、私たち党員の通垞のほかに、別の怜玢が必芁です。 カットの䞋には、探玢的怜玢に関する講矩の蚘録ずほずんどのスラむドがありたす。






友人、私たちは皆、䞖界をより良い堎所にし、人々を賢くするためにここにいたす。 人々が賢くなるのを劚げるものは䜕ですか 人ず知識の間には心理的、技術的障壁があるず思いたす。 私の報告曞は、おそらく近い将来、珟代の情報技術が、ただ残っおいるこれらの障壁をどのように砎壊するかに぀いおです。



ここで私は新しいファッションを玹介しようずしおいたす-埌でプレれンテヌションがむンタヌネットに投皿されたずきに初めお、それを発芋した人がそれが䜕であるかを理解できるように。



アむデアはこれですなぜ私たちは人々を賢くしたいず宣蚀しおいるのですか 「ハハハ、あなたは人を倉えるこずはできない」ず蚀う懐疑論者がおそらくいるでしょう。 しかし、人々が読み方や曞き方を知らず、知識が口コミだけで広たり、䌝説や神話を習埗し、忘れられ、認識を超えお修正されるなど、懐疑論者を思い出させたす。しかし、人々は本を曞くずいうアむデアを思い぀きたした。本を印刷したす。 これはペヌロッパの聖職者が理解したずきに起こりたした圌らが説教を読んだずき、毎幎同じこずを芚えおいたすが、人々はただ芚えおいない、理解しおいない、䜕らかの圢で間違っおいるず感じたす。 そしお、みんなに読み曞きを教えるために必芁なもの。



その埌、さらにいく぀かの情報革呜がありたした。 最終的に、むンタヌネット、怜玢゚ンゞン、および知識は人々により近くなりたした。 しかし、ただ䜕かが欠けおいるようです。 ずにかく、知識のある仲間の科孊者から、研究を始め、倚くの文献を読み始めたずいう苊情を時折耳にしたす。半幎、3、5幎埌、私は突然発芋したした。 。 どうしお あなたは䜕幎も仕事をしおおり、あなたの前に誰かがしたこずを芋぀けるこずができたせんでした。 最新の怜玢機胜でこれはどのように可胜ですか それにもかかわらず、人間ず知識の間にこの障壁が存圚するこずがわかりたす。 今、私は技術的な障壁に぀いお話したした。 玔粋に心理的なこずなら、スリヌは優秀な孊生を決しお愛しおおらず、これは理解できるものであり、私たちは今あなたず戊うこずはありたせん。 しかし、私は本圓に技術的な障壁を打ち砎りたいです。



したがっお、情報怜玢の新しいパラダむムが発生したす。これに぀いおは、今日お話ししたいず思いたす。







そもそも、玄10幎前、情報怜玢の抂念の新しいパラダむムが出珟し、掻発に議論され始めたした。







特に、そのような衚珟は探玢的怜玢です。 ロシア語に翻蚳するには これを「探玢的怜玢」ず翻蚳し、䞀郚は「探玢的怜玢」ず翻蚳したす。 この図を芋るず、巊偎に私たちが慣れおいる怜玢ニヌズがありたす。 そしお、キヌワヌドでうたく怜玢する最新の怜玢゚ンゞンは、薬があり、最も安い薬局を芋぀ける問題を解決したす。 たたは、具䜓的なものを芋぀けお、蚀葉で衚珟する方法を知っおいたす。 しかし、あなたがあなたのために新しい䞻題分野を理解したいなら、あなたは問題を抱えおいるでしょう。 デヌタ分析の専門家である私は最近、心電図を理解し始めたした。 私はたったく医者ではありたせん。心電図や心電図のこずは䜕もわかりたせん。 この分野の構造をすばやく理解する必芁がありたす。 私がよく知っおいるこずずの接点にある堎所を芋぀けるために、最初に正確に䜕を読むかを芋぀けおください。 私はプロです。



そしお、そのような情報のニヌズは、たすたす倚くの職業の人々にたすたす発生したす。 私たちは孊生、教垫、科孊者、研究者だけに぀いお話しおいるのではありたせん。 これらは、マヌケティング担圓者、医垫、匁護士、ゞャヌナリスト-誰でもです。 知識を補充するために、たすたす倚くの人々がむンタヌネット䞊で䜕かを独自に怜玢し始めたす。 問題は、これを可胜な限り効率的に行う方法です。



私たちは、独孊のために怜玢゚ンゞンを䜿甚し始めおいたす。䜕かを研究し、新しい䜕かを孊ぶためです。 そしおここでは、これらのニヌズを十分にカバヌしおいないため、それらが欠萜しおいるこずを理解しおいたす。







問題は、キヌワヌドで怜玢するずき、探しおいるものを正確に知る必芁があるこずです。 そしお、正しい答えが存圚するず仮定しなければなりたせん。 私たちが新しいサブゞェクト゚リアにいるずき、これらの2぀の前提はたったく同じではありたせん。 䞀方では、䜕を探しおいるのかを正確に理解しおいたせん。 私たちはそれを理解したいず思っおいたす。 甚語はただわかりたせん。できるこずは、怜玢行にいく぀かの衚珟、単語を蚭定するこずだけです。 たた、怜玢結果は垞に指定された単語に䜕らかの圢で添付されたす。 新しい単語を孊ぶずき、私たちは理解したす。実際、これたで探しおいたものではなく、たさにそれを探す必芁がありたした。 しかし、倚かれ少なかれナビゲヌトを開始するには、反埩プロセスで倚くのこのような掞察が必芁です。 それでも、䜕幎もこれを行うこずはできたすが、重芁なこずは䜕も芋぀かりたせん。



質問人が自分の目の前のサブゞェクト゚リアのロヌドマップをすぐに芋るこずができるように、怜玢ク゚リに答えを提䟛する方法。



ですから、私たちが望むものず、䞻題領域の写真が欲しいずいうこずず、通垞の反埩怜玢ずの間には違いがありたす。 私たちはquery-browse-refineに慣れおいたす。぀たり、ク゚リを䞎え、答えを芋お、ク゚リを改善し、䜕床も繰り返したす。



ここに、10幎以䞊前に生たれたパラダむムがありたす。 情報怜玢は、情報怜玢ずどのように異なりたすか 埌者は、Yandexが行う情報怜玢の分野です。 そしお、情報探玢はわずかにシフトされた重点であり、情報怜玢党䜓に関する科孊ではなく、ナヌザヌが䜕かを探しおいるずきの動䜜、この反埩偵察プロセスがどのように機胜するか、ナヌザヌが必芁なものを芋぀けるずきの科孊です本圓に必芁です。



この情報探玢の分野からのマントラがありたす-最初に倧きな画像を取埗し、次にスケヌリングおよびフィルタリングツヌルを䜿甚し、奥深くに入り、画像をより広く芋お、そこから䜕かを遞択し、詳现に深く入り蟌む必芁がありたす。



このマントラの䞀郚を赀で匷調したのはなぜですか 倚くの堎合、圌らが倧量の情報を芖芚化するいく぀かの新しい方法に぀いお話すずき、圌らは倧きな絵、グラフを瀺したす。 そしお、倚くはすでにそのような写真に特異性を持っおいたす。 それらは頻繁に倚く衚瀺されたすが、次に䜕をすべきかを説明したせん。



情報探玢のむデオロギヌ家はこれを説明したした。 抂芁を述べた最初の段階だけではないこずを忘れないでください。 たた、ナヌザヌにコンテンツ自䜓をズヌム、深化、フィルタリング、取埗する方法を提䟛したす。 このテクノロゞヌが完党に実装され、むンタラクティブになるず、機胜し始めたす。 そしお、あなたが自分自身を最初の段階に制限しおいるなら、そしおもちろん、あなたは矎しい絵以倖は䜕も芋たせん。



読曞の抂念も生たれたした。 これが私たちが慣れ芪しんでいるものです-テキストの線圢読み取り。 メモを取り、匷調し、フェルトペンで匷調衚瀺したす。



むタリアの文孊の瀟䌚孊者であるフランコ・モレッティが10幎前に提案した別の抂念がありたす。 圌は、なぜ䞖界の文孊の99.9が誰にも読たれないのか、この文孊が䜕であるかをどのように理解するのか疑問に思いたした。 圌がフィクションに関連しおそのような質問をするなら、それはさらに科孊文孊や知識に圓おはたりたす。 どうすればすべおをカバヌできたすか







倧量の科孊的知識をある皮の地図の圢で提瀺しようずするさたざたな詊みがありたす。 もちろん、その堎合はスケヌラビリティがあるず想定されたす。



たずえば、医療知識カヌド。 私はこの地図があたり奜きではありたせん。ここには明らかに特定の地理的隠phorがありたす。 囜のように䜕らかの圢で呌ばれるものがあり、異なるフォントず異なる色で、郜垂のようなものが眲名されたす。 さらに進んで、道路、川などに意味をなすこずができたす。しかし、これはすべお過負荷になっおいるようです。 あなたはこれを芋お、あなたが快適ではないこずを理解したす。 なんで 気を぀けおみたしょう。







レンダリングの別の方法を次に瀺したす。 私は圌がより奜きで、圌はより理解しやすいです。 これはあなたず私たちの領域です-前のスラむドずは異なり、デヌタサむ゚ンス、デヌタマむニング、いく぀かの単語がここにすでに衚瀺されおいたす。



ここが嫌いです 倧きなセルが小さなセルに分割されるずき、それは知識の階局構造です-そしお、それが珟れお、セルの䞭に深く入るこずができるのは非垞に良いこずです。 テキストは、どこかのテキストに到達するたで、瀺されたフラクタル方法でたすたす小さなフラクタルに断片化されたす。 それは玠晎らしいです、良いアむデアです。 しかし、倧きなセルを真ん䞭に、小さなセルをその呚りに配眮するずいう事実に基づいお、このような倧きなものから小さなものぞの抌し぀ぶしが玔粋に芖芚的、グラフィカルに行われるずいう原則はあたり奜きではありたせん。 二次元トポロゞヌが消えたす。 スクリヌン䞊の特定の投圱、平面䞊の特定のマップを衚すため、そこにある近接性は䜕らかの意味でロヌドされるはずです。 ここで、階局を導入したばかりであるこずがわかりたす。







ここに別の䟋がありたす。 そしお、むンタヌネットにはそのような䟋がたくさんありたす。 倚くの人々が、さたざたなコレクションの科孊党䜓の地図を䜜成しようずしおいたす。 蚘事のコレクションだけがあり、泚釈のコレクションがあり、蚘事間のリンクが考慮されるコレクション、぀たり匕甚情報がありたす。 ナヌザヌが特定の蚘事をダりンロヌドしお読む方法に぀いおの情報があるコレクションがありたす。 䞀般に、これらのタむプの情報は、このような科孊の地図を䜜成するために䜿甚できたす。



この地図をよく芋るず、すべおがなんずなく円圢に配眮されおいるこずがすぐにわかりたす。 ここに経枈孊、ここにコンピュヌタヌ科孊、数孊、蟲業、物理孊、化孊、医孊、生物孊、薬理孊、神経科孊、心理孊がありたす-䜕ずか䜕ずか人道䞻矩のサむクルに萜ちたした。 正確で、自然で、人道的なサむクルがあるこずに気付きたした。 サむクルは閉じおいたす。 そしお、このような知識の図のトポロゞヌは、ここにあるように2次元ではありたせん。 それは円、䞀次元構造です。 はい、圌女はリングに閉じ蟌められおいたすが、これは興味深い芳察です。







そしお、これは非垞によく䌌た図です。 完党に異なるコレクションで完党に異なる人々ず手段によっお䜜られたしたが、コンピュヌタヌ科孊、数孊、工孊、物理孊、化孊、地質孊、生物孊、バむオテクノロゞヌ、分子生物孊、脳、医孊、医療、人道、瀟䌚-たた、圌らはコンピュヌタヌ研究方法にロックされおいたす。 再び円が発生したす。



ご芧になるず、むンタヌネットにはそのような写真がたくさんありたす。 䜕らかの理由でそれらの半分以䞊がそのような円です。







ここに別のビュヌがありたす-しかし、残念ながら、自動ではなく手動で䜜成されたす。 このような耇雑性理論の専門家であるブラむアン・カステラヌニは、毎幎耇雑性の科孊におけるこの理論のマップを曎新しおいたす。 䞻な分野を特定し、幎ごずに敎理したす。 以前のマップずは異なり、二次元性が珟れたした。 時間に察応する氎平軞ず、トピックに察応する垂盎軞がありたす。 これらのトピックを玄5行で䜜成し、コンピュヌタヌサむ゚ンスずサむバネティクスでこれがどのように発生するかを瀺すこずができたす。 最終的にデヌタ分析のどこかで、新しいサヌクルが登堎したした。



匷調衚瀺されたトピックは氎平方向に移動し、トピックがどのように展開されたかを远跡できたす。 そしお矢印は、䞻な䜜品ず䞻な貢献をした科孊者の名前を瀺しおいたす。 男は働いお、この絵を描いた。 疑問が生じたすこれらの絵を科孊分野で玔粋に自動的に描くこずは可胜ですか 䜕千䞇ずいう科孊出版物すべおを取り䞊げ、䜕らかの圢で匷調し、芁望を出したした。 䟋えば、耇雑性の理論は、10のサポヌト䜜品に埓っお、怜玢ク゚リです。 そしお、そのような画像を出力したいず思いたす。 そうすれば、人々は自分の新しい知識分野に察凊しやすくなりたす。 これに぀いお来たいです。



ちなみに、たずえばニュヌスフィヌドを時間内にレむアりトする写真も、非垞に矎しく構築するこずを孊びたした。 芖芚化技術の準備が敎い、倚くの開発が行われおいたす。







たずえば、Rose Riverプロゞェクトを取り䞊げたす。 Snowdenに関連するニュヌスフロヌを芖芚化する方法は次のずおりです。 2013-2014幎。 ニュヌスフロヌのサブセットでそのような写真を䜜成するために䜕をしたすか 最初にトピック、メ゜ッドの階局の特定のセクションを蚭定し、ニュヌスコレクションから特定の階局を自動的に構築し、別の専門家に衚瀺したす。 圌は蚀うここで、トップレベルでクリッピングを行っおください、これらのトピックはあたり興味がありたせん。 ここで、Snowdenに぀いお-より詳现に、ここで䞋䜍レベルの階局をカバヌする必芁がありたす。



゚キスパヌトがそのようなフィルタヌを蚭定するず、システムは自動的にそのような写真を衚瀺し、トピックが時間ずずもにどのように進化したか、それらがどのように亀差、結合、出珟、およびフェヌドしたかを瀺したす。 すべおがテヌマが川を流れる矎しい絵の圢で衚瀺されたす。 さらに、この画像はむンタラクティブに倉曎したり、新しい方法で生成したりするこずができたす。原則ずしお、これはたさに遠隔読み取りず呌ばれるものです。 この領域がどのように構造化されおいるかを理解したいず思いたす。 この堎合、特定のトピックに関連するニュヌスフロヌがあり、各トピックを修正し、サブトピックを入力しお特定のニュヌスに移動し、それらを読むこずができるため、さらに深く掘り䞋げる機䌚がありたす。 指定されたシステムはほが同じですが、次のように配眮されおいたす。暪軞は時間、瞊軞は専門家が遞択したトピックです。



かなり䟿利な芖芚化ツヌルでは、最初に衚瀺されたマップずは異なり、2぀の軞が解釈可胜であるこずが再びわかりたす。



倧芏暡なテキストコレクション甚の芖芚化ツヌルは既に倚数ありたす。 1幎前、Data Festでそれに぀いお話したずき、そのうち170人がいたしたが、今は-330でしたが、1幎でその数は2倍になりたした。 人々は、倧量のテキストを芖芚化するための䟿利な方法を考え出すこずに倚倧な劎力を費やしたした。 これは䜿甚できたす。







それにもかかわらず、探玢的怜玢がどのように配眮されるべきか想像しおみたしょう。 䜕が欲しい 短いフレヌズを求めるこずはできたせん。 探しおいるものがわかりたせん。 そしお、私たちはそれから䜕を始めおいたすか 考えおみるず、原則ずしお、倧きなテキストずテキストのコレクションが手元にありたす。 たぶん、私たちはただそれを理解しおいたせん。 ある蚘事がありたす。 同僚が私たちにそれを投げかけたばかりで、ただ䜕もわかっおいたせん。必芁な科孊の分野でこの蚘事がどのように䜍眮付けられおいるのかわかりたせん。 最初に芋たいです。 したがっお、芁求は任意の長さのテキストです-倧芏暡なコレクションが可胜です。 そしお、私たちのドキュメントに加えお、リク゚ストがどのトピックに関連するのか、それらからどのようなこずが知られおいるのかを理解したいず思いたす。 この䞻題領域の䞻題構造が䜕であるか、どの領域がそれに関連しおいるか、そもそも䜕を読むべきかを理解したいず思いたす。 これは䞀連のク゚リであり、独孊に携わっおいるナヌザヌの怜玢ニヌズは、特定の分野で知識を広げようずしおいたす。



この機䌚が、テキストが含たれるあらゆるアプリケヌションに参加したいず思いたす。 このテキストがどのトピックに圓おはたるかを理解し、リク゚ストずしお䜿甚したい-すぐにこの䞻題領域の芖芚化で写真を埗るために。 これが探査の倢です。 GoogleやYandexにアクセスしお怜玢バヌに䜕かを入力するこずもありたせん。 これをする必芁さえありたせん。 このような怜玢方法は、任意の長いテキストがある堎合は垞に手元にある必芁がありたす。 そのような倢。







これがコンセプトです。 䞖界䞭の倚くの人がこの倢にさたざたな方法で行くこずは明らかです。 私や私の科孊グルヌプのような人は、数孊の芳点から、技術の芳点からの誰かです。 どのようにアレンゞしおほしいですか 情報を時間軞ずいう2぀の軞で芖芚化するこずは非垞にクヌルであるこずがすでにわかっおいたす。 トピックをサブトピックに分割しお、かなり倧きなツリヌを䜜成する機䌚があれば玠晎らしいです。 さらに、自動的に構築されるこずが望たしいため、数䞇人の専門家のコミュニティによっお100幎以䞊にわたっお発明された、8䞇ポむントで構成されるUDCはありたせん。 この人間がサポヌトする構造は、垞に時代遅れになっおいたす。 必芁ありたせん。 むンタヌネット䞊のコンテンツに基づいお、そのような構造がオンザフラむで自動的に構築されるようにするには、情報技術を䜿甚する必芁がありたす。



たた、泚目すべき特城に気付きたした。人道䞻矩、自然、正確な科孊-呚囲にサむクルがありたす。 私たちはこのリングをどこかで壊し、垂盎軞に衚瀺し、そのような衚珟で䜜業したす。特定の䞭心テヌマを匷調するず、右に、それが最埌であり、巊にあるこずがわかりたす-前に来たものず、䞋-関連する知識分野ずのリンク。



この倢にどのように行きたすか







実際、倚くのものがすでに準備されおいたす。 ここで構想されおいる技術チェヌンは、珟代の怜玢゚ンゞンで機胜する倚くの有名で既補の技術で構成されおいたす。 Yandex、Googleなどがありたす。 むンタヌネットクロヌル、コンテンツフィルタリングを行うこずができたす-これは重芁です。なぜなら、暗い情報である商業情報ではなく、知識怜玢システムが必芁だからです。 猫やハスキヌなどは必芁ありたせん。知識を匷調する必芁がありたす。 そのような技術もありたす。



テヌマ別モデリング。 科孊文曞のコレクションからさたざたなトピックを䜜成する方法は これは重芁な問題です。



怜玢方法 アむデアは倩才に簡単です。 単語に埓っおドキュメントを怜玢できたす。これは逆玢匕ず呌ばれたす。 そしお、意味、䞻題ごずに怜玢する堎合、どうすればよいでしょうか , — ? , . — , , , , — , . , . . , , . — -, .



, , 330 . — . なんで ? , , , , , , , , — . - , - , - , - . . , . , . . . , , , , .



? . , .



— . , ? , . , , , — , . , , . , .







, . , , . . — . , — . , — .



, , , — . , .







. : , , , , , . . , . , . , , , .



, , .







. , . , . , , . , « — », : « » « ».



, . , , , , .



. φ — , Ξ — .







, — . , , , , , Y . . , , .



— . « », , , . , . . , : , . , , , , . .







— , 1999 , . , , . 100% . - . , , 15 . , .







. , , . , , , φ Ξ, . — φ Ξ, , , .



. , , N-, -, , . — - , . - . , .







, , , , — .







. , , , . — .



- , - . , — φ Ξ.



, . , , , . . — , , .







, , , .



, . : , , , , - , , , . . - . , .







, - , . , — , , . - . , , .







. — BigARTM , - . — . , . — .



, : . , , .







, . , . , , , , , , MATLAB, , — , .



— ++, , . , , , . , . , .







Python, , .







, . 3,7 4,5 . 14 10 . — , .







, , — , .



— , . , , , , , , . .







, . , , .







, — -k .







, .



, , . , , 25 , : , . . , .



, , .







. ? 4. — .







, . , - . . [3D ] - 3D — .







. , , 25 .







.







, , , . , , .







, 200 . , , — . , , - .







私はそこで止たりたす。いく぀かのストヌリヌを甚意したしたが、時間がありたせん。圌らはプレれンテヌションに残りたす、質問があれば、私は手玙を曞くこずができたす。ご枅聎ありがずうございたした。



All Articles