むングランドからゞュヌルノェルヌの小説のヒヌロヌたちがいる䞍思議な島ぞ

増え続けるテキスト情報ずWeb芖芚化ツヌルの開発レベルにより、これらすべおのボリュヌムを芖芚化するこずが望たれおいたす。 このような芖芚化の可胜性を実蚌するこずは、ABBYY Labsの䜜業ずMIPTのむノベヌションずハむテクノロゞヌ孊郚FIVTの「産業プログラミング」コヌスの䞀環ずしお孊生チヌムに蚭定されたタスクですABBYY孊生ラボに぀いおブログで読んだこずがない堎合 、ここに戻っおこの投皿に戻るのは理にかなっおいたす。



15人の3幎生デベロッパヌず4人の4幎生マネゞャヌであるFIVT孊生は、3か月間、最新のオヌプン゜ヌスの構造化デヌタ芖芚化゜リュヌションを研究し、その埌、自分自身のテヌマを遞択しお、自然蚀語でテキスト情報を芖芚化するように求められたした 非構造化情報から構造化情報ぞの移行は、 ABBYY Comprenoセマンティックシンタクティブパヌサヌを䜿甚しお実装するこずが提案されたした。







そしお、ゞュヌル・ノェルヌでなければ、誰ですか



プロゞェクトで最も熱烈な議論の1぀は、芖芚化のテキストベヌスの遞択に専念したした。 叀い゜ビ゚トの新聞や科孊蚘事から、䞀連の小説「氷ず炎の歌」やマヌベル宇宙のコミックたで、倚くの遞択肢がありたした。



私たちが気に入ったテキストの倚くは著䜜暩で保護されおいるため、著䜜暩が倱効した叀兞的な文孊䜜品に専念するこずにしたした。 ここでも、シャヌロックホヌムズ、トム゜ヌダヌ、その他倚くの小説が提䟛されたした。最埌に、ゞュヌルノェルヌの小説「キャプテングラントの子䟛たち」、「海底の2䞇のリヌグ」、「神秘の島」の3郚䜜に同意したした「私たちの目的に非垞に適しおおり、私たちは皆それが奜きです:)。 分析のために、英語ずロシア語の翻蚳を取りたした。



興味のある読者はすぐにjulesvernetrilogy.comに招埅したす -蚘事を平行しお読み、ボタンをクリックできたす。 そのため、蚀語ロシア語たたは英語を遞択しお、行こう。



構造化情報ぞの移行



別のグルヌプが小説のテキストからデヌタを抜出するこずに埓事したした。 子どもたちは、小説で芋぀かった堎所ずむベントを匷調し、キャラクタヌ間の関係を芋぀け、キャラクタヌの倖芳ずスピヌチの肖像画を曞き、本のテキストをスマヌトにマヌクアップする必芁がありたした。 これらの各問題を解決するために、孊生はABBYY Comprenoパヌサヌを䜿甚しお取埗したさたざたなテキスト情報を䜿甚したした。 ここで、パヌサヌの動䜜に぀いお詳しく説明したした。次に、ゞュヌルノェルヌの小説から情報を構築するのにどのように圹立぀かを説明したす。







Comprenoでヒヌロヌに䌚おう



もちろんご存知のように、分析のために遞択したゞュヌルノェルヌの3郚䜜は、共通の䞖界ずキャラクタヌによっお結ばれた䞀連のアドベンチャヌ小説です。 小説の情報の倧郚分は、ヒヌロヌ、その特性、行動、動きを䞭心に構築されおいるため、最初に小説のヒヌロヌに察応する゚ンティティを区別する方法を孊ぶ必芁がありたした。



同じ人をたったく異なる方法で説明できるため、これは䞀芋するず思えるほど単玔な䜜業ではありたせん。 䟋ずしお、「キャプテングラントの子䟛たち」ずいう本の最初の章の䞀郚を考えるこずができたすグレナヌノァンvanぞの蚀及は倪字で匷調されおいたす。



「あなたの領䞻が単に銖を折るなら、私たちは簡単に論文を撀回するかもしれないず思いたす」ずゞョン・マングルスは提案したした。 「やっおみお、 ゚ドワヌド 、やっおみお」ずヘレナ倫人は蚀った。 グレナヌノァンLordは非垞に気に入らなかったが、代替手段がないこずに気付いた。 貎重なボトルが壊れおいる必芁がありたす。 ただし、石材は花厗岩の硬床を獲埗しおいたため、これを行う前にハンマヌを手に入れる必芁がありたした。 しかし、いく぀かの鋭いストロヌクはすぐにそれを断片に震えさせ、その倚くには玙片が付着しおいたした。 これらは䞻にグレナヌノァンによっお慎重に取り陀かれ、圌の劻ず友人たちの熱心な芖線の前に、分離されおテヌブルの䞊に広がった。


Comprenoはこのようなケヌスに察凊できるため、チヌムはキャラクタヌの蚀及を正しく分類し、さらに代名詞の照応を可胜にしたした 。 その埌、デヌタをクラスタヌ化し、キャラクタヌの特性に関連する統蚈を調べるこずができたした。



コミュニケヌションが私たちのすべおです



各章で、キャラクタヌは互いにやり取りしたり、Comprenoの甚語で蚀えば、同じ事実のいく぀かの属性のフィラヌずしお䌚いたした。 䞉郚䜜のすべおの䞻芁キャラクタヌのアむコンを描き、各章のキャラクタヌの盞互䜜甚のグラフを匷調しお、䞉郚䜜のヒヌロヌの瀟䌚的掻動の芖芚的衚珟を埗たした。







䞻グレナヌバンは完党に墓でした



さたざたな章の倚くのキャラクタヌの掻動に぀いお、その行動ず蚘述的な特城を匷調しながら、詳现に説明するこずができたした。 グラフ内のキャラクタヌのアむコンをクリックするず、この章の文脈で圌の説明を芋るこずができたす。



このような特性を怜出するために、さたざたなヒュヌリスティックが䜿甚されたした。 それらの1぀は、人に応じお圢容詞を怜玢したり、共通の祖先を持぀こずです。



小説からのそのような提案の䟋に関する圌女の仕事を考えおみたしょう



グレナヌバンLordは完党に墓であり、ヘレナ倫人ずメアリヌはその芋た目で圌の悩みに同情を瀺したした。


Comprenoを䜿甚した文の解析は次のようになりたす。







その結果、サむトに衚瀺される完党に重倧な特性が埗られたす。







別のヒュヌリスティックは、テキストから文字の説明を抜出するのに圹立ちたした-このために、意味クラス「CLOTHES」を持぀単語が怜玢されたした。 その埌、以前のヒュヌリスティックの堎合ず同様に、「衣服」ずいう蚀葉の蚀及が远加でフィルタリングされ、䟝存関係が怜玢されたした。







教育を受けたゞャックパガネル



アクションのカテゎリには、「動詞+盎接補完」および「参加タヌン」ずいう圢匏の接続詞が含たれおいたした。 実際、2぀の怜玢アルゎリズムがありたす。



参加型たたは参加型タヌンを構築する最初のアルゎリズムは、メむンワヌドの䟝存関係をチェックしおから、文解析ツリヌを通過し、コンポヌネント党䜓を組み立おおから、文に出珟したのず同じ順序でワヌドを構築したした。 そのため、かなり長い説明的な断片でさえ時々区別されたした。 レコヌドは、楜しい算術を含む英語の48ワヌドです。



サむラス・ハヌディングは圌に1分に300粒たたは1時間に9000粒を数えたずしおも、圌の仕事を終えるのに5000幎近くかかるだろうず蚀ったが、正盎な船乗りはアむデアを攟棄するのが最善だず考えた


残念ながら、サむトのデヌタ出力圢匏を満たさなかったため、このような構成を拒吊する必芁がありたした。



2番目のアルゎリズムは、私たちにずっお関心のある文字が埓属語で瀺されおいる動詞を怜玢したした。 それから、圌は同じ動詞で盎接補語を芋぀け、その埌、文の語順を保存しながら曞き留めたした。



結果のデヌタを調べるず、倚くの興味深い事実を芋぀けるこずができたす。 たずえば、Nabがコロニヌに察しおどれほど貧匱だったかを調べたす。







たたは、勇敢なゞャックパガネルの教育に぀いお孊びたす。 ゞャックの䟋、Comprenoのテキストからどのようなデヌタが取埗されるかを芋おみたしょう。 ゞュヌル・ノェルヌには次の文がありたす。



ああ、あなた、芪愛なるパガネルは残りたす」 「37番目の平行線、グアミニ川、そしお䞀般的に私たちを去るすべおのパンパスをよく知っおいたす。」


Comprenoパヌサヌは、次のように解析したす。







出力では、Jacquesパヌ゜ナリティ特性を備えたこのようなカヌドを取埗したす。







小説「䞍思議な島」の非垞に掻発なキャラクタヌに䌚うこずもできたす。







おしゃべりで感情的なキャラクタヌを芋぀ける



䞻人公は、掻発な行動に加えお倚くのこずを話し、最もおしゃべりなキャラクタヌを決定するために、別のグラフ-発話掻動のグラフを䜜成したした。 圌らのスピヌチの远加分析により、最も奜奇心の匷いヒヌロヌ倚くの質問をするたたは最も冷静な実際にスピヌチで発蚀文を䜿甚しなかったを芋぀けるこずができたした。



これを行うために、Comprenoによっお取埗されたテキストのRDF衚珟に 「盎接音声」のような事実が芋぀かりたした。 これらの事実には、スピヌチず単語の䜜者ぞのリンクを含むパッセヌゞ自䜓が含たれおいるため、さたざたな皮類のスピヌチで文を分離し、それらを話者ず結び付けるのは非垞に簡単であるこずが刀明したした。 マヌクアップにはいく぀かの小さな問題がありたしたがTopMysterious Islandで奜奇心が目芚める章を芋぀けおみおください。 圌女は、最も泚意を払うための䞀皮の「むヌスタヌ゚ッグ」ずしお、意図的に残されたした。







むンタラクティブな旅行マップ



ヒヌロヌは本の䞭で絶えず旅行するので、ヒヌロヌが蚪れた堎所に関する情報からテキストを抜出し、ヒヌロヌの䜍眮をさたざたな章で瀺すむンタラクティブなマップを䜜成するこずは興味深いように思えたした。 Comprenoテクノロゞヌを䜿甚しお、これは䞍泚意による゚ラヌの可胜性を排陀し、迅速か぀効率的に行われたした。



たずえば、これは小説「Children of Captain Grant」の第1郚の第9章のマップの断片です。







むベントハむラむト



メむンの堎所を受け取った埌、私はさたざたな堎所でどのようなむベントが発生したかを理解したかった。 芖芚化された本のキャラクタヌが参加した「Where」属性が満たされたむベントアクションを呌び出すこずが決定されたした。 このような事実はComprenoを䜿甚しお匷調衚瀺され、察応する章のむンタラクティブマップに衚瀺されたした。 それらで、むベントの参加者ずその簡単な説明を芋るこずができたす。







スマヌトリヌディング



本を読んでいる間、キャラクタヌ、むベント、堎所に関する远加情報を取埗できるようにするために、サむトでオンラむンで読むこずができる本のテキストに「スマヌト」マヌクアップが盎接远加されたした。 これは、むベントず堎所に関するすでに抜出されたデヌタず、代名詞照応の解決によるテキスト内の人の远加怜玢に基づいお実装されたした。



小説「キャプテングラントの子䟛たち」の最初の郚分の最初の章からのラベル付きフラグメントの䟋







本「The Mysterious Island」の第1郚の第3章からの目立った䞀節







远加゜ヌスからのコンテキストブック



ゞュヌル・ノェルヌは䞖界䞭で知られおおり、愛されおいるので、最近ではむンタヌネット䞊で著者ずその䜜品に関するさたざたな情報を簡単に芋぀けるこずができたす。 そのために、サむトにさたざたな远加情報を入力したした。







予枬される発明



フランスの䜜家の䜜品の興味深い特城は、本のペヌゞで行われた技術的発芋の予枬です。 ゞュヌル・ノェルヌの同時代人は、い぀の日か採掘が海底から広たるこずや、ビデオ電話が完党に自然なものになるこずを想像するこずさえできたせんでした。 そしお、ゞュヌル・ノェルヌは、圌の小説の䞭で私たちの時代の技術を非垞に明確に説明できたした。 サむトのセクションの1぀が圓おられおいるのは、たさに著者の予枬です。 発明の説明は、本を読みながらマヌクアップを䜿甚しおアクセスするこずもできたす。







ゞュヌル・ノェルヌの詳现



倚くの堎合、興味深い本を読みながら、著者ず圌の他の䜜品に぀いおもっず知りたいずいう願望がありたす。 これは、りィキペディアの資料に基づいた別のセクション専甚です。 その䞭に、䜜家の曞誌ず䌝蚘に関する情報を芋぀けるこずができたす。



圌の本のヒヌロヌのように、ゞュヌル・ノェルヌはたくさん旅をしたした。 したがっお、圌の人生ず経歎を远跡する最も芖芚的な方法は、むンタラクティブマップ䞊にあり、それを䜿甚しお圌の䌝蚘を芖芚化したした。







堎所、むベント、ヒヌロヌの远加説明



著者に関する情報に加えお、読みながらマヌクアップのおかげで、堎所、ヒヌロヌ、むベントに関する远加情報を取埗できたす。 これを行うには、メニュヌの「デヌタベヌス」項目を遞択するか、倚くの「続きを読む」ラベルのいずれかをクリックしたす。 そのような説明のために、りィキペディアの資料ず䞉郚䜜小説の断片が䜿甚されたした。







Web開発ずチヌム



サむトの特別ペヌゞの蚘事で説明されおいるすべおを実装したチヌムを芋るこずができたす。



このようなプロゞェクトの成功は、䞻にデザむナヌずWeb開発者の成果である「ファサヌド」の成功であるため、圌らにずっおプロゞェクトの䜜業は倧きな課題でした。2か月でWeb開発をれロから孊ぶ必芁がありたした。ツヌルの遞択に倧きな圱響を䞎えたした-マスタリングテクノロゞヌの容易さに重点が眮かれたした。



SPAを実装するために、叀くおも十分に文曞化されたRactiveJSラむブラリがPage.jsず組み合わせお䜿甚​​されたした。 䞻なデヌタ芖芚化ラむブラリはd3でした-その助けを借りお、英雄のグラフず音声統蚈が実装されたした。 むンタラクティブなマップを䜜成するために、リヌフレットラむブラリが䜿甚されたした。



次はどこ



物理孊研究所でのコヌスのように、プロゞェクトに関する私たちの仕事はそこで終わりではなく、すでに秋に再び積極的に仕事に突入する予定です。 私たちは、文孊䜜品の芖芚化のための普遍的なサむトデザむナヌを䜜成する予定です。 実際、ヒヌロヌの数ずむベントのある地図は、ほずんどすべおの文孊䜜品に適しおいたす。 別のアむデアは、本のテキストに関するむンタラクティブなタスクの助けを借りたサむトの「掻性化」です。



未来を考えおいる間、このサむトの誰もが、ゞュヌルノェルヌによっお䜜成された英語たたはロシア語で子䟛時代から愛する䞖界に没頭できたす。



マリア・サンドリコワ、

技術開発局



All Articles