戊争、平和、ABBYY Comprenoトルストむずの関係の継続

最近、 「ワンクリックですべおのトルストむ」プロゞェクトがどのように行われたかに぀いおここで話したした 。 3249人のボランティアず1぀の優れたOCRテクノロゞヌを䜿甚しお、䜜家の90巻の収集された䜜品の46,820ペヌゞをデゞタル化し、泚意深く読んでパブリックドメむンに掲茉したした 。



しかし、「トルストむずのロマンス」がそこで終わったず思ったら、あなたは間違っおいたした-䜜家のテキストをデゞタル化したので、ABBYY Compreno情報抜出技術を䜿甚しおそれらを研究し始めたした-そのような豊富な資料に倱われないように。 「トルストむのテキストマむニング」が私たちに䞎えたものず、結果が珟圚䜿甚されおいる堎所に぀いお読んでください。



はじめに



「ワンクリックですべおのトルストむ」プロゞェクトの䞻な目暙は、トルストむの䜜品を真に公開し、圌のペンの䞋から出おきたすべおのテキストに、䞖界䞭のどこからでもワンクリックでアクセスできるようにするこずでした ちなみに、著者自身は生涯にわたっお圌のテキストに察するすべおの暩利を攟棄しおいたので遺莈したしたはい、匿名、レオトルストむはこれらのむンタヌネットずリチャヌドストヌルマンのずっず前にコピヌレフトずオヌプン゚ンドを知っおいたした 。



ただし、曞籍を䟿利な圢匏でリヌダヌやタブレットにアップロヌドする機胜は、デゞタル化の唯䞀の利点ではありたせん。 珟圚、トルストむのテキストは読むだけでなく、「枬定」、぀たり、自動テキスト凊理ツヌルAOT、NLPずも呌ばれるのすべおを䜿甚しお、さたざたな定量的方法を䜿甚しお調査するこずもできたす。 結局のずころ、1぀たたは2぀の有胜な怜玢ク゚リの助けを借りおも、すべおの䜜家のテキストを電子圢匏で持っおいる堎合、文孊評論家が他の時間に䜕週間も䜕ヶ月も費やす興味深いデヌタを埗るこずができたす。 たた、自然蚀語分析の高床な技術をお持ちの堎合は、蚀語孊者でなくおも深刻な蚀語孊的発芋を行う可胜性がありたす。 以䞋で、私たちが䜕を枬定し、孊べるかを説明したすが、その前に、誰が、どのように、なぜ文孊テキストの自動凊理に関䞎しおいるのか、この堎合に䜕が興味深いのかに぀いお少し説明したす。



叙情的な䜙談遠い読みず蚈算語孊



2010幎、Googleは䞖界で1億3千䞇冊の曞籍を数え、これらの統蚈は「少なくずも日曜日たで」に起因しおいたした。 今日、圌らはおそらく数癟䞇人以䞊です。 これ自䜓は問題ではありたせん。したがっお、12才の10代で1週間に癟科事兞に熱心に取り組んでいない限り 、「すべおに関するすべお」を読むこずは悪い考えであるこずは明らかです。 さらに悪いこずに、ある瞬間から、1぀の狭いトピック内の曞籍のリストでさえ、たずえば1぀の文孊的な方向性が耐えられなくなりたす。 たずえば、ビクトリア朝のむングランドだけで、60,000を超える芞術䜜品が制䜜されたした。 その時代の文孊を意図的に研究し、このコレクションの少なくずも1パヌセントを習埗した孊者さえほずんどいたせん。



この問題に察する可胜な議論の䜙地はあるが解決策は、衝撃的な批評家であり、珟圚スタンフォヌド文孊研究所を率いる元ネオマルクス䞻矩者フランコモレッティによっお最初に提䟛されたものの1぀でした。 圌は、今日の文孊者は「本を読むのをやめお、本を読んで、地図を描き、芖芚化するべきだ」ず述べた。 定期的な読み取り詳现な読み取りに察しお、モレッティは「離れた」読み取り遠隔読み取り、぀たり、テキスト軍団、統蚈、グラフ化などの自動分析ずは察照的です。 圌の意芋では、これが文孊批刀を「客芳的」にし、「途方もなく小さな」サンプルから匕き出された結論を避けるこずができる唯䞀の方法です。 「遠隔読曞」の粟神で蚭蚈されたスタンフォヌド文孊研究所の研究結果は、 ここで芋るこずができたす 。



Comprenoを䜿甚したリモヌトリヌディング



スタンフォヌド倧孊の研究者は、ほずんどの堎合、最も単玔な統蚈を䜿甚したす。たずえば、単語やN-gramの頻床、テキスト党䜓での分垃などです。 最初から、単玔なCtrl + Fで匕き出すこずのできない文孊テキストのそのような偎面を研究するこずにしたした。 たずえば、ヒヌロヌのスピヌチアクティビティナタヌシャロストノァたたは他のキャラクタヌが䜕かを蚀った回数をすぐに数えるようにしおください。 すぐに、このために、たず代名詞の照応を自動的に解決できるず䟿利ですたずえば、 「 ナタヌシャがドレスを着るようになりたした。-今、パパ、行かないで」 、圌女は父芪に叫んだ 、第二に、「話す」ずいう事実を衚珟できる動詞のセットを䜕らかの圢で制限しそしおそれらは非垞に倚様である、第䞉に、少なくずも自動圢態孊ずより良い構文語順は自由で、 「 圌は決しお聖人を祝犏しなかった 」のような䟋で話者を芋぀けるのはずおも簡単です。 圌らの子䟛たちの、そしおただ、今でもただ剃っおいない圌女の剛毛の頬を代わりに、厳しく同時に泚意深く圌女を芋お蚀った「あなたは健康ですか..よく、座っおください 」。



幞いなこずに、これらはすべおComprenoで既に「配線」されおいたす。 パヌサヌが発行する構文セマンティックツリヌには、誰が䜕をどのように蚀ったかに぀いおの必芁な情報がすべお含たれおおり、構文および語圙の同音異矩語はすでに削陀され、代名詞の照応が解決されおいたす。 たずえば、そのようなフラグメントで「 本圓に -アンナ・ミハむロフナを叫んだ。 -ああ、これはひどいです 考えるのは怖い...これは私の息子で、ボリスを指しおいたす。 「圌自身があなたに感謝したかった 」あなたは圌女が誰であるかを理解し、倚倀動詞addの意味クラスを正しく定矩する必芁がありたす。 Comprenoは䞡方のタスクに察凊したす-これは、サブツリヌが「 ボリスを指しお远加された」 を探す方法です。







このようなツリヌから文字の蚀及ずそれらに関する必芁な情報を取埗するには、情報を抜出するためのメカニズムを䜿甚したす。 深い構文ずセマンティック階局に䟝存しおいるため、1〜2の朚材パタヌンを持぀倧芏暡なケヌスをカバヌできたす。 たずえば、このような構造を探すルヌル







次のようなさたざたな䟋で動䜜したす。



「私にキスしたいですか」 圌女はささやき、ほずんど聞こえお、圌女を目の䞋から芋぀め、埮笑み、ほずんど興奮しお泣いた。

デニ゜フ、これで冗談を蚀うな、 ロストフは叫んだ 。

静寂、静寂、静寂ではないですか -どうやら死にかけおいる兵士よりも苊しんでいるず、䞻暩は蚀っお、去りたした。

叔母は喉をきれいにしお飲み蟌み、フランス語でヘレンに䌚えおずおもうれしいず蚀いたした。



スピヌチ掻動に加えお、トルストむのヒヌロヌの行動のいく぀かの他の偎面を調査したした。 以䞋に、私たちが䜕を芋぀けるこずができたかに぀いおお話したす。



衝動的なナタヌシャ・ロストワず穏やかなアンドレむ・ボルコンスキヌComprenoを䜿甚しお理解できたこず



たず、「戊争ず平和」の各キャラクタヌが発蚀する回数を蚈算し、絶察数で最も「おしゃべりな」キャラクタヌを䜜成したした。 小説の内容に粟通しおいる人、圌は驚くこずはほずんどありたせん







ここで、呚波数は、明らかに、キャラクタヌの「䞭心性」の指暙にすぎたせん。



受信した数倀をテキスト内の参照の総数に正芏化するず以前に䜎すぎる頻床のヒヌロヌが削陀された堎合、䞊䜍の倉曎が顕著になりたす。







今、䞀番䞊にいるPetya Rostovは、第1巻では感情的でおしゃべりな子䟛で、第4巻では熱狂的な若いティヌン゚むゞャヌです圌自身の死たで。 次は3人の女性キャラクタヌです-メアリヌ王女、静かで控えめで厳しい父芪に疲れ果おおおり、䞻に他のキャラクタヌずの䌚話や内郚の独癜から孊びたす。ナタヌシャ・ロストワは、読者が小説党䜓でレプリカを聞く即時か぀掻気のあるヒロむンです圌女ぱピロヌグで13歳です-29、そしお掻発な興味をそそるアンナ・ドルベツカダは、提出する必芁のある人を吹き飛ばすこずができたす。



ここで、トルストむは各キャラクタヌに圌自身のスピヌチスタむルを装備するこずが重芁だず考えたず蚀わざるを埗たせん。これは圌の創造的な方法の䞀郚でした。 圌は、シェヌクスピアに察する有名な嫌悪さえも説明したした「シェヌクスピアには、キャラクタヌを描写する唯䞀の手段ではないにしおも、䞻芁な蚀語がない」ず蚀われおいるため。それは、各人が自分のキャラクタヌに特城的な独自の蚀語を話すこずです。」 そのため、次の段階では、キャラクタヌの音声が安定しお倉化する重芁なパラメヌタヌをいく぀か匷調しおみたした。



最初の明らかなパラメヌタヌは、感嘆笊ず疑問文の数です。 質問、感嘆笊、およびその他すべおの条件付きで䞭立的なスピヌチの比率により、キャラクタヌに぀いおすでにかなり理解できたす。 3人の若いロストフ、アンドレむ・ボルコンスキヌずピ゚ヌル・ベズホフを比范しおください。 予枬可胜な感嘆のチャンピオンはペトダ、ロストフの最幎少です。







ナタヌシャはペティアより幎䞊で、もう少し抑制を瀺しおいたすが、それでも非垞に感情的なたたで、圌女のスピヌチの3分の1だけが条件付きで「䞭立」です







プチずナタヌシャの兄であるニコラむは叫び声を䞊げお尋ねるが、䞭立的なスピヌチの半分は十分ではありたせん-すべおのロストフのように、圌は非垞に感情的です







もう1぀のこずは、冷静な軜contず感情を芪密な人々の茪だけに瀺しおいる䞖俗瀟䌚に属する、完璧に味付けされた誇り高きアンドレむ・ボルコンスキヌです匷い意志のあるノィダチェスラフ「スタヌリッツ」チホノフがオスカヌ受賞映画の適応で圌を挔じたのは䜕の理由もありたせんでした。 ボルコンスキヌはほずんど声を出さず、圌は比范的小さな質問をしおいたす。







ピ゚ヌル・ベズホフは、おそらく小説の最も反射的なキャラクタヌです。 圌は明らかにアンドレむ・ボルコンスキヌよりも感情的ですが、ロストフ䞀族党䜓のような「感嘆笊」の方向には向いおいたせん。 ピ゚ヌルはめったに叫びたせんが、圌は非垞に幌皚な盎接のペティアずナタヌシャずほが同じくらい頻繁に尋ねたす







たた、Comprenoの助けを借りお、Tolstoyが話すずいうたさにその行為の特性を簡単に埗るこずができたす。これは䞀皮のパラメヌタヌずしおも機胜したす。 ほずんどの堎合、このような特性は、話す動詞に付けられた分詞の圢で衚されたす ピ゚ヌルは叫び、テヌブルで決定的で酔ったゞェスチャヌで打぀ たたは前眮詞cのむンストゥルメンタルケヌスに远加したす プリンスノァシリヌは以前よりも頬をさらにひき぀らせお尋ねたした 。 䟋えば、豊かで重芁で利己的な王子ノァシリヌ・クラギンのスピヌチは、圌の倖芳が特城づけられる hisげた頭をこすり、フリルをたっすぐにする か、隠された意図、キャラクタヌの特城、魂の動き 圌は信じたくさえなかったので、動かしたテヌブルを怒っお自分自身に動かした ; アンナ・ミハむロフナ・ドルベツカダは、圌女が䜕かを必芁ずするヒヌロヌの前で氞遠に忍び寄っおいお、しばしば「埮笑む」たたは「笑顔で」ず蚀いたす。 phになり、垞に眠いクトゥゟフでは、話すこずはしばしば頭の動きを䌎う圌は圌女にうなずくか、圌女を䞋げる 。



繊现なマリダボルコンスカダずピ゚ヌルの継承に関する陰謀「戊争ず平和」の深い構文



次のマむクロスタディでは、私たちは自分自身を発話掻動に限定せず、テキスト内のヒヌロヌの「掻動」のすべおの状況を考慮するこずにしたした。 これを行うために、キャラクタヌがさたざたな述語に該圓する深い䜍眮の統蚈を収集したした。 Comprenoツリヌの深い䜍眮はセマンティックロヌルに䌌おいたす 。たずえば、ヒヌロヌがアクティブなアクション話す、歩く、撃぀、打぀を実行するず、゚ヌゞェントの䜍眮に萜ちたす。 倖的圱響の受動的オブゞェクトの圹割で衚瀺される堎合scられたり、運転されたり、beatられたり、賞賛されたり、愛されたり、オブゞェクトオブゞェクトの䜍眮に萜ちたす。知芚、芋る、聞く、感じる、たたは、䟋えば䜕かを愛するなら、それは実隓者になりたす経隓者; 圌女がメッセヌゞの宛先ずしお機胜する堎合 圌女はPierreに語った 、圌女は宛先の䜍眮に萜ちたす。 他の䜍眮もありたすモデルには玄500個ありたすが、ここでは、述語の䞋に衚瀺される可胜性のある最も䞀般的な䜍眮のうちのいく぀かのみを䜿甚したす。



深い䜍眮は、発話の状況における参加者の意味的な圹割を正確に反映し、文の特定の実装に盎接䟝存しないこずが重芁です。 したがっお、 ピ゚ヌルはナタヌシャを愛し 、 ナタヌシャは ピ゚ヌルに愛されたずいうフレヌズで、 ピ゚ヌルは実隓者、ナタヌシャは担保に関係なくオブゞェクトです。



深い䜍眮の統蚈により、キャラクタヌのキャラクタヌの違いに関する情報を埗るこずができ、読者が小説を知ったずきに圢成されるむメヌゞに「客芳的」な確認を䞎えるこずがわかりたした。 「戊争ず平和」の第1巻の䞻人公の遞択された深床䜍眮のシェアが衚瀺されおいる図を芋おみたしょう。







䞀般的に、頻床分垃は䌌おおり、予想通り、すべおのヒヌロヌの最も頻繁な䜍眮ぱヌゞェントであるこずが刀明したした。 ただし、ここでの広がりは非垞に倧きく、プリンセスマリアの40.7、ボリスドルベツコむの44.6からアンナドルベツカダの68.3です。 これらの3぀の「極端な」キャラクタヌは興味深いものです。



メアリヌ王女は、たず第䞀に、異垞に高い頻床で実隓家の地䜍に就いたこずで有名です。 䜎頻床の゚ヌゞェントの䜿甚ず組み合わせお、これは私たちに敏感なキャラクタヌのポヌトレヌトを䞎えたすが、効果はほずんどありたせん。 アンドレむ・ボルコンスキヌの効は、父芪ず䞀緒に、専制君䞻であり専制君䞻であるキャサリンの将軍であり、リゞヌ・ゎリヌの土地で「䌑むこずなく生きる」。兄ずガヌルフレンドのゞュリアず連絡を取りながら、巡瀌者ずコミュニケヌションを取り、代数ず幟䜕孊を行う。王子様。 他のヒヌロヌがボヌルドマりンテンを蚪れたこずに関連しお、読者の芖野にのみ衚瀺されたす。 文孊者は、マリアダ王女のむメヌゞは18䞖玀の感傷䞻矩の匷い圱響䞋でトルストむによっお䜜成されたず考えおいたす。



゚ヌゞェント䜿甚のシェアにおけるアンナ・ドルベツカダのチャンピオンシップも、最初のボリュヌムのプロットによっお簡単に説明されたす。 小説の冒頭でこの高貎な姓の非垞に控えめな䞭幎の女性は、掻発な掻動を展開し、その最終目暙は圌女の䞀人息子ボリスの幞犏ず昇進です。 圌女は、「頭の䞭に䜕かを入れた埌、垌望を果たすたで遅れない、そうでなければ毎日、现かいハラスメントの準備ができ、さらには舞台に立぀女性の䞀人、特に母芪」ず蚀われおいたす。 。 最初に、アンナ・ミハむロフナは裕犏で圱響力のあるノァシリヌ王子を包囲し、息子を看守に移すこずを望み、次にベズホフ䌯爵の盞続財産を圌に匕き付け、同時にロストフからお金を匕き出しお「ボリスを装う」こずに成功した。



ボリス自身はただ母芪ほど冷笑的で噚甚で貪欲になっおいない-これは次の巻で起こるだろう。 圌は自分のプラむドを乗り越えたくないので、重芁な人々ぞの蚪問䞭にアンナ・ミハむロフナの「甘い」、「愛情深い」、「泚意深い」ずいう芁求に抵抗し、受動的な察象ずしお行動するこずに非垞に消極的です。 ボリスの受動性は、オブゞェクトの深い䜍眮の倧郚分を占めるグラフに反映されたす。



ナタヌシャのスマヌトフォンの「倪い銖」戊争ず平和を蘇らせたす



文孊を「数えよう」ずする詊みは、しばしば、著者が蚈り知れないものを枬定し、それによっお叀兞の䞍滅の䜜品を䞖俗化し、陀名しようずする粟神に批刀を匕き起こしたす。 興味深いこずに、そのような告発は100幎前に行われたした。 「䜜品自䜓を研究するこずは、それを解剖するこずであるず信じられおいたした。そのためには、ご存じのように、たず生き物を殺さなければなりたせん。 私たちはこの犯眪を絶えず非難しおいたした」ず、1921幎の文芞批評における圢匏的手法の最倧の代衚の1人であるボリス・アむヘンバりムを曞きたしたそしお圓時の圢匏䞻矩者は、コンピュヌタヌの発明よりもずっず前に理論的に遠い読曞を発明した人々のようなものでした圌は実際に。



小説を「殺した」ず非難されないように、正反察のこず、぀たりその埩掻をするこずにしたした。 この目的のために、私たちは経枈孊郚の同僚ずずもに、Samsung Live Pagesモバむルアプリケヌションの開発に参加したした。このアプリケヌションは珟圚、ABBYY Comprenoに基づく情報抜出システムの結果を䜿甚しおいたす。



「ラむブペヌゞ」アプリケヌションは、芞術䜜品ずそのキャラクタヌを探玢するためのいく぀かの非暙準シナリオを実装したす-むベントず運呜のタむムラむン、カヌドずキャラクタヌの匕甚、小説の゚ピ゜ヌドに堎所を結び付けるむンタラクティブマップ。















これはすべお、ゲヌムスタむルで䜜成されたむンフォグラフィックに基づいおおり、私たちのように、10幎生のガゞェットマンにADDをフックする機䌚は、孊校の叞曞が圌に委ねる分厚いボリュヌムよりも倚くなっおいたす。















匕甚本の英雄のスピヌチに加えお、コンプレノは、タむムラむンの日付、地図の堎所、および゚ピ゜ヌドを抜出するために䜿甚されたした-トルストむは圌のキャラクタヌに報酬を䞎えるのが倧奜きでした。 もちろん、誰もがボルコンスキヌの劻である小さな王女のアンテナを芚えおいたすが、最も玠晎らしいハンサムなアンドレむは「小さなぜっちゃりした手」そしおこれを小さな身長ず組み合わせたを持ち、優雅な薄いナタヌシャ・ロストワは「倪い銖」を持っおいるず思った人がどれくらいいたかそしお「倧きな口」



















誰でもアプリケヌションをダりンロヌドしお、同じ粟神でさらに倚くの発芋をするこずができたす。 その間、私たちの研究に戻り、コンプレノの助けを借りおテキストを「解剖」し続け、その䞭の新しい予期しないものを探し、圌の䜜品を䞍滅にした神秘的な「トルストむコヌド」を明らかにしたす。



All Articles