「りクラむナ語の呚波数分析」ずいうメモに関する解説

蚘事「りクラむナ語の頻床分析」[1]の解説ずしお、文字ペアの頻床に関する簡単な芳察結果が瀺されおいたす。 開発した手法をテキストの分析に適甚するこずが提案されおいたす。 䞻な仮説倚くの幟䜕孊的に接続されたシンボルクラスタは、著者情報やその他の重芁な積分デヌタに関する情報を保持しおいたす。



特に、ネむティブスピヌカヌフォヌラムなどのさたざたなコミュニティに同じスペクトルのダむグラムを期埅するのは理䞍尜に思えたす。



やる気


りクラむナ語の頻床に関するメモの著者は、圌の蚈算の動機を䞎えおいたせん。 文字の頻床、および蚀語内のペア、文字のトリプルの分析は、単玔なパスワヌドの解読ず同様の暗号解読タスクの目暙によっお開始されたようです。



箄6〜7幎前、友人ず私は同じような、しかし野心的ではない蚈算を行いたした。 私たちの動機はアマチュアで原始的でしたが、異なっおいたした。 私たちが信じおいたように、これらの蚈算は、テキストから人にずっお意味のある情報の遞択を機械で決定しようずする詊みの最初のステップになる可胜性がありたす。 埌に、圌らは、最も興味深い郚分で、オリゞナルではないこずが刀明したした[1-3]。



画像



マシンは「読む」こずができ、文字や句読点の文字を知っおいお、頻床を数えるこずができるなどず想定されおいたした。 しかし、圌は、テキスト党䜓に関する䞀般化された䞍可欠な情報を埗るために、特に「考える」方法を知りたせん。 善悪ずは䜕か、䜕が誰ず議論されおいるかなど タスクは、テキストの構造を調べ、文字レベルでは埋め蟌たれおいない頻床から意味のある情報を抜出できる「アルゎリズム」を遞択するこずです。 人間の芳点から、たずえば、孊習䜓隓をオフにしお、私たちにははっきりしない連続したキャラクタヌのグルヌプの意味を理解しおみおください。 たずえば、a、b、cなどのすべおの文字をx、y、z、アルファ、ベヌタ、ガンマ、たたはより適切にはバビロニアのりェッゞずしお゚ンコヌドしたす。 その埌、テキスト党䜓に぀いお䜕が蚀えるかを尋ねたす。 明確ではありたせんが、ほが同じ分野で問題はDNAを取埗し、4文字の長いシヌケンスで「意味」を芋぀けるこずであるず考えられおいたす。



非垞に狭い意味での重芁な情報は、テキストず他のテキストずの類䌌性、著者、テキストのリズムず速床などです。 私たちはそのような原始的な問題を解決するこずであたり進歩するこずができたせんでした。 いく぀かの所芋がありたすが、さらに倚くの質問がありたす。 このタスクは意味があり、郚分的に解決可胜であるず信じたいです。 単玔な掚定英語のテキストに基づくの埌、このような原始的な呚波数解析を行いたした。 最初に、D。Londonの同名の小説に登堎するWhite Fangキャラクタヌセットの倖芳図を芋おみたした。 最初の郚分の犬の名前は完党に欠けおいたした そしお、本の䞻芁郚分である小芏暡では、もちろん、単語の密床の倉動はノむズに圧倒されたした。 しかし、小説の冒頭にある「White Fang」ずいう単語の厳密にれロの頻床がプロットず盞関しおいるこずは明らかでした。 䞻人公が生たれおいないか、そのように呜名されおいないか、小説がいく぀かの郚分で構成されおいる牙に぀いおか牙に぀いおではないかのどちらかずいう明確な感芚がありたした。 このような結論を厳密ず呌ぶこずはおそらく䞍可胜です。 それにもかかわらず、「癜い牙は最初の章で蚀及されおいない...」ずいう蚀葉は、テキストに関する人間の反応の通垞の郚分であるず考えられおいたす。 䞍完党で、原始的なだけでなく、マシンの「分析」にも数ミリ秒かかり、アルゎリズムはたったくありたせんでした。 第二に、最埌のハリヌ・ポッタヌの本のキャラクタヌ名の出珟の統蚈は、頻床ず、い぀、誰ずハリヌが近づいたかテキストでは幟䜕孊的に、しかし意味では刀明したでのみ远跡するこずが非垞に可胜であるこずも瀺したしたロンずホグワヌツは、ノォルデモヌトが登堎したずきなど、ハリヌからプロットを萜ずしたした。 ぀たり 「ハリヌ」ずいう蚀葉を取り、ペヌゞ䞊の幟䜕孊的な近隣の他のキャラクタヌの密床を芋るず、「プロット線」に぀いお非垞に曖昧で曖昧な結論を匕き出すこずができたす。



技術的な挑戊


䞻人公を識別するための最初のステップは、文字の頻床を研究するための技術の開発です。 この最初のステップで、私たちの業瞟は抂ね終わりたした。 圓時のむンタヌネットは高額だったため、フォヌラムやメディアの培底的な分析は行いたせんでしたが、レオトルストむの小説からダリアドンツォノァの探偵たで、1人の著者による本を含むテキストファむルを取りたした。 合蚈で300Kbから数癟冊の本がありたした。 グラフォマニアックな䜜家が個々の文字の頻床で圌らの䜜品に明らかな盞関関係を持っおいたこずは興味深いこずが刀明したした。 特に、文字のスペクトル系列は、「むロニック探偵」の倚䜜な著者を瀺しおいたした。



次のステップは、隣接する文字のクラスタヌを調査するテキストのスペクトル構成をテストするこずでした。 特に、最も単玔なゞオメトリで問題を蚈算したした。最も近い有効な文字「aa」、「ab」、「av」、...、「yaya」のペアの正芏化された頻床です。 シンボルペアの最も頻床の高い組み合わせの䞭で、最初の30〜60が区別され、異なるテキストで比范されたした。 盞察指暙-頻床をペアの合蚈頻床で割ったものが考慮されたした。 300〜400 Kbのテキストの問題の統蚈的合蚈は非垞に倧きいこずが刀明したした。 より具䜓的には、䞉郚䜜「子䟛時代」、「思春期」、「若者」の頻床が取られ、それに察しお他の䜜品の頻床の倉動が芋られたした。 結果は、特に、ロシアの文孊蚀語の創始者によっお認識された著者の間でさえ、異なる著者の間でスペクトルの倧きな違いを瀺したした。



これたで知らなかったロシア語のしっかりず確立された「法埋」の1぀は、すべおのテキストの倧きさの順序でのテキスト内のコンマの数が、最も頻繁に発生する隣接文字のペアの数に匹敵するずいう事実です。 これは原始的な知識である可胜性がありたすが、私たちにずっおは「発芋」であり、少なくずもその重芁性は匷調されおいたせん。



残りの芳枬はそれほど正確ではありたせんでした。 特に、同時代の䜜品初期のチェヌホフ、たたは埌期のチェヌホフ、初期のトルストむたたは埌期の優れた䜜家は、目を匕くスペクトル曲線さえ持っおいたした。 ただし、これらの著䜜暩曲線は他の著者の曲線ずは異なりたした。 珟代の䜜家に関しおは、 圌らのテキストの曲線の盞関関係は、この䜜家がより「ゞャンク」ず芋なされるほど匷くなりたした。 この結論はいく぀かの䟋に基づいおなされたものであり、厳密ではありたせん。 たずえば、サミダットの新人のさたざたなグラフォマニアの䜜品の曲線は、ほが重なり合っおいたした。 同じこずは、たずえば、アクニンのファンドリン、初期および䞭期のルキダネンコの空想科孊小説、マリニンの探偵など、より高床な䜜品にも蚀えたす。 クラシック、特にドスト゚フスキヌは自分自身に非垞にひどい嘘を぀いた。 特別な最埌の期間であるトルストむの小説は、著者のスペクトルからノックアりトされたした。 すべおの著者を説明するために、曲線を著者クラスに分離するために、曲線の近接性の異なる定矩を詊す必芁がありたした。 ただし、䞀般に、スタむル決定手法は機胜したした。 ほずんどの堎合、異なる著者のスペクトル曲線を互いに分離するこずができたした100人を超える著者。



私たちのアプロヌチでは、3぀の隣接する文字のクラスタヌを含めおも、著者のスタむルの定矩に重芁な定量的修正は加えられたせんでした。 の違い

句読点の頻床。 Khmelevずフォロワヌの䜜品では、トラむグラムが基瀎ずしお採甚されたした[2-4]。 「1぀を介しお」ペアをカりントするずき、および他の簡単な修正で構造も芳察されたせんでした。



隣接する文字のペアのクラスタヌがテキストで倚くのこずを明らかにする理由、これは䞀般的に謎です。 頻床に関する元の投皿ぞのコメントには、次のようなコメントがありたした。

ロボテックス

ちなみに、誰かが音玠シヌケンスを倉換する方法を知っおいればそれによっお、それらを繰り返すこずができたす、぀たり、単語momはプログラムをmmmmmmmaaaaaaaammmmmmmmmmaaaaaaずしお認識したす、それから私はそれを読んでうれしいです今のずころ停止したした



元の質問を正しく解釈しおいない可胜性がありたす。 ただし、この䟋では、䞀連の文字の重芁な郚分を匷調衚瀺する際に、文字の正確なペアの重芁性を明確に瀺しおいたす。 ペアを怜蚎するず、倧きな蚀葉で「mm」、「ma」、「am」、「aa」のクラスタヌがあるこずがわかりたす。 䜎頻床の「mm」ず「aa」を折り返すず、2文字の組み合わせがすべおカりントされる堎合、「ma」ず「ma」、たたは「ma」、「am」、「ma」になりたす。 「mother」ずいう単語は、 2文字の高呚波パケットの芳点から、mmmmmmmaaaaaaaammmmmmmmmaaaaaaa ず同じスペクトルを持っおいるこずは明らかです。 元のパスワヌドを掚枬しおパスワヌドを解読するには、もちろんこれは圹に立ちたせん。 ノむズクリッピング、元の分析の芳点から、それはうたくいくようです䜙分なaずmは新しい情報を䌝えたせん。



意味の面では、ロシア語で単語を文字のペアに分割するこずは、音節に分割するこずにかなり近いです。 ひらがなのようなアルファベットがあり、正確なペアには基本芁玠の意味があるこずに泚意しおください。 「頻床」ずいう蚀葉を䜿甚したす他のものも䜿甚できたす。 ペアクラスタヌのアプロヌチでは、「cha」、「ac」、「that」、「from」、「us」、「oh」に分かれたす。 たれな䟋倖nnなどを持぀子音ず子音のペアは、バックグラりンドずのマヌゞによりスペクトルから倖れたす。 倧ざっぱに蚀えば、子音ず子音のペアを捚おるこずができ、原䜜者ずスタむルに関する結論は倉わりたせん。 したがっお、子音ず母音のペアのみが残りたす。これは、蚀語によっお䜜成された音に察応したす。 句読点吞入や呌気の時間などを含めるこずで、おそらくペアの分析が音節や口頭での䌚話の分析にさらに近づくでしょう。



昔ながらのコマヌサント語たたはりクラむナ語「i」、ロシア語たたはりクラむナ語の蚀語は、この著者のスペクトル曲線に圱響を䞎えなかったずいう結論も楜しかったです䟋ずしおは、ブニンのみが取り䞊げられ、著者に関する統蚈はありたせん。 原䜜者およびテキストのスタむルに察する英語からの翻蚳の効果を怜蚌するこずはできたせんでした。 英語のテキストのみの分析は、ハリヌ・ポッタヌずゞャック・ロンドンのいく぀かの䜜品に限られおいたした。 繰り返したすが、統蚈は収集されたせんが、これら2人の著者の2぀の象城的な盞関関係も衚瀺されたした。



最初に、むンタヌネットでの怜玢でも、マルコフ自身が興味を持ったMorovozym [1]を含むテキストの頻床の同様の分析が前䞖玀の初めから行われおいるこずを瀺したため、タスクを攟棄したした。 このスコアにはフォメンコフ䞻矩もありたした。 トラむグラムに基づいおテキストの原䜜者を決定する可胜性に぀いおのたさに結論は、D。Khmelevによっお2000幎の領域ですでに定匏化されたした[2,3]。 他の著者による䜜品がありたした。たずえば、[4]を参照しおください。 もちろん、Khmelevの䜜品には、テキスト䞍倉量、マルコフ連鎖、遷移行列の察角化などに関する単語が含たれおいたした。 実際、スタむルを決定するための最も䞀般的な文字のトリプルの重芁性に぀いお、同様の声明が出されたした。 これらの䜜品には倚くの質問がありたす。 ドスト゚フスキヌがどのように、䟋えば䞉gram星によっお捕らえられるかは、私たちには明らかではありたせん。 等



数孊甚語がなくおも、文字のペアは倚くの著者にずっお非垞に類䌌したスペクトルグラフを䞎えるこずがわかりたす。 定量的には、著者の範囲の数倀は、2぀のグラフの近接性がどの皋床正確に決定されたか、2次誀差がポむントワむズ、キュヌビックなどのいずれで取埗されたかに倧きく䟝存したした。 しかし、これらは詳现です。 「スタむル」のパタヌンが文字ず句読点のペアのレベルにあるずいう事実は非垞に明癜です。 小説が「プロゞェクトの黒人」によっお曞かれたずき、䟋に明瀺的なパンクが芳察されたした。 翻蚳された本も問題でした。



䞀般に、6幎前の結論は、これらのタスクはすべおオリゞナルではなく、「研究」を続ける意味はないずいうものでした。 もちろん、このような呚波数はサむトでここで議論された可胜性がありたす。 私たちが気づいたのは、ダむグラムの分析においお、句読点を考慮しお著者の重芁な違いが埗られるこずでした。 ある皋床、句読点の割合はテキストのペヌスの尺床です。 トラむグラムを考慮する堎合、句読点は統蚈に含たれない可胜性が最も高く、これは、私の意芋では、重芁な情報の間違いず損倱です。



蚀語がいく぀かの蚘号の頻床のみで構築され、客芳的な量的特性ず法則が存圚しないずいう事実は、非垞に䞍十分に信じられおいたす。 過去数幎間の分析の耇雑さのため、誰も芋おいないず信じられおいたす。 しかし、テキストの組織化の原則、ロシア語の蚘号の幟䜕孊のさらなる調査では、明らかな結果は埗られたせんでした。 たずえば、仮説の1぀は、同じ文内の同䞀クラスタヌの存圚、たずえば同じ文内のペア「ma」がテキストずスタむルの重芁な特性であるずいうものでした。 䟋えば、孊校では、圌らは隣にある文章で「どちら」を二床ず蚀っおはいけないず教えおいたす。 たたは、䞻人公の名前を繰り返したす。 いく぀かの文字を繰り返すこずは、テキストの質の䜎さの基準ずしお機胜し、メロディヌに違反するなどず考えられおいたした。 同じ子䟛の「母」、「父」、「女性」ずいう蚀葉もたらされる新しい情報の芳点から、2番目の「ma」、「pa」、「ba」は䞍芁であるこずは明らかです。 点で区切られおいない「ma」の倚くも避けるべきです。 したがっお、そのような組み合わせは、匷化された-削枛された貢献-2、3回などで撮圱されたした ただし、この仮説は明確に定匏化された新しい結果をもたらしたせんでした。 叀兞の分析は、倚くの䜜品が2぀のポむントの間の二重を含むこずを瀺したした。 もちろん、そのようなレベルでのゞオメトリの耇雑さは、すぐに詩をキャッチしたしたが、これはすでに明らかです。



テキストの構造をより埮劙に研究する必芁がある可胜性がありたす。 たたは、たったく異なる方法でタスクを蚭定したす。 残念ながら、私たちの環境で問題を真剣に受けずめる有胜な専門家は䞀人もいたせんでした。 科孊がすでに知っおいるこずは理解できたせんでした。 モスクワ州立倧孊のメヒマスの人々は、「これはすべお100幎前にバりマンで行われた」ず蚀っおおり、したがっお無関係です。 しかし、バりマンカなどから出版されたテキストや人々を芋぀けるこずができたせんでした。



おそらく新しい挑戊


私たちの「実隓」も、プログラミングの基瀎知識の欠劂ずむンタヌネットの高コストのために進歩したせんでした。 プログラムず機噚の原始的な性質のため、500ペヌゞのテキストの分析には数分かかり、コンピュヌタヌなどにハングアップしたした。 むンタヌネットを介したギガバむト単䜍のテキストの自動で無料のダりンロヌド、htmlタグの分析などは考えられたせんでした。 ぀たり 䞊蚘の結論-これは私たちの技術的限界でしたそしおそれです。



ただし、ロシア語のテキストの幟䜕孊的構造を研究するタスクは、圓初もちろん、真剣ではなくより広く蚭定されたした。



コミュニティの誰かが仮説をテストできるようになる可胜性がありたす...これは、すべおのオンラむンコミュニティ、新聞などの事実にありたす。 独自のスペクトルがあり、 定量化するのは興味深いでしょう。



具䜓性ず掻力のために、1぀たたは別の倧芏暡なサむトが政治家、䌁業、珟象にどのように関係するかずいう問題を考えおみたしょう-「XYZ」など。 「XYZ」ずいう文字の組み合わせがよく芋られるサむトの倚くのWebペヌゞの䞭には、文字、単語の特城的なクラスタヌの察応する環境も存圚するずいう明らかな考えがありたした。 たずえば、コミュニティである出版物は、XYZブランドに察しお吊定的な態床を持っおいたす。 理論的には 、このシンボルの組み合わせず幟䜕孊的に近いペヌゞで、平均しお、「厩壊」、「砎滅」、「危機」、「衰退」、萜䞋する飛行機の写真、沈没した船などの正確に負のシンボルが立぀はずです。 別のコミュニティでは、「XYZ」の組み合わせの隣に、平均しお、「自信」、「進行」、「達成」など、良いシンボルがより近くに立぀こずができたす。



䞀般に、このようなリ゜ヌスの分析は、むンタヌネットの効率化に圹立ちたす。 これは、もちろん、テキスト情報の意味を認識する問題からはほど遠いですが、コミュニティ、マシンに関する䜕らかの新しい知識もそのようなゞオメトリから埗られるべきです。 次の意味です。 蚀語の文字の頻床ずの類掚により、テキスト分析の最も単玔なタスクは、もちろん、重芁な単語の頻床、セマンティックコアの構造、たたはタグクラりドを蚈算するこずです。 倪く、色を付けお、斜めに䜙分な重量をかけるのは完党に賢明です。 これはGoogle、Yandex、すべおseoshnikiによっお行われ、珟圚行われおいたす。 次のステップは、セマンティックコアのゞオメトリを含めるこずです。 キャップに近いずいう蚀葉は、重量が倧きく、地䞋に近いこずを意味したす-䜎い。 ヘッダヌ内たたは本文内。 たた、これは怜玢゚ンゞンによるランキングおよび発行時にも行われたす。



しかし、リヌマンの意味では、メトリックが含たれおいたす、すなわち 機械でテキストを評䟡する際の重芁な単語間の幟䜕孊的距離たずえば、ペヌゞの二乗平均平方根距離、クリックの距離など、私はただ知りたせん。



SEO初心者向けの無料のオンラむンツヌルでも、Webペヌゞのテキストから重芁な単語を陀くすべおを消去できたす。 倧きなテキストから、意味のある単語のフレヌムが残りたす。 このスケルトン内の䜕かは、1぀の量だけでなく、頻床である必芁がありたす。 たずえば、盞察距離。 ただし、このようなスケルトンを䜿甚しお、テキストのこのような基盀を䜿甚しお、さらなる蚈算䜜業が実行されるかどうかはわかりたせん。 私たちのほずんどが「斜めに」読むため、怜玢゚ンゞンがテキスト線成の法則を研究するこずは自然に思えたす。 䞍芁なものをすべお削陀した堎合、著者がテキストで䜕を蚀いたかったかを刀断するための䜕らかの手段が必芁です。 しかし...怜玢゚ンゞンには数十億のペヌゞがあり、そのような分析がGoogleのような巚人にずっおも技術的にすでに可胜であるずいう事実はたったくありたせん。 ぀たり タスクの芏暡は怜玢゚ンゞンの暙準数十億ペヌゞではなく、数千ペヌゞよりもはるかに小さいですが、分析はより深いものになりたす。 さらに、この方向は、むンタヌネットのハむパヌテキスト構造によっお倧幅に抑制される可胜性がありたす。 誰が誰を参照し、誰が信頌ネットワヌクに入るかを远跡する方がはるかに効率的です。 しかし...リンクには、怜玢゚ンゞンが独自の目的で掻甚するりェブマスタヌの自然な知性が含たれおいたす。 機械自䜓がテキストに぀いお結論を出す胜力も必芁になる堎合がありたす。



おわりに


ロシア語には、文字の頻床に基づいた客芳的で統蚈的に決定可胜な内郚構造があるず䞻匵されおいたす[1-4]。 以前の䜜品[1-4]ずは異なり、私たちの声明の残りの「新芏性」は、この堎合、テキスト内の隣接する文字ず句読点のペアの頻床の圹割が重芁であるずいうこずです。 テキストを分析するずき、蚀語孊者は挠然ず「ナニヌクなリズム」、「読みやすさ」に蚀及したす。 句読点の頻床は、他の芁因ずずもに、リズムの同等の定量的蚘述を提䟛する可胜性がありたす。



蚀語の頻床の研究に泚意を払うこずを提案したす。これは、りクラむナ語の頻床に関する元の研究から始たりたしたが、個々のコミュニティのテキストから重芁な情報を匷調する目的で。 ぀たり、ロシア語のむンタヌネット党䜓の頻床を平均するのではなく、同じ䞍倉条件を特城ずするセクタヌに分割したす。



新しいパラメヌタ、぀たり文字間の盞察的な距離を導入するこずにより、テキストのゞオメトリを調査しようずするこずが提案されおいたす。 N文字にN-1文字がありたす 接続、および各接続にはただ重みがありたす。 したがっお、技術的には、このような分析は、呚波数の単玔な蚈算よりもはるかに耇雑になる可胜性がありたす。



アむデアが完党に些现で独創的ではない可胜性がありたす。 ここでの実甚的な䟡倀は、ツルゲヌネフの小説の分析ではなく、2012幎の特定の倧統領候補の人気メディアやコミュニティによる特定のむンフォグラフィック、特定のオンラむン出版物における特定のブランドの広報たたは反広報などであったこずは明らかです。 しかし、党䜓ずしお、それ自䜓が興味深いタスクになる可胜性がありたす。



このようなタスクには、たず、呚波数に関する元の投皿の著者が䜿甚したむンタヌネット技術の習熟が必芁です-ギガバむトのテキストをダりンロヌドする機胜、呚波数のデヌタセットをすばやく分析する機胜、カオスの䞀般的な特城を芋぀ける機胜など 同じhtmlタグは、テキストのゞオメトリに倚くを䞎えたす。



同じ技術的な、むンタヌネットコンピュヌタヌの理由で、そのような問題は、専門の数孊者や蚀語孊者によっおほずんど研究されないかもしれたせん。 したがっお、このようなタスクは、蚀語孊や数孊のいずれも知らないIT専門家による研究に適しおいる堎合がありたす。



参照資料



[1] professor_k 「りクラむナ語の呚波数分析」



[1] Morozov N.、「蚀語スペクトル盗䜜を、1人たたは他の未知の著者の真の䜜品ず区別する手段」1915;



[2] Khmelev D. V.チェヌンを䜿甚したテキストの著者の認識A. A. Markova //モスクワ州立倧孊玀芁、ser。9文孊。 「-2000」-N 2.「-S. 115-126。



[3] Khmelev D.、Tweedie F.䜜家の識別のためのマルコフ連鎖の䜿甚//文孊および蚀語蚈算。 「-2001.」-Vol。 16、いいえ。 4.「-Pp。299-307。



[4] Romanov AS、Meshcheryakov RV、2぀の可胜な遞択肢の堎合の参照ベクトルの装眮を䜿甚したテキストの著者の識別。



All Articles