ロシア語のテキストの明瞭度を評価する簡単な方法

実際、以下に公開されているのは、 技術の観点からの出版物「明確なロシア語」とは何かに関する私のコメントです。 テキストの読みやすさの指標を見てみましょう 。 コメントを残すことができないので、Sandboxに書き込みます。



投稿で議論されたテキストの理解可能性を評価するための基準は、これらのテキストが書かれている言語についての事実上ゼロの知識に基づいています。 このアプローチは計算のしやすさの点では便利ですが、多くの関連データを使用することはできません。 ロシア語の場合、他に何を使用できるかは明らかであり、このデータには簡単にアクセスできます。



私の意見では、理解不能は2つのタイプに分けるのが理にかなっています。



(a)深い理解不能(書かれたものを理解することが不可能な場合);



(b)複雑さに関連した混乱。



タイプ(a)の不可解性は、すべてではなくとも1秒ごとに飽和する公式文書であり、人々は単に自分の考えを表現する方法を知らないという事実と関連しています。 頭の中で理解できるように見え、どうにかして「言葉で」説明することができたものは、紙に移すことができません。勢いが閉じず、照応が絡み合い、構成は一緒になってはいけないものを結合します。 純粋なケースでは、これを通常のテキストと自動的に区別することは困難です。テキストを表面的に読んでいる人でさえ、それが多かれ少なかれ何もないと思い込んでしまうことがよくあります。 さらに、これを自動的に修正することは不可能です。最初に著者と一緒に座って、実際に彼が念頭に置いていた彼から長い間こじ開けなければなりません。 しかし、幸いなことに、この不可解性はほとんど常にタイプ(b)の不可解性を伴うため、少なくとも不可解なテキストを明らかにすることは可能です。



理解不能=複雑さは、人々が教育や特別な努力なしでは理解されていないいくつかの重要な言語ツールを使用することを意味します。 そして、ここで私たちは伝統的な測定基準の媒介性に直面しています。 もちろん、長い文は避けるのが最善ですが、長い文自体は暗闇と同義ではありません:単純なリストは、必ずしも理解できないようにすることなく、文を長くすることができます。 長い単語を使用しても、テキストが意図的に理解不能になることはありません。 結局、誰も技術用語をキャンセルせず、すべての微妙な点を簡単な言葉で伝えることはできません。公式文書は、複数文字の物の「実装」、「持ち込み」などなしではできないという事実は言うまでもありません。 言い換えると、常に新しい用語を思い付かないと、だんだん同じ言語を話すようになります。



タイプ(b)の複雑さは主に構文上の、または修辞的な複雑さであるように思えます。 チャンスは通常、解析ツリーがすぐに天井を突破するという事実によって特徴付けられ、これはほとんどすべての「暗い」テキストに典型的です。 テキストをより理解しやすくするには、構造を単純にする必要があります。 これは非常に簡単です。ほとんどの場合、構文の複雑さは、単一の手段(実際の音声の分詞)を使用して達成されます。 積極的な分詞なしで混乱を招くテキストを書こうとすると、それはほとんど不可能であることがわかります。 または、あなたは完全に不条理になります。または、必要に応じて提案が短くなり、より理解しやすくなります。 ロシアの人々は、口語スピーチに分詞と分詞を使用しないという説は、世界と同じくらい古い。 それは完全に真実ではありません-私は彼らのスピーチで秘跡と分詞を使用する人々を知っています、私はそれらを自分で使用します-しかしこれが主に書かれた言語であり、シセロのようなロシア語を書き込もうとした結果であることは間違いありません2番目の南スラブの影響を開始した人々によってコピーされます)。



私はこれがテキストの理解可能性を評価する唯一の真の方法であるとは主張しませんが、アクティブな分詞の数が他のどの要因よりも悪くない複雑なロシア語のテキストを明らかにすることはほぼ確実です。 予備チェックのために、私は5つのテキストを取りました:「キャプテンの娘」、「戦争と平和」、「戦争と平和」のエピローグ、その不明瞭さのために輝かしい、「合理性の古典的および非古典的理想」Merab Mamardashvili(ロシア語を話す著者の現代哲学的テキスト)および連邦「ロシア連邦の教育に関する法律」。 テキストを文に分割し、Python 3 + pymorphy2を使用して、それぞれのアクティブな分詞の平均数を計算しました。 結果は予測可能でしたが、それでも雄弁です:







投稿で提供されるサービスは、次の結果をもたらします。







彼は2つの試みで戦争と平和の全文に対処することができませんでした-問題が何であるかを知ることは面白いでしょう。 ランキングのランキングは一致していることがわかりますが、分詞で測定すると、教育法と「キャプテンの娘」の違い、「戦争と平和」のエピローグとママルダシュビリのテキストの違いが大きくなっています。 絶対値を保証することはできませんが、ママルダシュビリのテキストはトルストイのテキストよりも複雑であると思われます。



反対側から行くと、Mamardashviliのテキストが最も複雑であることがわかります。 単語の複雑さは、その長さだけでなく、テキスト内の出現によっても考慮することができます。 まれな言葉=難しい。 単語の希少性を測定するために、NKRJ Webサイト公開されている頻度データを取得し、各テキストについて、各単語が数字= 1 /出現(つまり、単語の希少性)に対応する配列を作成しました。 NKRYテーブルでは、最もまれな単語が3回出現するため、単語がテーブルにない場合、1/2の希少性を受け取りました。 次に、すべてのテキストの平均辞書希少性を計算しました。 この格付けでは、「戦争と平和」が完全にエピローグを追い越し(フランス語はありません)、さらに高いのは「Captain's Daughter」(多くの非自明なスペル)、教育法、および「理想」です。 これは少し曲がった結果ですが、テキストがMamardashviliにどの程度具体的であるかを示しています。 分詞のデータと単語のデータを掛け合わせると、非常に意味のある次の評価を得ます。










All Articles