ワード配布
最初にいくつかの数字を示します。
ロシア語のテキストの12.5 Mb(主にさまざまな著者の古典文学)、142,114の異なる単語では、結合 "and"が最もよく見られます-83,575回(単語はすべての単語形式で使用されます)。 そして、それは半分以上です!
2番目に頻繁に発生するのは前置詞「by」-52124回、3位-粒子「not」:36268回です。
「said」という動詞(単数形、3l)は、6,566回発生し、28位です。
しかし、「はい」という単語は36位にあり、5039回出現しますが、「いいえ」は2948回出現し、53位に出現しています。
残りの単語は、著者の好みに基づいて、非常にランダムに選択されます。
テキストの本文上の単語の頻度は、英語のZipf法の発見以来(つまり、60年以上)、このトピックに関するさまざまな辞書とレビューが公開されてから研究されてきましたが、ロシア語についてはもう少し慎重かつ明確に見ていきます。
詳細なグラフと例と結論