👋🏻 🍎 🛷 海の泥の網が戻ってきて...... 💏 🕳️ 🎲

約1年半前、私は小さな実験を行うことにしました。目標は、集中したニュースピークを見ることでした。私は次のことをしました：

1）Rarsarsil bash.im（当時はまだbash.org.ru）とそこにある単語の頻度辞書を作成しました。

2）Rarsarsil Wikipediaと頻度辞書を作成しました（より正確には、そうではありませんが、その時点ですでにWikipedia辞書を持っていますが、以前はまったく別の目的で作成していました）。

3）Bashの辞書を出現順に降順でソートし、それに沿って歩き、Wikipediaで発見されたことのない単語を入力しました。

一般的に、すべての準備が完了した後、スクリプトを起動し、現代のスラングをすべての栄光で見る準備をしました。プログラムは印刷を開始しました...

冒とくにアレルギーのない人は、リンクをたどって、受け取ったリストのトップを賞賛することができます（編集なし、プログラムの発行時に公開します）。

警告しました！

リンクをたどらなかった人のために、管理者、サーバー、コメント、Fotikなど、本当に多くのスラングがありました。しかし、彼はさらに強制的なharfogrofichiskih ashybokとマットを得ました。

慰め-ロシアのウィキペディアでは、これらの言葉はまだ存在していませんでした！

アプリケーション 。

この記事はまだプログラマー向けであるため、Wikipedia頻度辞書の作成方法を説明します（ソースが見つかった場合は、記事に添付します）。

1）ロシア語版ウィキペディアのダンプをダウンロードします。最新バージョンは常にここにあります-download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2

2）すべてのタグを削除し、イタリアの同志であるmedialab.di.unipi.it/wiki/Wikipedia_Extractorによって記述されたこのPythonスクリプトを使用して、テキストをそのまま残します。

3）各ファイルについて、キリル文字でもハイフンでもないすべてのものをセパレーターとして使用して（すべての種類のロッキングチェアを分割しないように）テキストを分割し、トークンをカウントします（コレクションを使用できます。Python標準ライブラリのカウンター）

4）結果の辞書を結合します。

付録2

しかし、実際のウィキペディア辞書は、約2年前にそれを行いました。

たとえば、あらゆる種類の興味深い特性を持つ単語を探します（たとえば、「癒しにくい」-すべての文字が異なるロシア語で最も長い単語としましょう）。または、アナグラムジェネレータを作成するとしましょう。ただし、辞書を使った実験については別の投稿をしようとします。

海の泥の網が戻ってきて......

More articles: